Construyendo agentes de voz sobre WebRTC: el stack de producción

WebRTC es el transporte correcto para agentes de voz. WebRTC crudo no es producto. Lo que producción exige más allá del protocolo y cómo SipPulse AI lo entrega.

SipPulse AI - Equipo de Ingeniería20 de octubre de 20257 min de lectura

Construyendo agentes de voz sobre WebRTC: el stack de producción

La primera decisión difícil en cualquier proyecto de agente de voz es la capa de transporte en tiempo real. La mayoría de los equipos arrancan con WebSocket por familiaridad. Envían una demo. La demo funciona en la oficina. Se cae en cuanto un usuario real entra desde una 4G inestable, en una oficina abierta, detrás del firewall corporativo. WebRTC es el protocolo que resuelve todos esos problemas y es el estándar detrás de todo agente de voz serio en 2026. Pero WebRTC crudo no es producto. Este post recorre por qué WebRTC gana, qué exige producción más allá del protocolo y cómo SipPulse AI entrega las piezas que no quieres construir tú mismo.

Por qué WebRTC es el transporte correcto

WebRTC fue diseñado para audio y video bidireccional de baja latencia sobre la internet pública. Es el protocolo detrás de toda videollamada que has hecho en la última década: Google Meet, Microsoft Teams, FaceTime por web. Las piezas que ya vienen de fábrica son exactamente las que un agente de voz necesita:

Transporte de audio sub-segundo con control de congestión incorporado
Cancelación de eco, supresión de ruido y control automático de ganancia en el cliente
NAT traversal que funciona en routers domésticos, operadoras móviles y firewalls corporativos
Bitrate adaptativo que sobrevive a una 4G inestable sin tirar la llamada

Un WebSocket puede transmitir audio, pero tienes que armar todo eso encima. Cuando terminas, construiste una versión peor de WebRTC. Hay un consenso fuerte en la industria: cualquier cosa en tiempo real debería usar WebRTC.

Lo que WebRTC crudo no te da

WebRTC es un protocolo. Mueve bytes. Todo lo que convierte esos bytes en un agente de voz funcional hay que construirlo. La lista es más larga de lo que la mayoría de los equipos imagina:

Un servidor de medios (SFU o MCU) que escala más allá de peer-to-peer y maneja grabación, observabilidad y enrutamiento
Despacho de jobs que conecta una llamada entrante al worker del agente correcto sin condiciones de carrera
Un pipeline de audio que ejecuta STT, LLM y TTS en paralelo con latencia sub-segundo
Turn detection que distingue un fin real de turno de un backchannel como "ajá"
Manejo de barge-in que deja al usuario interrumpir al agente sin disparar falsos por ruido de fondo
Un puente SIP para que el agente conteste un teléfono, no solo una sesión de navegador
Telemetría que captura latencia por etapa para depurar por qué una conversación específica se sintió lenta
SDKs cliente para web, iOS, Android, React Native, Unity y aquel dispositivo embebido que olvidaste

Cada uno de esos es un proyecto de ingeniería de meses. Juntos son un año de trabajo antes de que escribas cualquier lógica de agente. Esa es la brecha entre una demo de WebRTC y un agente de voz que se envía.

Telefonía: donde la historia de WebRTC se encuentra con el mundo real

La mayoría de los usuarios de agentes de voz no descargan SDKs. Llaman a números de teléfono. La capa WebRTC alcanza para embeds en navegador y apps móviles, pero producción casi siempre necesita un SIP trunk que haga puente entre el mundo WebRTC y la red telefónica pública.

El puente tiene que negociar codec (PCMU y PCMA del lado SIP, Opus en WebRTC), DTMF para pasarlo a IVRs legados, STIR/SHAKEN para atestación de caller ID saliente y portabilidad de número para empresas que ya tienen número. Constrúyelo tú mismo y gastas un trimestre solo en los casos límite de codec. Cómpralo de un proveedor VoIP genérico y gastas otro trimestre integrándolo con el runtime del agente.

Una plataforma de agentes de voz que envía integración SIP nativa a su capa WebRTC no es una feature. Es la diferencia entre producto y proyecto de ciencia.

Turn detection adaptativo le gana al VAD crudo

La mayoría de los prototipos de agente de voz arrancan con Voice Activity Detection (VAD): cuando el usuario queda en silencio por 500ms, lo tratan como fin de turno, disparan el LLM, hablan la respuesta. Funciona en una sala silenciosa. Se rompe en cuanto el usuario tiene una cafetera de fondo, una oficina abierta, un televisor encendido o el simple hábito de pausar en el medio de una frase.

Turn detection de producción usa señales prosódicas (caídas de pitch, entonación), pistas léxicas (límites de oración, finalización de pregunta) y puntuaciones de confianza además del silencio. Los enfoques adaptativos detectan barge-in real más rápido que VAD en el 64% de los casos según benchmarks de la industria. La diferencia aparece en las reseñas: el mismo agente se siente como una conversación con la turn detection correcta y como contestador automático sin ella.

Telemetría: prueba tu latencia o escóndela

Todo proveedor de agente de voz dice tener latencia baja. Casi ninguno publica los números. La razón es que la latencia real en tráfico de producción suele ser 5x peor que las diapositivas de marketing. Las medianas del sector están entre 1,4 y 1,7 segundos, mientras que la expectativa humana de conversación está más cerca de 200ms.

La forma honesta de evaluar un agente de voz es medirlo en workload en vivo, desglosado por etapa: STT, LLM TTFT, TTS first byte, detección de fin de turno, latencia total de conversación. Cualquier otra cosa es teatro.

Cómo SipPulse AI entrega el stack de producción

SipPulse AI es el stack de producción sobre WebRTC. Te damos:

Una capa en tiempo real gestionada con transporte WebRTC sub-segundo, enrutamiento de medios escalable y presencia global
Integración SIP nativa para que el mismo agente conteste llamadas en navegador y por teléfono
Pulse Precision Pro para STT, ajustado para audio ruidoso de contact center y portugués brasileño
Pulse TTS para síntesis con múltiples modelos de voz y first byte por debajo de 150ms
NIVA para combinar flujos de IVR y múltiples agentes especializados en un constructor visual por bloques, de modo que una persona sin perfil de ingeniería pueda armar "saluda al cliente, clasifica intención, enruta al agente correcto, escala a humano" en una tarde
Turn detection adaptativo de fábrica
Telemetría por llamada entregada vía webhooks a tus sistemas; una página consumidora de ejemplo está abierta para que veas los eventos en vivo

Vendemos el stack de producción entero con el trabajo de ingeniería ya hecho, no un envoltorio fino sobre modelos hospedados. Puedes hablar con él ahora en sippulse.ai/demos y mirar la latencia en el dashboard.

Conclusión

WebRTC es el transporte correcto para agentes de voz, pero el protocolo es la parte fácil. La parte difícil es todo lo que hay que construir encima: enrutamiento de medios, puente SIP, turn detection, codecs de telefonía, telemetría, despacho de agentes, STT y TTS multilingüe y un constructor de flujo para no ingenieros. SipPulse AI envía todo eso como un solo stack. Prueba la demo o habla con el equipo para ver cómo lo armamos.

#agente de voz#WebRTC#SIP#tiempo real#telefonía#producción