Construindo agentes de voz em WebRTC: a stack de produção

WebRTC é o transporte certo para agentes de voz. WebRTC puro não é produto. Veja o que produção exige além do protocolo e como o SipPulse AI entrega.

SipPulse AI - Equipe de Engenharia20 de outubro de 20256 min de leitura

Construindo agentes de voz em WebRTC: a stack de produção

A primeira decisão difícil em qualquer projeto de agente de voz é a camada de transporte em tempo real. A maioria das equipes começa com WebSocket por familiaridade. Ship uma demo. A demo funciona no escritório. Ela desmorona no minuto em que um usuário real entra de uma 4G instável, em um open space, atrás do firewall corporativo. WebRTC é o protocolo que resolve todos esses problemas e é o padrão por trás de todo agente de voz sério em 2026. Mas WebRTC puro não é produto. Este post caminha pelo motivo de o WebRTC vencer, pelo que produção realmente exige além do protocolo e por como o SipPulse AI entrega o que você não quer construir.

Por que WebRTC é o transporte certo

WebRTC foi projetado para áudio e vídeo bidirecionais de baixa latência pela internet pública. É o protocolo por trás de toda chamada de vídeo que você fez na última década: Google Meet, Microsoft Teams, FaceTime pela web. As peças que já vêm prontas são exatamente as que um agente de voz precisa:

Transporte de áudio com controle de congestionamento embutido e latência abaixo de um segundo
Cancelamento de eco, supressão de ruído e ganho automático no cliente
NAT traversal que funciona em roteador doméstico, operadora móvel e firewall corporativo
Bitrate adaptativo que sobrevive a uma 4G instável sem derrubar a chamada

WebSocket pode streamar áudio, mas você tem que plugar tudo isso em cima. Quando termina, construiu uma versão pior do WebRTC. Há um consenso forte na indústria: qualquer coisa em tempo real deve usar WebRTC.

O que WebRTC puro não te dá

WebRTC é um protocolo. Move bytes. Tudo que transforma esses bytes em um agente de voz funcional precisa ser construído. A lista é maior do que a maioria das equipes imagina:

Um servidor de mídia (SFU ou MCU) que escala além de peer-to-peer e cuida de gravação, observabilidade e roteamento
Dispatch de jobs que conecta uma chamada recebida ao worker do agente certo sem race condition
Um pipeline de áudio que roda STT, LLM e TTS em paralelo com latência sub-segundo
Turn detection que distingue fim real de turno de um backchannel como "aham"
Tratamento de barge-in que deixa o usuário interromper o agente sem falso gatilho de ruído de fundo
Uma ponte SIP para o agente atender telefonema, não só sessão de navegador
Telemetria que captura latência por estágio para depurar por que uma conversa específica ficou lenta
SDKs cliente para web, iOS, Android, React Native, Unity e aquele dispositivo embarcado que você esqueceu

Cada um desses é um projeto de engenharia de meses. Juntos são um ano de trabalho antes de você escrever qualquer lógica de agente. É esse o gap entre uma demo WebRTC e um agente de voz que entra em produção.

Telefonia: onde WebRTC encontra o mundo real

A maioria dos usuários de agente de voz não baixa SDK. Liga para um número. A camada WebRTC é suficiente para embed no navegador e app mobile, mas produção quase sempre precisa de um SIP trunk que faça a ponte entre o mundo WebRTC e a rede pública de telefonia.

A ponte tem que negociar codec (PCMU e PCMA no lado SIP, Opus no WebRTC), DTMF para passagem por URAs legadas, STIR/SHAKEN para atestação de caller ID de saída e portabilidade de número para empresas que já têm número. Construa isso sozinho e você gasta um trimestre só nos edge cases de codec. Compre de um provedor VoIP genérico e gasta outro trimestre integrando com o runtime do agente.

Uma plataforma de agente de voz que ship integração SIP nativa na camada WebRTC não é uma feature. É a diferença entre produto e projeto de ciência.

Turn detection adaptativo ganha do VAD puro

A maioria dos protótipos de agente de voz começa com Voice Activity Detection (VAD): quando o usuário fica em silêncio por 500ms, trata como fim de turno, aciona o LLM, fala a resposta. Funciona em sala silenciosa. Quebra no minuto em que o usuário tem cafeteira de fundo, open space, TV ligada ou só o hábito de pausar no meio da frase.

Turn detection de produção usa sinais prosódicos (queda de pitch, entonação), pistas lexicais (fronteira de frase, fim de pergunta) e scores de confiança além do silêncio. Abordagens adaptativas detectam barge-in verdadeiro mais rápido que VAD em 64% dos casos, segundo benchmarks da indústria. A diferença aparece nas avaliações do produto: o mesmo agente parece uma conversa com turn detection certo e uma secretária eletrônica sem ele.

Telemetria: prove sua latência ou esconda

Todo vendor de agente de voz diz ter latência baixa. Quase nenhum publica número. A razão é que latência no mundo real em tráfego de produção costuma ser 5x pior que os slides de marketing. A mediana do setor fica em 1,4 a 1,7 segundos, enquanto a expectativa humana de conversa é mais perto de 200ms.

A forma honesta de avaliar um agente de voz é medir em workload ao vivo, desmembrado por estágio: STT, LLM TTFT, TTS first byte, detecção de fim de turno, latência total da conversa. Qualquer outra coisa é teatro.

Como o SipPulse AI entrega a stack de produção

O SipPulse AI é a stack de produção em cima do WebRTC. Entregamos:

Camada realtime gerenciada com transporte WebRTC sub-segundo, roteamento de mídia escalável e presença global
Integração SIP nativa para que o mesmo agente atenda chamadas no navegador e telefonemas
Pulse Precision Pro para STT, ajustado para áudio ruidoso de contact center e português do Brasil
Pulse TTS para síntese, com múltiplos modelos de voz e first byte abaixo de 150ms
NIVA para combinar fluxos de URA e múltiplos agentes especializados em um construtor visual por blocos, de modo que uma pessoa sem perfil de engenharia consegue montar "cumprimenta o cliente, classifica a intenção, roteia para o agente certo, escala para humano" em uma tarde
Turn detection adaptativo por padrão
Telemetria por chamada entregue via webhooks para seus sistemas; uma página consumidora de exemplo está aberta para você ver os eventos ao vivo

Vendemos a stack de produção inteira com o trabalho de engenharia feito, não um wrapper fino em torno de modelos hospedados. Você pode conversar com ela agora em sippulse.ai/demos e ver a latência no dashboard.

Conclusão

WebRTC é o transporte certo para agentes de voz, mas o protocolo é a parte fácil. A parte difícil é tudo que precisa ser construído em cima: roteamento de mídia, ponte SIP, turn detection, codecs de telefonia, telemetria, dispatch de agentes, STT e TTS multilíngues e um construtor de fluxo para quem não é engenheiro. O SipPulse AI entrega tudo isso como uma stack só. Teste a demo ou fale com o time para ver como juntamos tudo.

#agente de voz#WebRTC#SIP#realtime#telefonia#produção