Blog

Construindo agentes de voz em WebRTC: a stack de produção

WebRTC é o transporte certo para agentes de voz. WebRTC puro não é produto. Veja o que produção exige além do protocolo e como o SipPulse AI entrega.

SipPulse AI - Equipe de Engenharia20 de outubro de 20256 min de leitura
Compartilhar
Construindo agentes de voz em WebRTC: a stack de produção

A primeira decisão difícil em qualquer projeto de agente de voz é a camada de transporte em tempo real. A maioria das equipes começa com WebSocket por familiaridade. Ship uma demo. A demo funciona no escritório. Ela desmorona no minuto em que um usuário real entra de uma 4G instável, em um open space, atrás do firewall corporativo. WebRTC é o protocolo que resolve todos esses problemas e é o padrão por trás de todo agente de voz sério em 2026. Mas WebRTC puro não é produto. Este post caminha pelo motivo de o WebRTC vencer, pelo que produção realmente exige além do protocolo e por como o SipPulse AI entrega o que você não quer construir.

Por que WebRTC é o transporte certo

WebRTC foi projetado para áudio e vídeo bidirecionais de baixa latência pela internet pública. É o protocolo por trás de toda chamada de vídeo que você fez na última década: Google Meet, Microsoft Teams, FaceTime pela web. As peças que já vêm prontas são exatamente as que um agente de voz precisa:

  • Transporte de áudio com controle de congestionamento embutido e latência abaixo de um segundo
  • Cancelamento de eco, supressão de ruído e ganho automático no cliente
  • NAT traversal que funciona em roteador doméstico, operadora móvel e firewall corporativo
  • Bitrate adaptativo que sobrevive a uma 4G instável sem derrubar a chamada

WebSocket pode streamar áudio, mas você tem que plugar tudo isso em cima. Quando termina, construiu uma versão pior do WebRTC. Há um consenso forte na indústria: qualquer coisa em tempo real deve usar WebRTC.

O que WebRTC puro não te dá

WebRTC é um protocolo. Move bytes. Tudo que transforma esses bytes em um agente de voz funcional precisa ser construído. A lista é maior do que a maioria das equipes imagina:

  • Um servidor de mídia (SFU ou MCU) que escala além de peer-to-peer e cuida de gravação, observabilidade e roteamento
  • Dispatch de jobs que conecta uma chamada recebida ao worker do agente certo sem race condition
  • Um pipeline de áudio que roda STT, LLM e TTS em paralelo com latência sub-segundo
  • Turn detection que distingue fim real de turno de um backchannel como "aham"
  • Tratamento de barge-in que deixa o usuário interromper o agente sem falso gatilho de ruído de fundo
  • Uma ponte SIP para o agente atender telefonema, não só sessão de navegador
  • Telemetria que captura latência por estágio para depurar por que uma conversa específica ficou lenta
  • SDKs cliente para web, iOS, Android, React Native, Unity e aquele dispositivo embarcado que você esqueceu

Cada um desses é um projeto de engenharia de meses. Juntos são um ano de trabalho antes de você escrever qualquer lógica de agente. É esse o gap entre uma demo WebRTC e um agente de voz que entra em produção.

Telefonia: onde WebRTC encontra o mundo real

A maioria dos usuários de agente de voz não baixa SDK. Liga para um número. A camada WebRTC é suficiente para embed no navegador e app mobile, mas produção quase sempre precisa de um SIP trunk que faça a ponte entre o mundo WebRTC e a rede pública de telefonia.

A ponte tem que negociar codec (PCMU e PCMA no lado SIP, Opus no WebRTC), DTMF para passagem por URAs legadas, STIR/SHAKEN para atestação de caller ID de saída e portabilidade de número para empresas que já têm número. Construa isso sozinho e você gasta um trimestre só nos edge cases de codec. Compre de um provedor VoIP genérico e gasta outro trimestre integrando com o runtime do agente.

Uma plataforma de agente de voz que ship integração SIP nativa na camada WebRTC não é uma feature. É a diferença entre produto e projeto de ciência.

Turn detection adaptativo ganha do VAD puro

A maioria dos protótipos de agente de voz começa com Voice Activity Detection (VAD): quando o usuário fica em silêncio por 500ms, trata como fim de turno, aciona o LLM, fala a resposta. Funciona em sala silenciosa. Quebra no minuto em que o usuário tem cafeteira de fundo, open space, TV ligada ou só o hábito de pausar no meio da frase.

Turn detection de produção usa sinais prosódicos (queda de pitch, entonação), pistas lexicais (fronteira de frase, fim de pergunta) e scores de confiança além do silêncio. Abordagens adaptativas detectam barge-in verdadeiro mais rápido que VAD em 64% dos casos, segundo benchmarks da indústria. A diferença aparece nas avaliações do produto: o mesmo agente parece uma conversa com turn detection certo e uma secretária eletrônica sem ele.

Telemetria: prove sua latência ou esconda

Todo vendor de agente de voz diz ter latência baixa. Quase nenhum publica número. A razão é que latência no mundo real em tráfego de produção costuma ser 5x pior que os slides de marketing. A mediana do setor fica em 1,4 a 1,7 segundos, enquanto a expectativa humana de conversa é mais perto de 200ms.

A forma honesta de avaliar um agente de voz é medir em workload ao vivo, desmembrado por estágio: STT, LLM TTFT, TTS first byte, detecção de fim de turno, latência total da conversa. Qualquer outra coisa é teatro.

Como o SipPulse AI entrega a stack de produção

O SipPulse AI é a stack de produção em cima do WebRTC. Entregamos:

  • Camada realtime gerenciada com transporte WebRTC sub-segundo, roteamento de mídia escalável e presença global
  • Integração SIP nativa para que o mesmo agente atenda chamadas no navegador e telefonemas
  • Pulse Precision Pro para STT, ajustado para áudio ruidoso de contact center e português do Brasil
  • Pulse TTS para síntese, com múltiplos modelos de voz e first byte abaixo de 150ms
  • NIVA para combinar fluxos de URA e múltiplos agentes especializados em um construtor visual por blocos, de modo que uma pessoa sem perfil de engenharia consegue montar "cumprimenta o cliente, classifica a intenção, roteia para o agente certo, escala para humano" em uma tarde
  • Turn detection adaptativo por padrão
  • Telemetria por chamada entregue via webhooks para seus sistemas; uma página consumidora de exemplo está aberta para você ver os eventos ao vivo

Vendemos a stack de produção inteira com o trabalho de engenharia feito, não um wrapper fino em torno de modelos hospedados. Você pode conversar com ela agora em sippulse.ai/demos e ver a latência no dashboard.

Leia também

Conclusão

WebRTC é o transporte certo para agentes de voz, mas o protocolo é a parte fácil. A parte difícil é tudo que precisa ser construído em cima: roteamento de mídia, ponte SIP, turn detection, codecs de telefonia, telemetria, dispatch de agentes, STT e TTS multilíngues e um construtor de fluxo para quem não é engenheiro. O SipPulse AI entrega tudo isso como uma stack só. Teste a demo ou fale com o time para ver como juntamos tudo.

#agente de voz#WebRTC#SIP#realtime#telefonia#produção

Artigos Relacionados