Blog

Turn detection, barge-in e tratamento de interrupções em agentes de voz

Turn detection e barge-in separam agentes de voz conversacionais de secretárias eletrônicas. Por que VAD puro falha e como é turn-taking de produção.

SipPulse AI - Equipe de Engenharia12 de janeiro de 20266 min de leitura
Compartilhar
Turn detection, barge-in e tratamento de interrupções em agentes de voz

Na primeira vez que você constrói um agente de voz, pensa que o problema difícil é fazê-lo falar. Depois da primeira demo, percebe que o problema difícil é fazê-lo escutar. Um agente de voz que não detecta o fim do turno do usuário fala por cima. Um agente de voz que não trata barge-in continua monologando enquanto o usuário tenta corrigir. Um agente de voz que confunde um "aham" com novo turno entrega a palavra sem motivo. Turn detection e tratamento de interrupções são onde agentes de voz conversacionais se separam dos robóticos, e a diferença é quase invisível até entrar em produção.

Turn detection: quando o usuário para de falar

Turn detection é o processo de decidir quando o usuário terminou o turno para o agente começar a responder. A abordagem ingênua é Voice Activity Detection (VAD): espere 500ms de silêncio, trate como fim de turno, dispare o LLM. Funciona em demo. Falha em produção, porque pessoas reais não falam em turnos limpos delimitados por silêncio.

Conversa real é bagunçada:

  • O usuário pausa no meio da frase para lembrar de um nome
  • Um suspiro, uma tosse ou um clique de teclado é registrado como fala
  • Ruído de fundo (TV, colegas, cafeteira) preenche o que deveria ser silêncio
  • Falantes não-nativos fazem pausas mais longas entre orações

Um agente de voz que assume "fala depois de 500ms de silêncio" ou corta o usuário em turnos sim outros não ou espera para sempre por um silêncio que nunca chega. Turn detection precisa ser mais esperto que silêncio.

O que barge-in significa

Barge-in é o usuário interrompendo o agente no meio da resposta. O caso clássico é o agente recitando um disclaimer longo e o usuário dizendo "não, só quero meu saldo" no meio. Um agente de voz que não pode ser interrompido força o usuário a esperar todo o monólogo, que em contact center é o caminho mais rápido para derrubar o CSAT.

Tratamento de barge-in bom significa: o agente para imediatamente de falar no momento em que o usuário começa a falar, captura o que o usuário disse e responde ao novo input. Tratamento ruim significa: o agente continua falando até o turno dele acabar, ou para mas perde o começo do que o usuário disse, ou pior, trata ruído de fundo como barge-in e fica em silêncio sem motivo.

Por que VAD sozinho não basta

A indústria passou os últimos dois anos estabelecendo que VAD puro não é suficiente para agentes de voz em produção. VAD simplesmente detecta se um quadro de áudio contém energia parecida com fala. Não distingue entre:

  • Um barge-in real (usuário quer interromper)
  • Um backchannel ("aham", "é", "certo", usuário reconhecendo, agente deve seguir falando)
  • Ruídos do usuário (suspiros, tosses, risos)
  • Ruídos de fundo (teclado, música, conversa distante)

Um modelo de turn-taking construído só em VAD trata os quatro como gatilhos equivalentes. Agentes de voz em produção disparam em backchannels, ficam em silêncio em ruído de fundo e falham em interromper em barge-ins reais.

O que turn detection de produção adiciona

Turn detection avançado combina VAD com pelo menos três outros sinais:

  • Sinais prosódicos: padrões de entonação, queda de pitch no fim de afirmações, pitch subindo em perguntas
  • Pistas lexicais: detecção de fronteira de frase, fim de pergunta, parsing no nível de oração em transcrições parciais
  • Scores de confiança: confiança numérica do modelo STT sobre se a saída atual é o fim de uma frase

Alguns sistemas de produção usam padrões de pontuação gerados pelo STT para detectar conclusão de turno. Modelos de streaming universal ship scores de confiança numéricos por transcrição parcial que a lógica de turn-taking lê direto. Um modelo de turn detection baseado em transformer é treinado especificamente para produzir "esse é provavelmente o fim do turno do usuário" como probabilidade, não binário.

O ganho é mensurável. Abordagens adaptativas detectam barge-in verdadeiro mais rápido que VAD em 64% dos casos em benchmarks padrão. Mais importante, disparam em backchannel dramaticamente menos, que é o modo de falha do qual os usuários reclamam.

O alvo de latência: abaixo de 300ms

Turn detection fica no caminho crítico de toda resposta do agente. Um detector que leva 500ms para disparar adiciona 500ms de silêncio em toda resposta. O alvo de produção é abaixo de 300ms ponta a ponta desde o usuário parar de falar até o agente começar a falar.

Esse orçamento é compartilhado com o TTFT do LLM, por isso latência de turn detection é recurso precioso. Gastar 200ms numa decisão melhor de turno que corta 50% dos falsos starts do LLM costuma ser ganho líquido de latência.

Como o SipPulse AI lida com turn-taking

O SipPulse AI ship turn detection adaptativo por padrão, combinando VAD com sinais prosódicos e lexicais. O agente distingue barge-in real de backchannel, não fica em silêncio em ruído de fundo e se recupera limpo quando o usuário pausa no meio da frase. A detecção roda no mesmo caminho de streaming do STT, então adiciona latência mínima.

Toda chamada emite um webhook que inclui eou_latency_ms (latência de detecção de fim de fala) como métrica de primeira classe, ao lado de números de STT, LLM e TTS. Você pluga esses eventos na sua stack de observabilidade. Nosso visualizador aberto de exemplo mostra como o payload aparece na prática. Converse com a demo em sippulse.ai/demos, tente interromper, tente falar com ruído de fundo e depois inspecione como o turn-taking se comportou na sua chamada.

O NIVA, nosso construtor em blocos, deixa você compor blocos de URA e agentes de voz visualmente e rotear entre eles. O motor de turn-taking é consistente entre os fluxos, então o agente se comporta do mesmo jeito num bloco rápido de "confirme sua identidade" e numa conversa mais longa de retenção.

Leia também

Conclusão

Turn detection é a feature invisível que decide se o seu agente de voz parece conversa ou secretária eletrônica. VAD sozinho não basta; sistemas de produção colocam prosódia, pistas lexicais e scores de confiança em cima. O alvo é abaixo de 300ms com ganho de 64% ou mais em acurácia de barge-in sobre VAD puro. Teste nossa demo e tente quebrar, ou fale com o time para deployar turn-taking adaptativo no seu workload.

#agente de voz#turn detection#barge-in#VAD#interrupção#conversa

Artigos Relacionados