Turn detection, barge-in y manejo de interrupciones en agentes de voz

Turn detection y barge-in separan a los agentes de voz conversacionales de los contestadores. Por qué el VAD crudo falla y cómo se ve el turn-taking de producción.

SipPulse AI - Equipo de Ingeniería12 de enero de 20266 min de lectura

Turn detection, barge-in y manejo de interrupciones en agentes de voz

La primera vez que construyes un agente de voz piensas que el problema difícil es hacerlo hablar. Después de la primera demo, te das cuenta de que el problema difícil es hacerlo escuchar. Un agente de voz que no detecta el fin del turno del usuario habla por encima. Un agente de voz que no maneja barge-in sigue monologando mientras el usuario intenta corregirlo. Un agente de voz que confunde un "ajá" silencioso con un nuevo turno cede la palabra sin razón. Turn detection y manejo de interrupciones es donde los agentes de voz conversacionales se separan de los robóticos, y la diferencia es casi invisible hasta que envías.

Turn detection: cuándo el usuario deja de hablar

Turn detection es el proceso de decidir cuándo el usuario terminó su turno para que el agente comience a responder. El enfoque ingenuo es Voice Activity Detection (VAD): espera 500ms de silencio, trata eso como fin de turno, dispara el LLM. Funciona en demos. Falla en producción, porque las personas reales no hablan en turnos prolijos delimitados por silencio.

La conversación real es desordenada:

El usuario pausa en mitad de oración para recordar un nombre
Un suspiro, una tos o un click de teclado se registra como habla
El ruido de fondo (TV, compañeros, la cafetera) llena lo que debería ser silencio
Hablantes no nativos toman pausas más largas entre cláusulas

Un agente de voz que se compromete a "hablar después de 500ms de silencio" o cortará al usuario en uno de cada dos turnos o esperará para siempre por un silencio que nunca llega. Turn detection tiene que ser más inteligente que el silencio.

Qué significa barge-in

Barge-in es el usuario interrumpiendo al agente en mitad de respuesta. El caso canónico es el agente recitando un disclaimer largo de política y el usuario diciendo "no, solo quiero mi saldo" en el medio. Un agente de voz que no se puede interrumpir fuerza al usuario a esperar el monólogo completo, lo que en uso de contact center es la forma más rápida de bajar un puntaje de CSAT.

Buen manejo de barge-in significa: el agente para inmediatamente de hablar en cuanto el usuario empieza a hablar, captura lo que dijo el usuario y responde a la nueva entrada. Mal manejo significa: el agente sigue hablando hasta que su turno termina, o para pero pierde el comienzo de lo que dijo el usuario, o peor, trata el ruido de fondo como barge-in y queda en silencio sin razón.

Por qué VAD solo no alcanza

La industria pasó los últimos dos años estableciendo que VAD crudo no es suficiente para agentes de voz en producción. VAD simplemente detecta si un cuadro de audio contiene energía similar al habla. No puede distinguir entre:

Un barge-in real (el usuario quiere interrumpir)
Un backchannel ("ajá", "sí", "claro", el usuario está reconociendo, el agente debe seguir hablando)
Ruidos del usuario (suspiros, toses, risas)
Sonidos de fondo (teclados, música, charla distante)

Un modelo de turn-taking construido solo sobre VAD trata los cuatro como gatillos equivalentes. Los agentes de voz en producción se disparan con backchannels, quedan en silencio con ruido de fondo y fallan en interrumpir en barge-ins reales.

Lo que agrega el turn detection de producción

El turn detection avanzado combina VAD con al menos otras tres señales:

Señales prosódicas: patrones de entonación, caídas de pitch al final de afirmaciones, pitch ascendente en preguntas
Pistas léxicas: detección de límite de oración, finalización de pregunta, parsing a nivel de cláusula de transcripciones parciales
Puntuaciones de confianza: confianza numérica del modelo STT sobre si la salida actual es el final de una frase

Algunos sistemas de producción usan patrones de puntuación generados por el modelo STT para detectar finalización de turno. Los modelos de streaming universal envían puntuaciones de confianza numéricas por transcripción parcial que la lógica de turn-taking puede leer directamente. Un modelo de turn detection basado en transformer está entrenado específicamente para producir "esto probablemente sea el final del turno del usuario" como probabilidad, no como binario.

La ganancia es medible. Los enfoques adaptativos detectan barge-ins reales más rápido que VAD en el 64% de los casos en benchmarks estándar. Más importante, se disparan en backchannels dramáticamente menos seguido, que es el modo de falla del que los usuarios efectivamente se quejan.

El objetivo de latencia: por debajo de 300ms

Turn detection está en el camino crítico de toda respuesta del agente de voz. Un detector que tarda 500ms en disparar agrega 500ms de silencio a cada respuesta. El objetivo de producción es por debajo de 300ms punta a punta desde que el usuario deja de hablar hasta que el agente comienza a hablar.

Este presupuesto se comparte con el time-to-first-token del LLM, por eso la latencia de turn detection es un recurso precioso. Gastar 200ms en una mejor decisión de turno que reduce los falsos arranques del LLM en 50% es usualmente una ganancia neta de latencia.

Cómo SipPulse AI maneja el turn-taking

SipPulse AI envía turn detection adaptativo de fábrica, combinando VAD con señales prosódicas y léxicas. El agente distingue barge-ins reales de backchannels, no queda en silencio con ruido de fondo y se recupera limpio cuando el usuario pausa en mitad de oración. La detección corre en el mismo camino de streaming que el STT, así que agrega latencia mínima.

Cada llamada emite un webhook que incluye eou_latency_ms (latencia de detección de fin de habla) como métrica de primera clase, junto con números de STT, LLM y TTS. Puedes meter esos eventos en tu propio stack de observabilidad. Nuestro visor de ejemplo abierto muestra cómo luce el payload en la práctica. Habla con la demo en sippulse.ai/demos, prueba interrumpirla, prueba hablar con ruido de fondo y luego inspecciona cómo se comportó el turn-taking en tu llamada.

NIVA, nuestro constructor por bloques, te deja componer bloques de IVR y agentes de voz visualmente y enrutar entre ellos. El motor de turn-taking subyacente es consistente entre flujos así que el agente se siente igual en un paso rápido de "confirma tu identidad" y en una conversación más larga de retención.

Conclusión

Turn detection es la feature invisible que decide si tu agente de voz se siente como una conversación o como un contestador automático. VAD solo no alcanza; los sistemas de producción ponen prosodia, pistas léxicas y puntuaciones de confianza encima. El objetivo es por debajo de 300ms con una mejora del 64%+ en precisión de barge-in sobre VAD crudo. Prueba nuestra demo y trata de hacerla fallar, o habla con el equipo para desplegar turn-taking adaptativo en tu workload.

#agente de voz#turn detection#barge-in#VAD#interrupción#conversación