Evaluando agentes de voz en producción: WER, MOS, latencia

Evaluar un agente de voz es más que elegir un modelo. WER por debajo del 5%, MOS 4,3 o más, latencia por debajo de 800ms, FCR por encima del 85%. Las métricas que importan.

SipPulse AI - Equipo de Ingeniería10 de marzo de 20267 min de lectura

Evaluando agentes de voz en producción: WER, MOS, latencia

La mayoría de los proyectos de agente de voz se envían sin haber sido evaluados como corresponde. El equipo elige un proveedor según una página de benchmark, construye una demo, lo escucha funcionar en la oficina y lo larga al tráfico de producción. Después empiezan los tickets de soporte: "el agente nunca me entendió", "me cortó", "la voz sonó rara". La evaluación de agentes de voz es la disciplina que atrapa todo eso antes que los clientes, y las métricas que importan no son impresiones subjetivas. Son WER, MOS, latencia punta a punta, tasa de éxito de tarea y resolución en el primer contacto, medidas sobre workload real. Este post recorre qué significa cada una, cómo se ven los objetivos de producción en 2026 y cómo armar el bucle de evaluación para que los problemas aparezcan en el dashboard, no en la bandeja de entrada.

Por qué las evaluaciones offline pierden lo que producción expone

La evaluación offline corre el modelo contra un dataset fijo y produce un puntaje. Es necesaria pero no suficiente. Las conversaciones reales tienen variables que ningún set de prueba captura: compresión de codec en audio telefónico, ruido de fondo de ambientes reales, acentos, deriva de contexto en múltiples turnos, clientes que cambian de tema en mitad de llamada, respuestas alucinadas bajo presión.

El resultado es que un agente de voz que puntúa 95% en benchmarks offline puede puntuar 70% en llamadas de producción. La brecha es para lo que sirve la evaluación. La evaluación de producción corre continuamente, en cada llamada en vivo, capturando las métricas que predicen experiencia del cliente.

WER para STT: la línea del 5%

Word Error Rate es la métrica canónica de STT. Fórmula: (sustituciones + eliminaciones + inserciones) dividido por el total de palabras, por 100. El objetivo de producción para agentes de voz empresariales es WER por debajo del 5%. Por encima del 8%, el LLM aguas abajo empieza a producir respuestas erróneas a partir de entradas mal escuchadas, que es el modo de falla del que más se quejan los clientes.

El WER de la página de marketing del modelo rara vez es el WER que tendrás en producción. Las razones:

El dataset de benchmark suele ser audio de estudio limpio, no audio de codec telefónico
El registro del lenguaje del benchmark es lectura de noticias o audiolibros, no dialecto de contact center
El audio real tiene acentos, code-switching y ruido de fondo que el set de prueba no tiene

El número honesto de WER es el que mides sobre una muestra de tu propio audio. Cualquier otra cosa es teatro.

MOS para TTS: 4,3 o más

Mean Opinion Score es el estándar de oro para evaluar calidad de TTS. Oyentes humanos califican voz sintetizada en una escala de 1 a 5 donde 5 es excelente. Puntajes de 4,3 a 4,5 indican calidad que rivaliza con voz humana natural. Por debajo de 4,0 la voz suena notoriamente sintética y los clientes lo van a mencionar.

MOS es caro de correr porque requiere evaluadores humanos. Los sustitutos que la mayoría de los equipos usa son:

Pruebas MUSHRA con grupos más chicos de calificadores para comparaciones relativas
Predictores automáticos de MOS que estiman MOS a partir de features de audio
Pruebas A/B sobre usuarios reales con una señal de satisfacción

Para agentes de voz específicamente, la pregunta relevante es "¿la voz daña la experiencia del cliente?". Una voz con MOS 4,3 en una llamada de contact center es invisible. Una voz 3,8 aparece en los comentarios de la encuesta.

Latencia: el objetivo de 800ms vs la realidad de 1,4-1,7s

La latencia es donde la brecha entre marketing y producción es más amplia. La investigación de la industria sitúa la mediana real de latencia de agentes de voz entre 1,4 y 1,7 segundos, con el 10 por ciento de las llamadas pasando los 3 segundos. La expectativa humana de conversación está más cerca de 200ms, y cualquier cosa por encima de 500ms se siente notoriamente demorada.

El presupuesto total de 800ms al que apuntan los equipos de producción se desglosa así:

VAD y captura de audio: 50ms
STT en streaming: 150ms
Time-to-first-token del LLM: 400ms
Primer chunk de audio del TTS: 150ms
Sobrecarga de red: 50ms

Sigue la latencia punta a punta de la conversación, pero también el desglose por etapa. Una llamada de 1,5 segundos donde el TTFT del LLM es de 1,2 segundos es un problema diferente de una llamada de 1,5 segundos donde la red agrega 800ms. La solución depende de saber qué etapa está lenta.

Tasa de éxito de tarea y FCR

Latencia y precisión no significan nada si el agente no resuelve el problema del cliente. Dos métricas a nivel de negocio atan la evaluación a resultados:

Task success rate (TSR): ¿el agente completó la tarea pretendida en la llamada (reservar la cita, actualizar la dirección, cobrar la tarjeta)?
First call resolution (FCR): ¿el problema del cliente se resolvió en esta llamada sin un follow-up?

El objetivo de producción para FCR en flujos de voice AI es 85% o más. Por debajo, el ahorro empieza a erosionarse porque las llamadas escaladas pegan en la cola del agente humano. Por encima, la cuenta justifica un rollout más amplio.

TSR y FCR típicamente las puntúa el mismo LLM que maneja transcripciones en tu pipeline de Auto QA, aplicando una rúbrica específica para cada flujo. El autorreporte (preguntarle al cliente "¿esto resolvió tu problema?") funciona para encuestas opt-in pero sufre de baja tasa de respuesta.

Las 50+ métricas que importan en producción

WER, MOS, latencia, TSR y FCR son los números de titular. La observabilidad real de producción va más profundo. Hay 50+ métricas a través de varias capas que vale la pena seguir:

Integridad de la señal de audio: jitter, pérdida de paquetes, mismatch de codec
Latencia de streaming por etapa: STT TTFT, STT final, LLM TTFT, LLM total, TTS TTFB, TTS total
Calidad de turn-taking: tasa de éxito de barge-in, tasa de barge-in falso, latencia de detección de fin de habla
Seguimiento de contexto en múltiples turnos: ¿el agente recordó el nombre del cliente a lo largo de 6 turnos?
Resiliencia a alucinación: ¿el agente inventa políticas, precios o hechos cuando duda?
Adherencia a seguridad: ¿el agente se quedó dentro del alcance declarado? ¿Rechazó pedidos fuera de política de forma limpia?

La evaluación online revela problemas que solo aparecen en producción, así que es esencial monitorear tanto evaluaciones offline sobre datos de prueba como métricas de producción en vivo en cada llamada.

Cómo SipPulse AI expone datos de evaluación

Cada llamada en SipPulse AI emite un webhook estructurado con las métricas que importan para evaluación de agentes de voz: duración por llamada, llm_ttft_ms, llm_latency_ms, tts_latency_ms, eou_latency_ms, conv_latency_ms, más contadores de requests por proveedor. Conectas esos eventos a tu propio stack de observabilidad para alimentar dashboards, alertas y Auto QA.

Nuestro visor de ejemplo abierto muestra el mismo payload en una pequeña página pública para que puedas ver los eventos y el esquema. Las llamadas reales de la demo rondan los 800ms de ida y vuelta total, desglosado por etapa. Habla con la demo en sippulse.ai/demos y luego inspecciona cómo se desempeñó realmente en tu llamada.

Conclusión

La evaluación de agentes de voz es lo que separa a una demo de proveedor de un producto listo para producción. WER, MOS, latencia, TSR y FCR son los números de titular; la observabilidad real sigue 50 más. Arma el bucle de evaluación el día uno y enviarás mejores agentes el día 90. Prueba nuestra demo e inspecciona los números reales o habla con el equipo para conectar la evaluación a tu stack.

#agente de voz#evaluación#WER#MOS#latencia#FCR#observabilidad

Evaluando agentes de voz en producción: WER, MOS, latencia

Por qué las evaluaciones offline pierden lo que producción expone

WER para STT: la línea del 5%

MOS para TTS: 4,3 o más

Latencia: el objetivo de 800ms vs la realidad de 1,4-1,7s

Tasa de éxito de tarea y FCR

Las 50+ métricas que importan en producción

Cómo SipPulse AI expone datos de evaluación

Lee también

Conclusión

Artículos Relacionados

Telemetría SipPulse AI: cada parámetro explicado

Agentes de voz con RAG y function calling

Cómo Voice AI está revolucionando la atención al cliente