Avaliando agentes de voz em produção: WER, MOS, latência

Avaliar agente de voz é mais que escolher um modelo. WER abaixo de 5%, MOS 4,3 ou mais, latência abaixo de 800ms, FCR acima de 85%. As métricas que importam.

SipPulse AI - Equipe de Engenharia10 de março de 20267 min de leitura

Avaliando agentes de voz em produção: WER, MOS, latência

A maioria dos projetos de agente de voz ship sem nunca ter sido avaliado direito. O time escolhe um fornecedor com base numa página de benchmark, constrói uma demo, ouve funcionar no escritório e solta no tráfego de produção. Aí começam os tickets de suporte: "o agente nunca me entendeu", "me cortou", "a voz soou estranha". Avaliação de agente de voz é a disciplina que pega tudo isso antes dos clientes, e as métricas que importam não são impressões subjetivas. São WER, MOS, latência ponta a ponta, taxa de sucesso de tarefa e resolução no primeiro contato, medidas em workload real. Este post caminha por cada uma, pelo alvo de produção em 2026 e por como montar o loop de avaliação para que problema apareça no dashboard, não na caixa de entrada.

Por que avaliação offline não pega o que produção expõe

Avaliação offline roda o modelo contra dataset fixo e produz um score. É necessária, não suficiente. Conversas reais têm variáveis que nenhum set de teste captura: compressão de codec em áudio de telefone, ruído de fundo de ambientes reais, sotaques, deriva de contexto em múltiplos turnos, clientes que mudam de tópico no meio da chamada, respostas alucinadas sob pressão.

O resultado é que um agente de voz com 95% em benchmark offline pode pontuar 70% em chamadas de produção. O gap é para o que a avaliação serve. Avaliação de produção roda continuamente, em toda chamada ao vivo, capturando as métricas que preveem experiência do cliente.

WER para STT: a linha dos 5%

Word Error Rate é a métrica canônica de STT. Fórmula: (substituições + deleções + inserções) dividido pelo total de palavras, vezes 100. O alvo de produção para agentes corporativos é WER abaixo de 5%. Acima de 8%, o LLM downstream começa a produzir respostas erradas a partir de inputs mal ouvidos, que é o modo de falha do qual os clientes reclamam mais.

WER da página de marketing do modelo raramente é o WER que você terá em produção. As razões:

O dataset de benchmark costuma ser áudio de estúdio limpo, não áudio de codec de telefone
O registro linguístico do benchmark é leitura de notícia ou audiobook, não dialeto de contact center
Áudio real tem sotaque, code-switching e ruído de fundo que o set de teste não tem

O WER honesto é o que você mede numa amostra do seu próprio áudio. O resto é teatro.

MOS para TTS: 4,3 ou mais

Mean Opinion Score é o padrão ouro para avaliar qualidade de TTS. Ouvintes humanos avaliam fala sintetizada numa escala de 1 a 5, onde 5 é excelente. Notas de 4,3 a 4,5 indicam qualidade que rivaliza com fala humana natural. Abaixo de 4,0 a voz soa nitidamente sintética, e os clientes comentam.

MOS é caro de rodar porque precisa de avaliadores humanos. Os proxies que a maioria dos times usa:

Testes MUSHRA com grupos menores para comparação relativa
Preditores automáticos de MOS que estimam MOS a partir de features de áudio
Testes A/B com usuários reais usando sinal de satisfação

Para agentes de voz especificamente, a pergunta relevante é "a voz prejudica a experiência do cliente?". Uma voz com MOS 4,3 em chamada de contact center é invisível. Uma voz 3,8 aparece nos comentários de pesquisa.

Latência: o alvo de 800ms vs a realidade de 1,4-1,7s

Latência é onde o gap entre marketing e produção é maior. Pesquisas de mercado colocam a mediana real de latência de agente de voz em 1,4 a 1,7 segundos, com 10% das chamadas passando de 3 segundos. A expectativa humana de conversa é mais perto de 200ms, e acima de 500ms parece nitidamente atrasado.

O orçamento total de 800ms que times de produção miram se divide em:

VAD e captura de áudio: 50ms
STT em streaming: 150ms
Time-to-first-token do LLM: 400ms
Primeiro chunk de áudio do TTS: 150ms
Overhead de rede: 50ms

Acompanhe latência ponta a ponta, mas também o breakdown por estágio. Uma chamada de 1,5s em que o LLM TTFT é 1,2s é um problema diferente de uma chamada de 1,5s em que a rede soma 800ms. A correção depende de saber qual estágio está lento.

Taxa de sucesso de tarefa e FCR

Latência e acurácia não valem nada se o agente não resolve o problema do cliente. Duas métricas de negócio ligam a avaliação a resultados:

Task success rate (TSR): o agente completou a tarefa pretendida na chamada (marcar o horário, atualizar o endereço, cobrar o cartão)
First call resolution (FCR): o problema do cliente foi resolvido nessa chamada sem follow-up

O alvo de produção para FCR em fluxos de voice AI é 85% ou mais. Abaixo disso, a economia começa a erodir porque chamadas escaladas caem na fila humana. Acima, a conta justifica rollout mais amplo.

TSR e FCR costumam ser pontuadas pelo mesmo LLM que trata transcrições no seu pipeline de Auto QA, aplicando rubrica específica por fluxo. Autorrelato (perguntar ao cliente "isso resolveu?") funciona para pesquisa opcional, mas sofre de baixa taxa de resposta.

As 50+ métricas que importam em produção

WER, MOS, latência, TSR e FCR são os números de manchete. Observabilidade de produção vai mais fundo. Há 50+ métricas em várias camadas que valem acompanhar:

Integridade do sinal de áudio: jitter, perda de pacote, mismatch de codec
Latência de streaming por estágio: STT TTFT, STT final, LLM TTFT, LLM total, TTS TTFB, TTS total
Qualidade de turn-taking: taxa de sucesso de barge-in, taxa de barge-in falso, latência de detecção de fim de fala
Rastreio de contexto em múltiplos turnos: o agente lembrou o nome do cliente depois de 6 turnos?
Resiliência a alucinação: o agente inventa política, preço ou fato quando incerto?
Aderência a segurança: o agente ficou no escopo declarado? Recusou pedidos fora de política de forma limpa?

Avaliação online revela problemas que só aparecem em produção, então é essencial monitorar tanto evals offline quanto métricas de produção ao vivo em toda chamada.

Como o SipPulse AI expõe dados de avaliação

Toda chamada no SipPulse AI emite um webhook estruturado com as métricas que importam para avaliação: duração da chamada, llm_ttft_ms, llm_latency_ms, tts_latency_ms, eou_latency_ms, conv_latency_ms, mais contadores de requisição por provedor. Você liga esses eventos na sua stack de observabilidade para alimentar dashboards, alertas e Auto QA.

Nosso visualizador aberto de exemplo mostra o mesmo payload numa página pública pequena para você ver os eventos e o schema. Chamadas reais da demo ficam em torno de 800ms de round trip total, desmembrado por estágio. Converse com a demo em sippulse.ai/demos e depois inspecione como ela se comportou na sua chamada.

Conclusão

Avaliação de agente de voz é o que separa demo de vendor de produto pronto para produção. WER, MOS, latência, TSR e FCR são as manchetes; observabilidade real acompanha outras 50. Monte o loop de avaliação no dia um e você entrega agentes melhores no dia 90. Teste a demo e inspecione os números reais, ou fale com o time para plugar avaliação na sua stack.

#agente de voz#avaliação#WER#MOS#latência#FCR#observabilidade

Avaliando agentes de voz em produção: WER, MOS, latência

Por que avaliação offline não pega o que produção expõe

WER para STT: a linha dos 5%

MOS para TTS: 4,3 ou mais

Latência: o alvo de 800ms vs a realidade de 1,4-1,7s

Taxa de sucesso de tarefa e FCR

As 50+ métricas que importam em produção

Como o SipPulse AI expõe dados de avaliação

Leia também

Conclusão

Artigos Relacionados

Telemetria SipPulse AI: cada parâmetro explicado

Agentes de voz com RAG e function calling

Como o Voice AI está revolucionando o atendimento ao cliente