Inference

Benchmark de Inferência: Qual Métrica de Latência Você Deveria Otimizar?

Um benchmark de latência head-to-head de três provedores líderes em 540 requisições via streaming.

By Sonam Gupta, PhD

Um benchmark de latência head-to-head da Telnyx, Together.ai e Fireworks.ai em 540 requisições via streaming em três modelos open-weight de fronteira.

A Conclusão

Executamos 540 chat completions via streaming em três provedores de inferência (Telnyx, Together.ai e Fireworks.ai) em três modelos open-weight (Kimi K2.6, GLM-5.1 e MiniMax-M2.7) a partir de um único host na região dos EUA. Veja o que importa:

  • A métrica que importa depende do que você está construindo. Para voice AI e aplicações em tempo real, o Time-to-first-token (TTFT) determina se a experiência funciona. Para workloads batch e agênticos, a latência E2E e o throughput determinam custo e velocidade. Nós benchmarkamos ambos.
  • O primeiro token não é a linha de chegada. A Fireworks consistentemente entrega o menor tempo para o primeiro token no Kimi K2.6 e GLM-5.1, mas a Telnyx termina mais rápido na latência end-to-end para GLM-5.1 em perfis de saída longa e domina o MiniMax-M2.7 em todas as métricas.
  • MiniMax-M2.7 roda 3-6x mais rápido na Telnyx. Em workloads de saída longa, a Telnyx completa em 8-11 segundos. A Together leva 36-50 segundos. Throughput: 125-170 tok/s vs 27-42 tok/s.
  • A performance da Together é a mais volátil. 15 células outlier onde máximos de execução única excederam 5x a mediana, incluindo uma parada mid-stream de 143 segundos no GLM-5.1. A Telnyx teve 4. A Fireworks teve 3.
  • FP8 supera FP4 em throughput. A Together roda GLM e MiniMax com quantização FP4. A Telnyx roda FP8. Nosso FP8 entrega throughput maior que o FP4 deles em ambos os modelos, com maior precisão e saída mais rápida.
  • Computação regional é escassa no Brasil. O Brasil tem zero opções de inferência doméstica dos grandes provedores. Cada requisição é roteada para data centers nos EUA ou UE, adicionando 150-250ms de latência de rede antes mesmo de a inferência começar. A implantação serverless da Telnyx em São Paulo é a primeira opção real para inferência sub-segundo no país. Para equipes brasileiras construindo voice AI, agentes ou aplicações em tempo real, a combinação de computação local, throughput FP8 e soberania de dados na região não está disponível em nenhum outro lugar. Quando seus usuários estão em São Paulo, Rio ou Brasília, a latência E2E a partir de uma GPU local é o que torna o produto viável.

TTFT vs E2E: Métricas Diferentes para Workloads Diferentes

O Time-to-first-token (TTFT) é o benchmark de inferência mais comumente citado. Para alguns workloads como voice AI ou agentes em tempo real, é a métrica certa. Para outros, processamento batch, cadeias agênticas, a latência end-to-end (E2E) e o throughput importam mais. A questão não é qual métrica é melhor. É qual métrica mapeia para o que você está construindo.

Nosso benchmark encontrou um padrão consistente: provedores que vencem no TTFT nem sempre vencem na latência end-to-end (E2E).

O exemplo mais claro: GLM-5.1 com 10k de entrada, 1k de saída.

ProvedorTTFT (p50)E2E (p50)Throughput
Fireworks1,672 ms40,156 ms31.9 tok/s
Together1,472 ms27,328 ms57.4 tok/s
Telnyx1,346 ms15,946 ms83.4 tok/s

A Fireworks entrega o primeiro token em 1,7 segundos. Mas a resposta completa leva mais de 40 segundos. A Telnyx entrega a resposta completa em menos de 16 segundos, 2.5x mais rápido que a Fireworks, 1.7x mais rápido que a Together.

Se você está construindo um produto em tempo real, seus usuários não experimentam o "primeiro token." Eles experimentam a resposta completa. E2E é a métrica que mapeia para a experiência do usuário. Throughput é a métrica que mapeia para o custo-por-token em escala.

Ao avaliar provedores de inferência, pergunte:

  • Qual é a latência E2E nos meus tamanhos esperados de entrada/saída?
  • Qual é o throughput efetivo, não apenas o tempo para o primeiro token?
  • Quão estável é a distribuição? Um p50 rápido com uma cauda de 5x não é "rápido" em produção.

Voice AI: Por Que TTFT É a Métrica Que Importa

Voice AI é o exemplo mais claro de por que o TTFT importa. Quando um usuário fala com um agente, cada milissegundo de atraso no primeiro token é silêncio. A resposta não é transmitida progressivamente como em um chatbot — o usuário está esperando o agente começar a falar.

É por isso que o Kimi K2.6 é o modelo que recomendamos para voice e aplicações em tempo real. Seu modo non-reasoning mantém alta inteligência enquanto entrega TTFT menor que o GLM-5.1. Se você está construindo voice AI, Kimi K2.6 na Telnyx é a ferramenta certa.

Análise Modelo por Modelo

MiniMax-M2.7 — A Telnyx mostra latência end-to-end

É aqui que a diferença é maior. A Telnyx vence na latência E2E em todos os perfis, saída curta e longa, contexto pequeno e grande.

Workloads de saída longa (1k de saída alvo):

PerfilTelnyx E2ETogether E2EFireworks E2ETelnyx ThroughputTogether Throughput
1k entrada, 1k saída8,331 ms36,362 ms11,453 ms152 tok/s33 tok/s
10k entrada, 1k saída8,990 ms41,094 ms10,604 ms145 tok/s29 tok/s
100k entrada, 1k saída11,065 ms49,838 ms13,924 ms124 tok/s27 tok/s

A Telnyx completa requisições MiniMax-M2.7 de saída longa 3-6x mais rápido que a Together e ligeiramente mais rápido que a Fireworks. Com 100k de entrada, a Together leva quase um minuto inteiro; a Telnyx termina em 11 segundos.

Workloads de saída curta: Mesma história. E2E da Telnyx varia de 1.2-2.3 segundos. Together é 3-5.6 segundos. Fireworks é 1.7-2.9 segundos.

A diferença de throughput: 125-170 tok/s na Telnyx vs 27-42 tok/s na Together. A quantização FP4 da Together não compensa — o throughput deles é uma fração do FP8 da Telnyx.

Veredito: Se você está rodando MiniMax-M2.7, a escolha do provedor não é disputada. A Telnyx é mais rápida, mais consistente e entrega 3-6x o throughput.


GLM-5.1 — Maior Throughput na Telnyx

O GLM-5.1 conta melhor a história "TTFT vs E2E."

A Fireworks é consistentemente a mais rápida para o primeiro token no GLM-5.1 em contextos curtos. Mas essa vantagem inicial se evapora em saídas mais longas porque o throughput efetivo da Fireworks é dramaticamente menor.

Comparação de throughput (tok/s, p50):

PerfilTelnyxTogetherFireworks
1k ent., 100 saída1098144
1k ent., 1k saída946236
10k ent., 100 saída1138951
10k ent., 1k saída835732
100k ent., 100 saída847159
100k ent., 1k saída825339

A Telnyx entrega 81-113 tok/s no GLM-5.1 vs 32-59 tok/s na Fireworks. Isso é aproximadamente 2x o throughput em todos os perfis. Para workloads gerando saídas mais longas, isso se acumula em diferenças massivas de E2E:

  • 10k entrada, 1k saída: Telnyx 15.9s vs Fireworks 40.2s
  • 100k entrada, 1k saída: Telnyx 16.8s vs Fireworks 34.0s

Veredito: A Fireworks pode lhe dar o primeiro token mais rápido, mas a Telnyx lhe dá a resposta completa mais rápido, por um fator de 2-2.5x em saídas de tamanho produtivo.


Kimi K2.6 — Construído para Voice e Tempo Real

O Kimi K2.6 é o mais equilibrado. A Fireworks lidera o TTFT consistentemente. O E2E é mais próximo:

PerfilTelnyx E2ETogether E2EFireworks E2E
1k ent., 100 saída1,754 ms1,901 ms1,242 ms
1k ent., 1k saída10,212 ms28,304 ms11,026 ms
10k ent., 1k saída10,878 ms14,458 ms9,582 ms
100k ent., 1k saída13,741 ms23,960 ms12,602 ms

A Fireworks tem uma leve vantagem no E2E de saída curta. Mas em saída longa, a diferença entre Telnyx e Fireworks é pequena (dentro de 10-15%), enquanto a Together fica significativamente para trás.

O throughput é competitivo entre os três provedores no Kimi, com Telnyx e Fireworks alternando a liderança dependendo do perfil.

Veredito: O Kimi K2.6 é o modelo ideal quando você está construindo agentes de voz ou aplicações em tempo real. Seu modo non-reasoning continua altamente inteligente e entrega TTFT menor que o GLM-5.1, que é a métrica que mais importa quando seus usuários estão esperando um agente falar. Para voice AI, a vantagem de TTFT mais a disponibilidade regional e soberania de dados fazem da Telnyx a escolha clara.


A Questão da Confiabilidade

Médias de latência contam uma história. O comportamento da cauda conta outra.

Sinalizamos toda célula onde uma execução única excedeu 5x a mediana da célula:

ProvedorCélulas outlier (máx > 5x mediana)Pior evento único
Together15Parada mid-stream de 206 segundos (GLM-5.1)
Telnyx4E2E de 36.7s no MiniMax 100k entrada (mediana: 2.3s)
Fireworks3TTFT de 12.1s no Kimi 100k entrada (mediana: 1.2s)

O evento no GLM-5.1 da Together: Em uma requisição de 100k entrada, 1k saída, o stream produziu 422 chunks em 194 segundos. Então apareceu um intervalo de 143 segundos entre os chunks 363 e 364, após o qual o streaming retomou normalmente. Isso não foi um problema de conexão. Os dados fluíram em ambos os lados do intervalo. Foi uma parada mid-stream dentro da infraestrutura da Together.

Para um chatbot, uma pausa de 143 segundos é uma experiência quebrada. Para um agente fazendo chamadas LLM sequenciais, é um atraso em cascata. Para um pipeline de voice AI, é uma chamada dropada.

Também notável: Esperava-se que a quantização FP4 da Together entregasse vantagens de throughput sobre o FP8. Não entregou. Em ambos GLM-5.1 e MiniMax-M2.7, o FP4 da Together entregou throughput menor que o FP8 da Telnyx.


O Que Isso Significa para a Escolha de Provedor

Se você se importa com...Escolha...Por Quê
Performance do MiniMax-M2.7Telnyx3-6x mais rápido em E2E, 3-6x throughput vs Together
Throughput do GLM-5.1TelnyxVantagem de 2x em throughput vs Fireworks em todos os perfis
Voice AI e tempo realTelnyxKimi K2.6 tem o menor TTFT na nossa plataforma + disponibilidade regional + soberania de dados
Confiabilidade em produçãoTelnyx ou FireworksTogether teve 15 células outlier vs 4 e 3
Workloads de saída longaTelnyxVantagem de TTFT não se traduz em E2E nos concorrentes
Disponibilidade regionalTelnyxServerless nos EUA, UE, APAC (Dubai + São Paulo em breve)
Soberania de dadosTelnyxComputação na região por padrão; concorrentes são concentrados nos EUA
Kimi K2.6 TTFT vs E2EFireworksFireworks lidera TTFT bruto, Telnyx está dentro de 10-15% no E2E; ecossistema de voice AI inclina para Telnyx

Metodologia

  • 540 chat completions via streaming em 3 provedores × 3 modelos × 6 perfis de prompt × 10 execuções por célula (538 com sucesso)
  • Modelos: Kimi K2.6, GLM-5.1, MiniMax-M2.7 (Telnyx FP8, Together FP4, Fireworks não verificado)
  • Perfis de prompt: Tarefas de análise literária sobre trechos de Moby-Dick (domínio público). Três tamanhos de entrada (~1k, ~10k, ~100k tokens) × dois alvos de saída (~100, ~1k tokens)
  • Região: EUA. Benchmarks de UE e APAC em breve.
  • Controles: Modo streaming, temperatura 0.0, round-robin sequencial, aquecimento de 5 requisições por par provedor/modelo
  • Métricas: TTFT (ms), latência E2E (ms), throughput efetivo (tok/s)
  • n = 10 é escala-piloto. p95/p99 não são relatados. Os resultados são direcionais, não definitivos.
  • Reasoning habilitado em todos os modelos por padrão. Um follow-up sem reasoning está planejado.
  • Dados completos e metodologia disponíveis para reprodutibilidade.

Este benchmark foi conduzido em 23 de abril de 2026. Os resultados refletem a performance dos provedores naquele momento. A infraestrutura de inferência muda com frequência — recomendamos executar seus próprios benchmarks para decisões de produção. Dados brutos e metodologia estão disponíveis mediante solicitação.

Share on Social