Inference

Benchmark de Inferência: Qual Métrica de Latência Você Deveria Otimizar?

Um benchmark de latência head-to-head de três provedores líderes em 540 requisições via streaming.

Um benchmark de latência head-to-head da Telnyx, Together.ai e Fireworks.ai em 540 requisições via streaming em três modelos open-weight de fronteira.

A Conclusão

Executamos 540 chat completions via streaming em três provedores de inferência (Telnyx, Together.ai e Fireworks.ai) em três modelos open-weight (Kimi K2.6, GLM-5.1 e MiniMax-M2.7) a partir de um único host na região dos EUA. Veja o que importa:

A métrica que importa depende do que você está construindo. Para voice AI e aplicações em tempo real, o Time-to-first-token (TTFT) determina se a experiência funciona. Para workloads batch e agênticos, a latência E2E e o throughput determinam custo e velocidade. Nós benchmarkamos ambos.
O primeiro token não é a linha de chegada. A Fireworks consistentemente entrega o menor tempo para o primeiro token no Kimi K2.6 e GLM-5.1, mas a Telnyx termina mais rápido na latência end-to-end para GLM-5.1 em perfis de saída longa e domina o MiniMax-M2.7 em todas as métricas.
MiniMax-M2.7 roda 3-6x mais rápido na Telnyx. Em workloads de saída longa, a Telnyx completa em 8-11 segundos. A Together leva 36-50 segundos. Throughput: 125-170 tok/s vs 27-42 tok/s.
A performance da Together é a mais volátil. 15 células outlier onde máximos de execução única excederam 5x a mediana, incluindo uma parada mid-stream de 143 segundos no GLM-5.1. A Telnyx teve 4. A Fireworks teve 3.
FP8 supera FP4 em throughput. A Together roda GLM e MiniMax com quantização FP4. A Telnyx roda FP8. Nosso FP8 entrega throughput maior que o FP4 deles em ambos os modelos, com maior precisão e saída mais rápida.
Computação regional é escassa no Brasil. O Brasil tem zero opções de inferência doméstica dos grandes provedores. Cada requisição é roteada para data centers nos EUA ou UE, adicionando 150-250ms de latência de rede antes mesmo de a inferência começar. A implantação serverless da Telnyx em São Paulo é a primeira opção real para inferência sub-segundo no país. Para equipes brasileiras construindo voice AI, agentes ou aplicações em tempo real, a combinação de computação local, throughput FP8 e soberania de dados na região não está disponível em nenhum outro lugar. Quando seus usuários estão em São Paulo, Rio ou Brasília, a latência E2E a partir de uma GPU local é o que torna o produto viável.

TTFT vs E2E: Métricas Diferentes para Workloads Diferentes

O Time-to-first-token (TTFT) é o benchmark de inferência mais comumente citado. Para alguns workloads como voice AI ou agentes em tempo real, é a métrica certa. Para outros, processamento batch, cadeias agênticas, a latência end-to-end (E2E) e o throughput importam mais. A questão não é qual métrica é melhor. É qual métrica mapeia para o que você está construindo.

Nosso benchmark encontrou um padrão consistente: provedores que vencem no TTFT nem sempre vencem na latência end-to-end (E2E).

O exemplo mais claro: GLM-5.1 com 10k de entrada, 1k de saída.

Provedor	TTFT (p50)	E2E (p50)	Throughput
Fireworks	1,672 ms	40,156 ms	31.9 tok/s
Together	1,472 ms	27,328 ms	57.4 tok/s
Telnyx	1,346 ms	15,946 ms	83.4 tok/s

A Fireworks entrega o primeiro token em 1,7 segundos. Mas a resposta completa leva mais de 40 segundos. A Telnyx entrega a resposta completa em menos de 16 segundos, 2.5x mais rápido que a Fireworks, 1.7x mais rápido que a Together.

Se você está construindo um produto em tempo real, seus usuários não experimentam o "primeiro token." Eles experimentam a resposta completa. E2E é a métrica que mapeia para a experiência do usuário. Throughput é a métrica que mapeia para o custo-por-token em escala.

Ao avaliar provedores de inferência, pergunte:

Qual é a latência E2E nos meus tamanhos esperados de entrada/saída?
Qual é o throughput efetivo, não apenas o tempo para o primeiro token?
Quão estável é a distribuição? Um p50 rápido com uma cauda de 5x não é "rápido" em produção.

Voice AI: Por Que TTFT É a Métrica Que Importa

Voice AI é o exemplo mais claro de por que o TTFT importa. Quando um usuário fala com um agente, cada milissegundo de atraso no primeiro token é silêncio. A resposta não é transmitida progressivamente como em um chatbot — o usuário está esperando o agente começar a falar.

É por isso que o Kimi K2.6 é o modelo que recomendamos para voice e aplicações em tempo real. Seu modo non-reasoning mantém alta inteligência enquanto entrega TTFT menor que o GLM-5.1. Se você está construindo voice AI, Kimi K2.6 na Telnyx é a ferramenta certa.

Análise Modelo por Modelo

MiniMax-M2.7 — A Telnyx mostra latência end-to-end

É aqui que a diferença é maior. A Telnyx vence na latência E2E em todos os perfis, saída curta e longa, contexto pequeno e grande.

Workloads de saída longa (1k de saída alvo):

Perfil	Telnyx E2E	Together E2E	Fireworks E2E	Telnyx Throughput	Together Throughput
1k entrada, 1k saída	8,331 ms	36,362 ms	11,453 ms	152 tok/s	33 tok/s
10k entrada, 1k saída	8,990 ms	41,094 ms	10,604 ms	145 tok/s	29 tok/s
100k entrada, 1k saída	11,065 ms	49,838 ms	13,924 ms	124 tok/s	27 tok/s

A Telnyx completa requisições MiniMax-M2.7 de saída longa 3-6x mais rápido que a Together e ligeiramente mais rápido que a Fireworks. Com 100k de entrada, a Together leva quase um minuto inteiro; a Telnyx termina em 11 segundos.

Workloads de saída curta: Mesma história. E2E da Telnyx varia de 1.2-2.3 segundos. Together é 3-5.6 segundos. Fireworks é 1.7-2.9 segundos.

A diferença de throughput: 125-170 tok/s na Telnyx vs 27-42 tok/s na Together. A quantização FP4 da Together não compensa — o throughput deles é uma fração do FP8 da Telnyx.

Veredito: Se você está rodando MiniMax-M2.7, a escolha do provedor não é disputada. A Telnyx é mais rápida, mais consistente e entrega 3-6x o throughput.

GLM-5.1 — Maior Throughput na Telnyx

O GLM-5.1 conta melhor a história "TTFT vs E2E."

A Fireworks é consistentemente a mais rápida para o primeiro token no GLM-5.1 em contextos curtos. Mas essa vantagem inicial se evapora em saídas mais longas porque o throughput efetivo da Fireworks é dramaticamente menor.

Comparação de throughput (tok/s, p50):

Perfil	Telnyx	Together	Fireworks
1k ent., 100 saída	109	81	44
1k ent., 1k saída	94	62	36
10k ent., 100 saída	113	89	51
10k ent., 1k saída	83	57	32
100k ent., 100 saída	84	71	59
100k ent., 1k saída	82	53	39

A Telnyx entrega 81-113 tok/s no GLM-5.1 vs 32-59 tok/s na Fireworks. Isso é aproximadamente 2x o throughput em todos os perfis. Para workloads gerando saídas mais longas, isso se acumula em diferenças massivas de E2E:

10k entrada, 1k saída: Telnyx 15.9s vs Fireworks 40.2s
100k entrada, 1k saída: Telnyx 16.8s vs Fireworks 34.0s

Veredito: A Fireworks pode lhe dar o primeiro token mais rápido, mas a Telnyx lhe dá a resposta completa mais rápido, por um fator de 2-2.5x em saídas de tamanho produtivo.

Kimi K2.6 — Construído para Voice e Tempo Real

O Kimi K2.6 é o mais equilibrado. A Fireworks lidera o TTFT consistentemente. O E2E é mais próximo:

Perfil	Telnyx E2E	Together E2E	Fireworks E2E
1k ent., 100 saída	1,754 ms	1,901 ms	1,242 ms
1k ent., 1k saída	10,212 ms	28,304 ms	11,026 ms
10k ent., 1k saída	10,878 ms	14,458 ms	9,582 ms
100k ent., 1k saída	13,741 ms	23,960 ms	12,602 ms

A Fireworks tem uma leve vantagem no E2E de saída curta. Mas em saída longa, a diferença entre Telnyx e Fireworks é pequena (dentro de 10-15%), enquanto a Together fica significativamente para trás.

O throughput é competitivo entre os três provedores no Kimi, com Telnyx e Fireworks alternando a liderança dependendo do perfil.

Veredito: O Kimi K2.6 é o modelo ideal quando você está construindo agentes de voz ou aplicações em tempo real. Seu modo non-reasoning continua altamente inteligente e entrega TTFT menor que o GLM-5.1, que é a métrica que mais importa quando seus usuários estão esperando um agente falar. Para voice AI, a vantagem de TTFT mais a disponibilidade regional e soberania de dados fazem da Telnyx a escolha clara.

A Questão da Confiabilidade

Médias de latência contam uma história. O comportamento da cauda conta outra.

Sinalizamos toda célula onde uma execução única excedeu 5x a mediana da célula:

Provedor	Células outlier (máx > 5x mediana)	Pior evento único
Together	15	Parada mid-stream de 206 segundos (GLM-5.1)
Telnyx	4	E2E de 36.7s no MiniMax 100k entrada (mediana: 2.3s)
Fireworks	3	TTFT de 12.1s no Kimi 100k entrada (mediana: 1.2s)

O evento no GLM-5.1 da Together: Em uma requisição de 100k entrada, 1k saída, o stream produziu 422 chunks em 194 segundos. Então apareceu um intervalo de 143 segundos entre os chunks 363 e 364, após o qual o streaming retomou normalmente. Isso não foi um problema de conexão. Os dados fluíram em ambos os lados do intervalo. Foi uma parada mid-stream dentro da infraestrutura da Together.

Para um chatbot, uma pausa de 143 segundos é uma experiência quebrada. Para um agente fazendo chamadas LLM sequenciais, é um atraso em cascata. Para um pipeline de voice AI, é uma chamada dropada.

Também notável: Esperava-se que a quantização FP4 da Together entregasse vantagens de throughput sobre o FP8. Não entregou. Em ambos GLM-5.1 e MiniMax-M2.7, o FP4 da Together entregou throughput menor que o FP8 da Telnyx.

O Que Isso Significa para a Escolha de Provedor

Se você se importa com...	Escolha...	Por Quê
Performance do MiniMax-M2.7	Telnyx	3-6x mais rápido em E2E, 3-6x throughput vs Together
Throughput do GLM-5.1	Telnyx	Vantagem de 2x em throughput vs Fireworks em todos os perfis
Voice AI e tempo real	Telnyx	Kimi K2.6 tem o menor TTFT na nossa plataforma + disponibilidade regional + soberania de dados
Confiabilidade em produção	Telnyx ou Fireworks	Together teve 15 células outlier vs 4 e 3
Workloads de saída longa	Telnyx	Vantagem de TTFT não se traduz em E2E nos concorrentes
Disponibilidade regional	Telnyx	Serverless nos EUA, UE, APAC (Dubai + São Paulo em breve)
Soberania de dados	Telnyx	Computação na região por padrão; concorrentes são concentrados nos EUA
Kimi K2.6 TTFT vs E2E	Fireworks	Fireworks lidera TTFT bruto, Telnyx está dentro de 10-15% no E2E; ecossistema de voice AI inclina para Telnyx

Metodologia

540 chat completions via streaming em 3 provedores × 3 modelos × 6 perfis de prompt × 10 execuções por célula (538 com sucesso)
Modelos: Kimi K2.6, GLM-5.1, MiniMax-M2.7 (Telnyx FP8, Together FP4, Fireworks não verificado)
Perfis de prompt: Tarefas de análise literária sobre trechos de Moby-Dick (domínio público). Três tamanhos de entrada (~1k, ~10k, ~100k tokens) × dois alvos de saída (~100, ~1k tokens)
Região: EUA. Benchmarks de UE e APAC em breve.
Controles: Modo streaming, temperatura 0.0, round-robin sequencial, aquecimento de 5 requisições por par provedor/modelo
Métricas: TTFT (ms), latência E2E (ms), throughput efetivo (tok/s)
n = 10 é escala-piloto. p95/p99 não são relatados. Os resultados são direcionais, não definitivos.
Reasoning habilitado em todos os modelos por padrão. Um follow-up sem reasoning está planejado.
Dados completos e metodologia disponíveis para reprodutibilidade.

Este benchmark foi conduzido em 23 de abril de 2026. Os resultados refletem a performance dos provedores naquele momento. A infraestrutura de inferência muda com frequência — recomendamos executar seus próprios benchmarks para decisões de produção. Dados brutos e metodologia estão disponíveis mediante solicitação.

Share on Social

Sonam Gupta, PhD

Developer Evangelist

Sonam is a San Francisco-based developer advocate, originally from India. She has completed 2 Master's Degrees and her PhD in Data Science from the Harrisburg University of Science & Technology. Previously, Sonam worked for the startups Ozmosi and aiXplain. In her free time, you