Um benchmark de latência head-to-head de três provedores líderes em 540 requisições via streaming.
Um benchmark de latência head-to-head da Telnyx, Together.ai e Fireworks.ai em 540 requisições via streaming em três modelos open-weight de fronteira.
Executamos 540 chat completions via streaming em três provedores de inferência (Telnyx, Together.ai e Fireworks.ai) em três modelos open-weight (Kimi K2.6, GLM-5.1 e MiniMax-M2.7) a partir de um único host na região dos EUA. Veja o que importa:
O Time-to-first-token (TTFT) é o benchmark de inferência mais comumente citado. Para alguns workloads como voice AI ou agentes em tempo real, é a métrica certa. Para outros, processamento batch, cadeias agênticas, a latência end-to-end (E2E) e o throughput importam mais. A questão não é qual métrica é melhor. É qual métrica mapeia para o que você está construindo.
Nosso benchmark encontrou um padrão consistente: provedores que vencem no TTFT nem sempre vencem na latência end-to-end (E2E).
O exemplo mais claro: GLM-5.1 com 10k de entrada, 1k de saída.
| Provedor | TTFT (p50) | E2E (p50) | Throughput |
|---|---|---|---|
| Fireworks | 1,672 ms | 40,156 ms | 31.9 tok/s |
| Together | 1,472 ms | 27,328 ms | 57.4 tok/s |
| Telnyx | 1,346 ms | 15,946 ms | 83.4 tok/s |
A Fireworks entrega o primeiro token em 1,7 segundos. Mas a resposta completa leva mais de 40 segundos. A Telnyx entrega a resposta completa em menos de 16 segundos, 2.5x mais rápido que a Fireworks, 1.7x mais rápido que a Together.
Se você está construindo um produto em tempo real, seus usuários não experimentam o "primeiro token." Eles experimentam a resposta completa. E2E é a métrica que mapeia para a experiência do usuário. Throughput é a métrica que mapeia para o custo-por-token em escala.
Ao avaliar provedores de inferência, pergunte:
Voice AI é o exemplo mais claro de por que o TTFT importa. Quando um usuário fala com um agente, cada milissegundo de atraso no primeiro token é silêncio. A resposta não é transmitida progressivamente como em um chatbot — o usuário está esperando o agente começar a falar.
É por isso que o Kimi K2.6 é o modelo que recomendamos para voice e aplicações em tempo real. Seu modo non-reasoning mantém alta inteligência enquanto entrega TTFT menor que o GLM-5.1. Se você está construindo voice AI, Kimi K2.6 na Telnyx é a ferramenta certa.
É aqui que a diferença é maior. A Telnyx vence na latência E2E em todos os perfis, saída curta e longa, contexto pequeno e grande.
Workloads de saída longa (1k de saída alvo):
| Perfil | Telnyx E2E | Together E2E | Fireworks E2E | Telnyx Throughput | Together Throughput |
|---|---|---|---|---|---|
| 1k entrada, 1k saída | 8,331 ms | 36,362 ms | 11,453 ms | 152 tok/s | 33 tok/s |
| 10k entrada, 1k saída | 8,990 ms | 41,094 ms | 10,604 ms | 145 tok/s | 29 tok/s |
| 100k entrada, 1k saída | 11,065 ms | 49,838 ms | 13,924 ms | 124 tok/s | 27 tok/s |
A Telnyx completa requisições MiniMax-M2.7 de saída longa 3-6x mais rápido que a Together e ligeiramente mais rápido que a Fireworks. Com 100k de entrada, a Together leva quase um minuto inteiro; a Telnyx termina em 11 segundos.
Workloads de saída curta: Mesma história. E2E da Telnyx varia de 1.2-2.3 segundos. Together é 3-5.6 segundos. Fireworks é 1.7-2.9 segundos.
A diferença de throughput: 125-170 tok/s na Telnyx vs 27-42 tok/s na Together. A quantização FP4 da Together não compensa — o throughput deles é uma fração do FP8 da Telnyx.
Veredito: Se você está rodando MiniMax-M2.7, a escolha do provedor não é disputada. A Telnyx é mais rápida, mais consistente e entrega 3-6x o throughput.
O GLM-5.1 conta melhor a história "TTFT vs E2E."
A Fireworks é consistentemente a mais rápida para o primeiro token no GLM-5.1 em contextos curtos. Mas essa vantagem inicial se evapora em saídas mais longas porque o throughput efetivo da Fireworks é dramaticamente menor.
Comparação de throughput (tok/s, p50):
| Perfil | Telnyx | Together | Fireworks |
|---|---|---|---|
| 1k ent., 100 saída | 109 | 81 | 44 |
| 1k ent., 1k saída | 94 | 62 | 36 |
| 10k ent., 100 saída | 113 | 89 | 51 |
| 10k ent., 1k saída | 83 | 57 | 32 |
| 100k ent., 100 saída | 84 | 71 | 59 |
| 100k ent., 1k saída | 82 | 53 | 39 |
A Telnyx entrega 81-113 tok/s no GLM-5.1 vs 32-59 tok/s na Fireworks. Isso é aproximadamente 2x o throughput em todos os perfis. Para workloads gerando saídas mais longas, isso se acumula em diferenças massivas de E2E:
Veredito: A Fireworks pode lhe dar o primeiro token mais rápido, mas a Telnyx lhe dá a resposta completa mais rápido, por um fator de 2-2.5x em saídas de tamanho produtivo.
O Kimi K2.6 é o mais equilibrado. A Fireworks lidera o TTFT consistentemente. O E2E é mais próximo:
| Perfil | Telnyx E2E | Together E2E | Fireworks E2E |
|---|---|---|---|
| 1k ent., 100 saída | 1,754 ms | 1,901 ms | 1,242 ms |
| 1k ent., 1k saída | 10,212 ms | 28,304 ms | 11,026 ms |
| 10k ent., 1k saída | 10,878 ms | 14,458 ms | 9,582 ms |
| 100k ent., 1k saída | 13,741 ms | 23,960 ms | 12,602 ms |
A Fireworks tem uma leve vantagem no E2E de saída curta. Mas em saída longa, a diferença entre Telnyx e Fireworks é pequena (dentro de 10-15%), enquanto a Together fica significativamente para trás.
O throughput é competitivo entre os três provedores no Kimi, com Telnyx e Fireworks alternando a liderança dependendo do perfil.
Veredito: O Kimi K2.6 é o modelo ideal quando você está construindo agentes de voz ou aplicações em tempo real. Seu modo non-reasoning continua altamente inteligente e entrega TTFT menor que o GLM-5.1, que é a métrica que mais importa quando seus usuários estão esperando um agente falar. Para voice AI, a vantagem de TTFT mais a disponibilidade regional e soberania de dados fazem da Telnyx a escolha clara.
Médias de latência contam uma história. O comportamento da cauda conta outra.
Sinalizamos toda célula onde uma execução única excedeu 5x a mediana da célula:
| Provedor | Células outlier (máx > 5x mediana) | Pior evento único |
|---|---|---|
| Together | 15 | Parada mid-stream de 206 segundos (GLM-5.1) |
| Telnyx | 4 | E2E de 36.7s no MiniMax 100k entrada (mediana: 2.3s) |
| Fireworks | 3 | TTFT de 12.1s no Kimi 100k entrada (mediana: 1.2s) |
O evento no GLM-5.1 da Together: Em uma requisição de 100k entrada, 1k saída, o stream produziu 422 chunks em 194 segundos. Então apareceu um intervalo de 143 segundos entre os chunks 363 e 364, após o qual o streaming retomou normalmente. Isso não foi um problema de conexão. Os dados fluíram em ambos os lados do intervalo. Foi uma parada mid-stream dentro da infraestrutura da Together.
Para um chatbot, uma pausa de 143 segundos é uma experiência quebrada. Para um agente fazendo chamadas LLM sequenciais, é um atraso em cascata. Para um pipeline de voice AI, é uma chamada dropada.
Também notável: Esperava-se que a quantização FP4 da Together entregasse vantagens de throughput sobre o FP8. Não entregou. Em ambos GLM-5.1 e MiniMax-M2.7, o FP4 da Together entregou throughput menor que o FP8 da Telnyx.
| Se você se importa com... | Escolha... | Por Quê |
|---|---|---|
| Performance do MiniMax-M2.7 | Telnyx | 3-6x mais rápido em E2E, 3-6x throughput vs Together |
| Throughput do GLM-5.1 | Telnyx | Vantagem de 2x em throughput vs Fireworks em todos os perfis |
| Voice AI e tempo real | Telnyx | Kimi K2.6 tem o menor TTFT na nossa plataforma + disponibilidade regional + soberania de dados |
| Confiabilidade em produção | Telnyx ou Fireworks | Together teve 15 células outlier vs 4 e 3 |
| Workloads de saída longa | Telnyx | Vantagem de TTFT não se traduz em E2E nos concorrentes |
| Disponibilidade regional | Telnyx | Serverless nos EUA, UE, APAC (Dubai + São Paulo em breve) |
| Soberania de dados | Telnyx | Computação na região por padrão; concorrentes são concentrados nos EUA |
| Kimi K2.6 TTFT vs E2E | Fireworks | Fireworks lidera TTFT bruto, Telnyx está dentro de 10-15% no E2E; ecossistema de voice AI inclina para Telnyx |
Este benchmark foi conduzido em 23 de abril de 2026. Os resultados refletem a performance dos provedores naquele momento. A infraestrutura de inferência muda com frequência — recomendamos executar seus próprios benchmarks para decisões de produção. Dados brutos e metodologia estão disponíveis mediante solicitação.
Related articles