Un benchmark de latencia cara a cara de tres proveedores líderes en 540 solicitudes transmitidas.
Un benchmark de latencia cara a cara entre Telnyx, Together.ai y Fireworks.ai en 540 solicitudes transmitidas con tres modelos fronterizos de pesos abiertos.
Ejecutamos 540 completions de chat transmitidas entre tres proveedores de inferencia (Telnyx, Together.ai y Fireworks.ai) en tres modelos de pesos abiertos (Kimi K2.6, GLM-5.1 y MiniMax-M2.7) desde un único host en la región de EE. UU. Esto es lo que importa:
El time-to-first-token (TTFT) es el benchmark de inferencia más comúnmente citado. Para algunas cargas de trabajo como IA de voz o agentes en tiempo real, es la métrica correcta. Para otras, procesamiento por lotes, cadenas de agentes, la latencia end-to-end (E2E) y el throughput importan más. La pregunta no es qué métrica es mejor. Es qué métrica se ajusta a lo que estás construyendo.
Nuestro benchmark encontró un patrón consistente: los proveedores que ganan en TTFT no siempre ganan en latencia end-to-end (E2E).
El ejemplo más claro: GLM-5.1 con 10k de entrada, 1k de salida.
| Proveedor | TTFT (p50) | E2E (p50) | Throughput |
|---|---|---|---|
| Fireworks | 1,672 ms | 40,156 ms | 31.9 tok/s |
| Together | 1,472 ms | 27,328 ms | 57.4 tok/s |
| Telnyx | 1,346 ms | 15,946 ms | 83.4 tok/s |
Fireworks entrega el primer token en 1.7 segundos. Pero la respuesta completa tarda más de 40 segundos. Telnyx entrega la respuesta completa en menos de 16 segundos, 2.5x más rápido que Fireworks, 1.7x más rápido que Together.
Si estás construyendo un producto en tiempo real, tus usuarios no experimentan el "primer token." Experimentan la respuesta completa. E2E es la métrica que se ajusta a la experiencia del usuario. El throughput es la métrica que se ajusta al costo por token a escala.
Al evaluar proveedores de inferencia, pregunta:
La IA de voz es el ejemplo más claro de por qué TTFT importa. Cuando un usuario habla con un agente, cada milisegundo de retraso en el primer token es aire muerto. La respuesta no se transmite progresivamente como en un chatbot; el usuario está esperando que el agente empiece a hablar.
Por eso Kimi K2.6 es el modelo que recomendamos para aplicaciones de voz y tiempo real. Su modo sin razonamiento se mantiene altamente inteligente mientras entrega un TTFT más bajo que GLM-5.1. Si estás construyendo IA de voz, Kimi K2.6 en Telnyx es la herramienta correcta.
Aquí es donde la brecha es más amplia. Telnyx gana en latencia E2E en absolutamente todos los perfiles, salida corta y larga, contexto pequeño y grande.
Cargas de trabajo de salida larga (1k de salida objetivo):
| Perfil | Telnyx E2E | Together E2E | Fireworks E2E | Telnyx Throughput | Together Throughput |
|---|---|---|---|---|---|
| 1k entrada, 1k salida | 8,331 ms | 36,362 ms | 11,453 ms | 152 tok/s | 33 tok/s |
| 10k entrada, 1k salida | 8,990 ms | 41,094 ms | 10,604 ms | 145 tok/s | 29 tok/s |
| 100k entrada, 1k salida | 11,065 ms | 49,838 ms | 13,924 ms | 124 tok/s | 27 tok/s |
Telnyx completa las solicitudes de salida larga de MiniMax-M2.7 3-6x más rápido que Together y ligeramente más rápido que Fireworks. Con 100k de entrada, Together tarda casi un minuto completo; Telnyx termina en 11 segundos.
Cargas de trabajo de salida corta: Misma historia. El E2E de Telnyx oscila entre 1.2-2.3 segundos. Together está entre 3-5.6 segundos. Fireworks entre 1.7-2.9 segundos.
La brecha de throughput: 125-170 tok/s en Telnyx vs 27-42 tok/s en Together. La cuantización FP4 de Together no compensa — su throughput es una fracción del FP8 de Telnyx.
Veredicto: Si estás ejecutando MiniMax-M2.7, la elección de proveedor ni siquiera es cercana. Telnyx es más rápido, más consistente y entrega 3-6x el throughput.
GLM-5.1 ilustra mejor la historia de "TTFT vs E2E."
Fireworks es consistentemente el más rápido en llegar al primer token en GLM-5.1 en contextos cortos. Pero esa ventaja inicial se evapora en salidas más largas porque el throughput efectivo de Fireworks es dramáticamente menor.
Comparación de throughput (tok/s, p50):
| Perfil | Telnyx | Together | Fireworks |
|---|---|---|---|
| 1k entrada, 100 salida | 109 | 81 | 44 |
| 1k entrada, 1k salida | 94 | 62 | 36 |
| 10k entrada, 100 salida | 113 | 89 | 51 |
| 10k entrada, 1k salida | 83 | 57 | 32 |
| 100k entrada, 100 salida | 84 | 71 | 59 |
| 100k entrada, 1k salida | 82 | 53 | 39 |
Telnyx entrega 81-113 tok/s en GLM-5.1 vs 32-59 tok/s en Fireworks. Eso es aproximadamente 2x el throughput en cada perfil. Para cargas de trabajo que generan salidas más largas, esto se compone en diferencias masivas de E2E:
Veredicto: Fireworks puede darte el primer token más rápido, pero Telnyx te da la respuesta completa más rápido, por un factor de 2-2.5x en salidas de longitud de producción.
Kimi K2.6 es el más parejo. Fireworks lidera en TTFT consistentemente. El E2E está más cerca:
| Perfil | Telnyx E2E | Together E2E | Fireworks E2E |
|---|---|---|---|
| 1k entrada, 100 salida | 1,754 ms | 1,901 ms | 1,242 ms |
| 1k entrada, 1k salida | 10,212 ms | 28,304 ms | 11,026 ms |
| 10k entrada, 1k salida | 10,878 ms | 14,458 ms | 9,582 ms |
| 100k entrada, 1k salida | 13,741 ms | 23,960 ms | 12,602 ms |
Fireworks tiene una ligera ventaja en E2E de salida corta. Pero en salida larga, la brecha entre Telnyx y Fireworks es pequeña (dentro del 10-15%), mientras que Together se queda significativamente atrás.
El throughput es competitivo entre los tres proveedores en Kimi, con Telnyx y Fireworks intercambiando el liderazgo según el perfil.
Veredicto: Kimi K2.6 es el modelo al que recurrir cuando estás construyendo agentes de voz o aplicaciones en tiempo real. Su modo sin razonamiento sigue siendo altamente inteligente, y entrega un TTFT más bajo que GLM-5.1, que es la métrica que más importa cuando tus usuarios están esperando que un agente hable. Para IA de voz, la ventaja en TTFT más la disponibilidad regional y la soberanía de datos hacen de Telnyx la elección clara.
Los promedios de latencia cuentan una historia. El comportamiento de la cola cuenta otra.
Marcamos cada celda donde una sola ejecución superó 5x la mediana de la celda:
| Proveedor | Celdas atípicas (max > 5x mediana) | Peor evento individual |
|---|---|---|
| Together | 15 | Pausa de 206 segundos a mitad del stream (GLM-5.1) |
| Telnyx | 4 | E2E de 36.7s en MiniMax con 100k de entrada (mediana: 2.3s) |
| Fireworks | 3 | TTFT de 12.1s en Kimi con 100k de entrada (mediana: 1.2s) |
El evento de Together en GLM-5.1: En una solicitud de 100k de entrada y 1k de salida, el stream produjo 423 fragmentos en 194 segundos. Luego apareció un hueco de 143 segundos entre los fragmentos 363 y 364, tras lo cual el streaming se reanudó normalmente. Esto no fue un problema de conexión. Los datos fluyeron a ambos lados del hueco. Fue una pausa a mitad del stream dentro de la infraestructura de Together.
Para un chatbot, una pausa de 143 segundos es una experiencia rota. Para un agente haciendo llamadas secuenciales a un LLM, es un retraso en cascada. Para un pipeline de IA de voz, es una llamada caída.
También destacable: Se esperaba que la cuantización FP4 de Together entregara ventajas de throughput sobre FP8. No fue así. Tanto en GLM-5.1 como en MiniMax-M2.7, el FP4 de Together entregó menor throughput que el FP8 de Telnyx.
| Si te importa... | Elige... | Por qué |
|---|---|---|
| Rendimiento de MiniMax-M2.7 | Telnyx | 3-6x más rápido en E2E, 3-6x de throughput vs Together |
| Throughput de GLM-5.1 | Telnyx | Ventaja de 2x en throughput vs Fireworks en todos los perfiles |
| IA de voz y tiempo real | Telnyx | Kimi K2.6 tiene el TTFT más bajo en nuestra plataforma + disponibilidad regional + soberanía de datos |
| Fiabilidad en producción | Telnyx o Fireworks | Together tuvo 15 celdas atípicas vs 4 y 3 |
| Cargas de trabajo de salida larga | Telnyx | La ventaja de TTFT no se mantiene en E2E en los competidores |
| Disponibilidad regional | Telnyx | Serverless en EE. UU., Europa, APAC (Dubai + São Paulo próximamente) |
| Soberanía de datos | Telnyx | Compute en región por defecto; los competidores están concentrados en EE. UU. |
| TTFT vs E2E en Kimi K2.6 | Fireworks | Fireworks lidera en TTFT puro, Telnyx está dentro del 10-15% en E2E; el ecosistema de IA de voz se inclina hacia Telnyx |
Este benchmark se realizó el 23 de abril de 2026. Los resultados reflejan el rendimiento de los proveedores en ese momento. La infraestructura de inferencia cambia frecuentemente; recomendamos ejecutar tus propios benchmarks para decisiones de producción. Los datos brutos y la metodología están disponibles bajo petición.