Inferencia global. Datos locales.

Modelos de vanguardia en GPUs propias: GLM-5.1, Kimi K2.6, MiniMax-M2.7, Qwen3-235B, desplegados globalmente. Latencia inferior a 100 ms, compatible con OpenAI, sin necesidad de gestionar infraestructura.

CiscoOpenAITalkdeskAmerican Red CrossZillowMicrosoftCosmoIBMState of IowaCiscoOpenAITalkdeskAmerican Red CrossZillowMicrosoftCosmoIBMState of Iowa
AGENT RUNTIME

Modelos frontier que se ganan su lugar

Los modelos hospedados se eligen deliberadamente, no para llenar un menú. Kimi K2.6 para voice AI en tiempo real, GLM-5.1 para desarrollo, MiniMax-M3 para costo, Qwen3-235B para cargas de trabajo equilibradas.

Loading...
POR QUÉ TELNYX

La ventaja del edge

Ejecuta inferencia donde están tus usuarios, con GPUs dedicadas en las Américas, Europa y APAC. El cómputo en región entrega experiencias de baja latencia globalmente, y significa que los datos permanecen donde están tus usuarios, sin problemas de compliance.

CARACTERÍSTICAS

APIs de inferencia listas para producción

Endpoints compatibles con OpenAI que funcionan con tu SDK existente y se despliegan globalmente.

  • Despliegue en región

    La inferencia se ejecuta en las Américas, Europa y APAC, con MENA y LATAM próximamente. Tus datos permanecen donde están tus usuarios, y permanecen privados.

  • API compatible con OpenAI

    Usa tu SDK de OpenAI existente cambiando la URL base para acceder a cómputo regional y modelos frontier.

  • Llamada de funciones

    Conecta LLMs a herramientas y APIs externas para construir agentes que toman acción, no solo generan texto.

  • Escalado automático

    GPUs dedicadas manejan requests concurrentes y escalan automáticamente con tu carga de trabajo, sin planificación de capacidad ni cold starts.

  • Fine-tuning

    Personaliza modelos con tus propios datos vía la API de Fine-Tuning usando la misma infraestructura y API key.

  • Salida estructurada

    Modo JSON y restricciones regex aseguran que la salida de inferencia se ajuste a tu esquema para resultados de grado de producción.

HOW IT WORKS

Migra en minutos

OpenAI-compatible. Change your base URL, that's it.

curl -i -X POST "https://api.telnyx.com/v2/ai/chat/completions" \
     -H "Authorization: Bearer $TELNYX_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{
       "model": "kimi-k2-5",
       "messages": [{"role": "user", "content": "Hello, World!"}]
     }'
PRECIOS

Precios transparentes, sin sobrecoste de la nube

Desde $0.21 por 1M de tokens. Sin tarifas de alquiler de GPU, sin recargos de cómputo, sin mínimos.

$0.21

Costo inicial por 1M de tokens

PRODUCTOS

Construyendo IA que va más allá del chat?

Tu IA no tiene que detenerse en texto. Telnyx ejecuta text-to-speech, voice AI y telefonía sobre la misma infraestructura. Misma API key, misma red, misma factura.

Regístrate y empieza a crear.

Test frontier models running on edge compute. Telnyx gives you the infrastructure and support to deploy inference workloads globally from one platform.

Sign up for Telnyx Inference

FAQ

Inference APIs let you send prompts to a deployed model and get predictions back over HTTP, without managing GPU hardware yourself. They wrap model serving behind a standard chat completions interface so any application can generate text, embeddings, or function calls on demand.

Inference APIs let you send prompts to a deployed model and get predictions back over HTTP, without managing GPU hardware yourself. They wrap model serving behind a standard chat completions interface so any application can generate text, embeddings, or function calls on demand.