Inferencia global. Datos locales.

Modelos de vanguardia en GPUs propias: GLM-5.1, Kimi K2.6, MiniMax-M2.7, Qwen3-235B, desplegados globalmente. Latencia inferior a 100 ms, compatible con OpenAI, sin necesidad de gestionar infraestructura.

CiscoOpenAITalkdeskAmerican Red CrossZillowMicrosoftCosmoIBMState of IowaCiscoOpenAITalkdeskAmerican Red CrossZillowMicrosoftCosmoIBMState of Iowa
TIEMPO DE EJECUCIÓN DEL AGENTE

Modelos frontier que se ganan su lugar

Los modelos alojados se eligen deliberadamente, no para llenar un menú desplegable. Elige entre modelos optimizados para Voice AI en tiempo real, trabajo de desarrollo, optimización de costos y cargas de trabajo equilibradas.

Loading...
POR QUÉ TELNYX

La ventaja del edge

Ejecuta inferencia donde están tus usuarios, con GPUs dedicadas en América, Europa y APAC. La computación en región ofrece experiencias de baja latencia a nivel global y permite que los datos permanezcan donde están tus usuarios, sin complicaciones de cumplimiento.

FUNCIONALIDADES

APIs de inferencia listas para producción

Endpoints compatibles con OpenAI que funcionan con tu SDK actual y se implementan globalmente.

  • Implementación en región

    La inferencia se ejecuta en América, Europa y APAC, y MENA y LATAM llegarán pronto. Tus datos permanecen donde están tus usuarios y se mantienen privados.

  • API compatible con OpenAI

    Usa tu SDK actual de OpenAI cambiando la URL base para acceder a cómputo regional y modelos frontier.

  • Llamadas a funciones

    Conecta los LLM a herramientas y APIs externas para crear agentes que actúan, no solo generan texto.

  • Autoescalado

    Las GPUs dedicadas gestionan solicitudes concurrentes y escalan automáticamente según tu carga de trabajo, sin necesidad de planificar capacidad ni preocuparte por arranques en frío.

  • Ajuste fino

    Personaliza los modelos con tus propios datos mediante la API de Fine-Tuning, usando la misma infraestructura y la misma clave de API.

  • Salida estructurada

    El modo JSON y las restricciones con expresiones regulares garantizan que la salida de inferencia se ajuste a tu esquema, con fiabilidad apta para producción.

CÓMO FUNCIONA

Migra en minutos

Compatible con OpenAI. Cambia tu URL base, eso es todo.

curl -i -X POST "https://api.telnyx.com/v2/ai/chat/completions" \
     -H "Authorization: Bearer $TELNYX_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{
       "model": "kimi-k2-5",
       "messages": [{"role": "user", "content": "Hello, World!"}]
     }'
PRECIOS

Precios transparentes, sin sobrecoste de la nube

Desde $0.21 por 1 millón de tokens. Sin cargos por alquiler de GPU, sin recargos por cómputo y sin mínimos.

$0.21

Costo inicial por 1 millón de tokens

PRODUCTOS

¿Estás creando IA que va más allá del chat?

Tu IA no tiene que detenerse en el texto. Telnyx ejecuta text-to-speech, Voice AI y telefonía en la misma infraestructura. La misma clave de API, la misma red, la misma factura.

Regístrate y empieza a crear.

Prueba modelos frontier ejecutándose en cómputo edge. Telnyx te da la infraestructura y el soporte para implementar cargas de trabajo de inferencia globalmente desde una sola plataforma.

Sign up for Telnyx Inference

FAQ

Las APIs de inferencia te permiten enviar prompts a un modelo implementado y recibir predicciones por HTTP, sin gestionar hardware de GPU por tu cuenta. Envuelven el serving de modelos detrás de una interfaz estándar de chat completions para que cualquier aplicación pueda generar texto, embeddings o llamadas a funciones bajo demanda.

Las APIs de inferencia te permiten enviar prompts a un modelo implementado y recibir predicciones por HTTP, sin gestionar hardware de GPU por tu cuenta. Envuelven el serving de modelos detrás de una interfaz estándar de chat completions para que cualquier aplicación pueda generar texto, embeddings o llamadas a funciones bajo demanda.