Los modelos alojados se eligen deliberadamente, no para llenar un menú desplegable. Elige entre modelos optimizados para Voice AI en tiempo real, trabajo de desarrollo, optimización de costos y cargas de trabajo equilibradas.
Ejecuta inferencia donde están tus usuarios, con GPUs dedicadas en América, Europa y APAC. La computación en región ofrece experiencias de baja latencia a nivel global y permite que los datos permanezcan donde están tus usuarios, sin complicaciones de cumplimiento.
Endpoints compatibles con OpenAI que funcionan con tu SDK actual y se implementan globalmente.
Implementación en región
La inferencia se ejecuta en América, Europa y APAC, y MENA y LATAM llegarán pronto. Tus datos permanecen donde están tus usuarios y se mantienen privados.
API compatible con OpenAI
Usa tu SDK actual de OpenAI cambiando la URL base para acceder a cómputo regional y modelos frontier.
Llamadas a funciones
Conecta los LLM a herramientas y APIs externas para crear agentes que actúan, no solo generan texto.
Compatible con OpenAI. Cambia tu URL base, eso es todo.
Tu IA no tiene que detenerse en el texto. Telnyx ejecuta text-to-speech, Voice AI y telefonía en la misma infraestructura. La misma clave de API, la misma red, la misma factura.

Autoescalado
Las GPUs dedicadas gestionan solicitudes concurrentes y escalan automáticamente según tu carga de trabajo, sin necesidad de planificar capacidad ni preocuparte por arranques en frío.
Ajuste fino
Personaliza los modelos con tus propios datos mediante la API de Fine-Tuning, usando la misma infraestructura y la misma clave de API.
Salida estructurada
El modo JSON y las restricciones con expresiones regulares garantizan que la salida de inferencia se ajuste a tu esquema, con fiabilidad apta para producción.
Implementación en región
La inferencia se ejecuta en América, Europa y APAC, y MENA y LATAM llegarán pronto. Tus datos permanecen donde están tus usuarios y se mantienen privados.
API compatible con OpenAI
Usa tu SDK actual de OpenAI cambiando la URL base para acceder a cómputo regional y modelos frontier.
Llamadas a funciones
Conecta los LLM a herramientas y APIs externas para crear agentes que actúan, no solo generan texto.
Autoescalado
Las GPUs dedicadas gestionan solicitudes concurrentes y escalan automáticamente según tu carga de trabajo, sin necesidad de planificar capacidad ni preocuparte por arranques en frío.
Ajuste fino
Personaliza los modelos con tus propios datos mediante la API de Fine-Tuning, usando la misma infraestructura y la misma clave de API.
Salida estructurada
El modo JSON y las restricciones con expresiones regulares garantizan que la salida de inferencia se ajuste a tu esquema, con fiabilidad apta para producción.