Telnyx

Quatro novos LLMs open-weight para voz com IA: DeepSeek V3.2, Kimi K2.5, GLM-5 e MiniMax-M2.5

Modelos como Kimi e MiniMax mostram como LLMs open-weight estão mudando a voz com IA em produção, com melhor custo, baixa latência e mais controle sobre inferência.

By Eli Mogul

Quatro novos LLMs open-weight para voz com IA: DeepSeek V3.2, Kimi K2.5, GLM-5 e MiniMax-M2.5

Os primeiros meses de 2026 foram intensos para lançamentos de modelos open-weight. Quatro LLMs de classe frontier chegaram ao mercado em poucas semanas, cada um com decisões de arquitetura importantes para quem cria IA conversacional em escala. Analisamos o que há de novo, o que mudou e por que equipes que criam voz com IA devem prestar atenção, especialmente em modelos como Kimi e MiniMax.

Modelo	Desenvolvedor	Parâmetros totais	Parâmetros ativos	Janela de contexto	Licença	Preço de entrada da API
DeepSeek V3.2	DeepSeek AI	685B	37B	128K	MIT	US$ 0,28 / 1M tokens
Kimi K2.5	Moonshot AI	1T	32B	256K	MIT modificada	US$ 0,60 / 1M tokens
GLM-5	Z.AI (Zhipu)	744B	40B	200K	MIT	US$ 1,00 / 1M tokens
MiniMax-M2.5	MiniMax	230B	10B	200K	MIT modificada	US$ 0,30 / 1M tokens

DeepSeek V3.2

DeepSeek V3.2 chegou em dezembro de 2025 e definiu o tom para o que veio depois. Construído com 685 bilhões de parâmetros totais e 37 bilhões ativos por token, o V3.2 introduziu o DeepSeek Sparse Attention (DSA), um mecanismo que calcula pesos de atenção seletivamente, em vez de processar cada token contra todos os outros tokens.

O resultado: os custos de inferência para tarefas de contexto longo caíram cerca de 50%, enquanto o modelo manteve paridade de desempenho com seu antecessor, V3.1-Terminus, em benchmarks públicos. Para aplicações de voz com IA que exigem raciocínio sobre históricos longos de conversa ou orquestração de ferramentas em várias etapas, esse ganho de eficiência se traduz diretamente em tempos de resposta mais rápidos e custos menores por minuto.

O que diferencia o V3.2 é a combinação de forte capacidade agêntica e preço agressivo. Ele pontua 70% no SWE-bench Verified, 94,2% no AIME 2026 e obteve resultados de medalha de ouro na Olimpíada Internacional de Matemática de 2025. Mais relevante para fluxos de voz: o V3.2 é o primeiro modelo da DeepSeek a integrar raciocínio diretamente ao uso de ferramentas, com suporte a modos com e sem raciocínio ao chamar funções externas.

Isso significa que um agente de voz com IA com V3.2 pode raciocinar sobre uma consulta complexa de cliente, buscar dados em um CRM e formular uma resposta, tudo em uma única passagem de inferência. A US$ 0,28 por milhão de tokens de entrada e US$ 0,42 por milhão de tokens de saída, ele custa cerca de 10 a 25 vezes menos que modelos proprietários comparáveis.

A licença MIT aberta significa que você pode hospedar, fazer fine-tuning ou integrar o V3.2 a pipelines proprietários sem restrição. Para equipes que criam agentes de IA de voz que precisam de raciocínio forte com alta concorrência, como automação de contact center ou consultoria financeira em tempo real, o DeepSeek V3.2 oferece um caso econômico convincente.

O ponto de atenção: ele pode ser prolixo e, a 27 tokens por segundo na API do próprio provedor, é mais lento que alguns concorrentes. Para interações de voz sensíveis à latência, vale testar com seu caso de uso específico.

Todos esses quatro modelos estão na fronteira eficiente de custo por inteligência, e agora oferecemos suporte a eles no nosso endpoint de chat completions. O DeepSeek V3.2 estabeleceu o padrão dessa fronteira: raciocínio forte, uso integrado de ferramentas e preços que tornam viável manter agentes de IA em operação contínua.

James Whedbee, VP of Engineering @ Telnyx

Menos de um mês depois, a Moonshot AI respondeu com um modelo que adota uma abordagem fundamentalmente diferente para escala.

Kimi K2.5

Kimi K2.5, lançado em 27 de janeiro de 2026, é um modelo Mixture-of-Experts de um trilhão de parâmetros que ativa apenas 32 bilhões de parâmetros por token. O que o torna diferente de todos os outros modelos desta lista: ele é nativamente multimodal. A Moonshot AI continuou o pré-treinamento do modelo K2 base com aproximadamente 15 trilhões de tokens mistos de imagem e texto, usando um codificador visual proprietário de 400 milhões de parâmetros chamado MoonViT.

Para equipes que criam voz com IA, isso abre uma categoria de casos de uso em que o agente precisa interpretar entradas visuais junto com fala. Pense em processamento de sinistros de seguros, em que uma pessoa descreve um dano enquanto o agente analisa as fotos enviadas, ou suporte técnico, em que um cliente compartilha uma captura de tela durante a chamada.

O principal recurso é o Agent Swarm. Em vez de processar tarefas de forma sequencial, o K2.5 consegue decompor solicitações complexas em subtarefas paralelas e delegá-las a até 100 subagentes instanciados dinamicamente, cada um com suas próprias chamadas de ferramentas e cadeias de raciocínio. A Moonshot AI relata reduções de até 4,5 vezes no tempo total de execução em comparação com execução por agente único. No BrowseComp, um benchmark que mede pesquisa web em várias etapas, o K2.5 superou o GPT-5.2 Pro.

No Humanity’s Last Exam com ferramentas habilitadas, o modelo pontuou 50,2%, com custo 76% menor que o Claude Opus 4.5. O modelo oferece suporte a quatro modos operacionais: Instant, com respostas de 3 a 8 segundos; Thinking, com raciocínio profundo e traces; Agent, para conclusão de tarefas com ferramentas; e Agent Swarm, para orquestração paralela de múltiplos agentes.

Para aplicações de voz, a janela de contexto de 256K tokens do K2.5 é a maior deste grupo, o que importa para conversas longas ou cenários em que um agente precisa consultar muito contexto anterior. O tradeoff é a latência: respostas no Thinking Mode normalmente levam de 8 a 25 segundos, o que não funciona para voz conversacional em tempo real. O Instant Mode é mais rápido, mas sacrifica parte do raciocínio profundo que torna o K2.5 competitivo em benchmarks difíceis.

Equipes que criam fluxos de voz assíncronos, como triagem de correio de voz, resumo pós-chamada ou campanhas ativas em lote, tendem a extrair mais valor das capacidades do K2.5. O preço da API é de US$ 0,60 por milhão de tokens de entrada e US$ 2,50 por milhão de tokens de saída, com pesos disponíveis no Hugging Face para implantação local.

Para entender como esse tipo de escolha se encaixa em uma estratégia de modelos para produção, veja também nosso guia sobre como escolher modelos de inferência pela fronteira eficiente.

Kimi K2.5 oferece um ótimo equilíbrio entre inteligência e custo. A versão sem raciocínio é ideal para voz com IA em tempo real, e também recomendamos o modelo para assistentes com IA. Ele representa um grande salto em relação ao Qwen 235B em inteligência, com praticamente a mesma latência e faixa de preço. Muitos casos de uso que exigiam engenharia de prompt complexa com Qwen simplesmente funcionam com Kimi.

James Whedbee, VP of Engineering @ Telnyx

Na mesma semana em que o K2.5 foi lançado, a Z.AI testou discretamente seu próprio concorrente no OpenRouter sob um codinome, antes de revelar o modelo por completo.

GLM-5

A Z.AI, antes chamada Zhipu AI, lançou o GLM-5 em 11 de fevereiro de 2026, após uma estreia stealth no OpenRouter sob o codinome “Pony Alpha”, uma referência a 2026 ser o Ano do Cavalo. Com 744 bilhões de parâmetros totais e 40 bilhões ativos por token, o GLM-5 representa um salto de escala de 2 vezes em relação ao GLM-4.5 e foi treinado em 28,5 trilhões de tokens. Ele estreou como o modelo open-weight mais bem ranqueado tanto na Artificial Analysis quanto na Text Arena da LMArena.

A arquitetura integra DeepSeek Sparse Attention para lidar com contexto longo de forma eficiente em uma janela de 200K tokens, combinada com uma nova estrutura de reinforcement learning assíncrona chamada “Slime”, que melhorou o throughput de pós-treinamento o suficiente para permitir iterações de otimização muito mais granulares.

O GLM-5 é claramente posicionado para engenharia de sistemas complexos e tarefas agênticas de longo horizonte. No SWE-bench Verified, ele pontua 77,8%; no AIME 2026, chega a 92,7%; e fica em primeiro lugar entre modelos open-source no Vending Bench 2, um benchmark que mede capacidade operacional de longo prazo ao simular um ano inteiro de decisões de negócio.

A Z.AI apresenta a força do modelo como uma mudança de simples geração de código para engenharia agêntica de ponta a ponta. Em sua suíte interna CC-Bench-V2, o GLM-5 atinge 98% de sucesso na criação de frontend e 74,8% de correção ponta a ponta, uma melhoria de 26% em relação ao antecessor em tarefas de frontend. Para voz com IA, esse tipo de coerência sustentada em fluxos de várias etapas é o que separa uma demonstração de uma implantação em produção.

O preço é de US$ 1,00 por milhão de tokens de entrada e US$ 3,20 por milhão de tokens de saída, cerca de 3 vezes mais que o DeepSeek V3.2 na entrada e significativamente mais na saída, mas ainda uma fração do custo de alternativas proprietárias. Ele tem licença MIT completa e já é compatível com vLLM, SGLang, KTransformers e xLLM para implantação local.

Para equipes que executam agentes de voz com IA que precisam lidar com conversas complexas em múltiplos turnos com chamadas de ferramentas, como agendamento, gerenciamento de pedidos ou diagnóstico técnico, a combinação de forte desempenho agêntico e baixa taxa de alucinação do GLM-5 faz dele um candidato forte. O principal ponto de atenção: implantar o modelo completo exige 8 GPUs NVIDIA B200, então auto-hospedagem é um compromisso sério de infraestrutura.

Essa é uma das razões pelas quais muitas equipes avaliam alternativas à OpenAI e à OpenAI API que já ofereçam infraestrutura pronta para produção. Veja mais no guia sobre alternativas à OpenAI para inferência.

GLM-5 é o LLM open-source de maior inteligência no mundo hoje. Oferecemos suporte a ele em nosso endpoint de chat completions e, para equipes que precisam de capacidade máxima de raciocínio em pipelines de voz com IA, ele é o modelo a ser batido.

James Whedbee, VP of Engineering @ Telnyx

Um dia depois, a MiniMax mostrou que não é preciso ter um trilhão de parâmetros para competir na fronteira.

MiniMax-M2.5

MiniMax-M2.5, lançado em 12 de fevereiro de 2026, é de longe o menor modelo deste grupo: 230 bilhões de parâmetros totais, com apenas 10 bilhões ativos por token. Mas não o subestime pelo tamanho. Treinado com reinforcement learning em mais de 200.000 ambientes reais, o M2.5 alcança 80,2% no SWE-bench Verified, a maior pontuação entre os modelos desta lista e competitiva com o Claude Opus 4.6 em várias estruturas de avaliação.

Ele também conclui essas tarefas de benchmark 37% mais rápido que seu antecessor M2.1, igualando a velocidade do Claude Opus 4.6. A MiniMax descreve o M2.5 como o primeiro modelo frontier em que custo deixa de ser uma restrição, e o preço reforça essa tese: US$ 0,30 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída, com uma variante Lightning que dobra o throughput para 100 tokens por segundo.

O que diferencia o M2.5 para voz com IA é seu comportamento de planejamento em nível de arquiteto. Durante o treinamento, o modelo desenvolveu a tendência de decompor e planejar tarefas antes de executá-las, escrevendo especificações para estrutura de recursos, design de UI e arquitetura de componentes antes de produzir código.

Essa abordagem que prioriza o planejamento vai além de programação. Em tarefas agênticas de busca, o M2.5 usa 20% menos rodadas de pesquisa que o M2.1, com melhor eficiência de tokens, chegando aos resultados por caminhos de raciocínio mais precisos. A MiniMax também treinou o M2.5 em colaboração com especialistas de domínio em finanças, direito e ciências sociais, mirando entregas realmente utilizáveis para tarefas de produtividade corporativa. Em tarefas avançadas com documentos, como formatação de Word, edição de PowerPoint e modelagem financeira em Excel, o M2.5 atingiu uma taxa média de vitória de 59,0% contra modelos mainstream.

Para voz com IA em escala, a história de eficiência do M2.5 é difícil de ignorar. Com apenas 10 bilhões de parâmetros ativos, ele é pequeno o suficiente para auto-hospedagem em configurações multi-GPU de nível consumidor ou até em máquinas Apple Silicon de alto desempenho com memória unificada suficiente. Isso significa que você pode executar inferência localmente e manter dados de conversas on-premises, uma vantagem relevante para setores como saúde e serviços financeiros, em que requisitos de residência de dados podem inviabilizar chamadas a APIs de terceiros.

O modelo oferece suporte a janela de contexto de 200K, chamada de funções e modos thinking e instant. A única lacuna relevante em comparação com os outros modelos deste grupo: o M2.5 é apenas texto, sem suporte nativo a visão. Para IA conversacional puramente de voz para voz, isso não é uma limitação. Para fluxos multimodais, você o combinaria com um pipeline de visão separado.

MiniMax-M2.5 é altamente inteligente a um custo menor. É outro modelo que está exatamente na fronteira eficiente, e nós o adicionamos ao nosso endpoint de chat completions. Para equipes que estão otimizando o custo de voz com IA em escala, a relação inteligência por dólar aqui é de alto nível.

James Whedbee, VP of Engineering @ Telnyx

O que isso significa para quem cria voz com IA

Esses quatro lançamentos sinalizam uma tendência clara: modelos open-weight agora igualam ou superam alternativas proprietárias nos benchmarks que mais importam para IA conversacional, incluindo uso de ferramentas, raciocínio em várias etapas, coerência em contexto longo e conclusão de tarefas agênticas. A economia também mudou. Executar um agente de voz com IA com MiniMax-M2.5 ou DeepSeek V3.2 custa uma fração do que modelos proprietários equivalentes cobram, e licenças MIT dão às equipes controle total sobre implantação, fine-tuning e tratamento de dados.

Para equipes que constroem na infraestrutura de Voice AI da Telnyx, esses modelos entram diretamente na stack. Infraestrutura de GPU co-localizada com PoPs globais de telecom significa que você pode executar inferência nesses modelos abertos com a baixa latência que voz em tempo real exige, sem rotear dados por APIs de terceiros nem sacrificar controle sobre o pipeline.

Esse ponto é especialmente importante quando o agente precisa operar sobre tráfego telefônico real. Se sua aplicação depende de telefonia, roteamento e sinalização, vale revisar como SIP trunking e trunk SIP entram na arquitetura. A escolha do LLM importa, mas a rede que conecta o modelo à conversa também determina a experiência final.

A pergunta não é mais se modelos open-weight estão prontos para voz com IA em produção. A pergunta é qual deles se encaixa melhor nos seus requisitos de latência, custo e capacidade.

Para muitas equipes, Kimi é a escolha natural quando o equilíbrio entre inteligência, latência e custo precisa funcionar em experiências de voz. MiniMax é especialmente forte quando a prioridade é eficiência em escala. E, em uma arquitetura madura, você não precisa escolher apenas um: pode rotear tarefas diferentes para modelos diferentes, mantendo controle sobre custo, desempenho e experiência do usuário.

Share on Social

Eli Mogul

Content Writer & Editor

Eli is the content writer and editor at Telnyx. Born and raised in Chicago, Eli attended the University of Missouri where he obtained a BA in Journalism. Eli joined Telnyx in August of 2025. In his spare time, you'll find Eli reading, playing video games, or running.

Quatro novos LLMs open-weight para voz com IA: DeepSeek V3.2, Kimi K2.5, GLM-5 e MiniMax-M2.5

Quatro novos LLMs open-weight para voz com IA: DeepSeek V3.2, Kimi K2.5, GLM-5 e MiniMax-M2.5

DeepSeek V3.2

Kimi K2.5

GLM-5

MiniMax-M2.5

O que isso significa para quem cria voz com IA

Jump to:

Sign up for emails of our latest articles and news

Ask AI