Modelos como Kimi e MiniMax mostram como LLMs open-weight estão mudando Voice AI em produção, com melhor custo, baixa latência e mais controle sobre inferência.

Os primeiros meses de 2026 foram intensos para lançamentos de modelos open-weight. Quatro LLMs de classe frontier chegaram ao mercado em poucas semanas, cada um com decisões de arquitetura importantes para quem cria IA conversacional em escala. Analisamos o que há de novo, o que mudou e por que equipes que criam Voice AI devem prestar atenção, especialmente em modelos como Kimi e MiniMax.
| Modelo | Desenvolvedor | Parâmetros totais | Parâmetros ativos | Janela de contexto | Licença | Preço de entrada da API |
|---|---|---|---|---|---|---|
| DeepSeek V3.2 | DeepSeek AI | 685B |
Related articles
| 37B |
| 128K |
| MIT |
| US$ 0,28 / 1M tokens |
| Kimi K2.5 | Moonshot AI | 1T | 32B | 256K | MIT modificada | US$ 0,60 / 1M tokens |
| GLM-5 | Z.AI (Zhipu) | 744B | 40B | 200K | MIT | US$ 1,00 / 1M tokens |
| MiniMax-M2.5 | MiniMax | 230B | 10B | 200K | MIT modificada | US$ 0,30 / 1M tokens |
DeepSeek V3.2 chegou em dezembro de 2025 e definiu o tom para o que veio depois. Construído com 685 bilhões de parâmetros totais e 37 bilhões ativos por token, o V3.2 introduziu o DeepSeek Sparse Attention (DSA), um mecanismo que calcula pesos de atenção seletivamente, em vez de processar cada token contra todos os outros tokens.
O resultado: os custos de inferência para tarefas de contexto longo caíram cerca de 50%, enquanto o modelo manteve paridade de desempenho com seu antecessor, V3.1-Terminus, em benchmarks públicos. Para aplicações de Voice AI que exigem raciocínio sobre históricos longos de conversa ou orquestração de ferramentas em várias etapas, esse ganho de eficiência se traduz diretamente em tempos de resposta mais rápidos e custos menores por minuto.
O que diferencia o V3.2 é a combinação de forte capacidade agentic e preço agressivo. Ele pontua 70% no SWE-bench Verified, 94,2% no AIME 2026 e obteve resultados de medalha de ouro na Olimpíada Internacional de Matemática de 2025. Mais relevante para fluxos de voz: o V3.2 é o primeiro modelo da DeepSeek a integrar raciocínio diretamente ao uso de ferramentas, com suporte a modos com e sem raciocínio ao chamar funções externas.
Isso significa que um agente de Voice AI com V3.2 pode raciocinar sobre uma consulta complexa de cliente, buscar dados em um CRM e formular uma resposta, tudo em uma única passagem de inferência. A US$ 0,28 por milhão de tokens de entrada e US$ 0,42 por milhão de tokens de saída, ele custa cerca de 10 a 25 vezes menos que modelos proprietários comparáveis.
A licença MIT aberta significa que você pode hospedar, fazer fine-tuning ou integrar o V3.2 a pipelines proprietários sem restrição. Para equipes que criam agentes de IA de voz que precisam de raciocínio forte com alta concorrência, como automação de contact center ou consultoria financeira em tempo real, o DeepSeek V3.2 oferece uma história econômica convincente.
O ponto de atenção: ele pode ser verboso e, a 27 tokens por segundo na API do próprio provedor, é mais lento que alguns concorrentes. Para interações de voz sensíveis à latência, vale testar com seu caso de uso específico.
Todos esses quatro modelos estão na fronteira eficiente de custo por inteligência, e agora oferecemos suporte a eles em nosso endpoint de chat completions. O DeepSeek V3.2 definiu o benchmark do que essa fronteira representa: raciocínio forte, uso integrado de ferramentas e preços que tornam agentes de IA sempre ativos economicamente viáveis.
James Whedbee, VP of Engineering @ Telnyx
Menos de um mês depois, a Moonshot AI respondeu com um modelo que adota uma abordagem fundamentalmente diferente para escala.
Kimi K2.5, lançado em 27 de janeiro de 2026, é um modelo Mixture-of-Experts de um trilhão de parâmetros que ativa apenas 32 bilhões de parâmetros por token. O que o torna diferente de todos os outros modelos desta lista: ele é nativamente multimodal. A Moonshot AI continuou o pré-treinamento do modelo K2 base com aproximadamente 15 trilhões de tokens mistos de imagem e texto, usando um encoder visual proprietário de 400 milhões de parâmetros chamado MoonViT.
Para equipes que criam Voice AI, isso abre uma categoria de casos de uso em que o agente precisa interpretar entradas visuais junto com fala. Pense em processamento de sinistros de seguros, em que uma pessoa descreve um dano enquanto o agente analisa fotos enviadas, ou suporte técnico, em que um cliente compartilha uma captura de tela durante a chamada.
O principal recurso é o Agent Swarm. Em vez de processar tarefas de forma sequencial, o K2.5 consegue decompor solicitações complexas em subtarefas paralelas e delegá-las a até 100 subagentes instanciados dinamicamente, cada um com suas próprias chamadas de ferramentas e cadeias de raciocínio. A Moonshot AI relata reduções de até 4,5 vezes no tempo total em comparação com execução por agente único. No BrowseComp, um benchmark que mede pesquisa web em várias etapas, o K2.5 superou o GPT-5.2 Pro.
No Humanity’s Last Exam com ferramentas habilitadas, o modelo pontuou 50,2%, com custo 76% menor que o Claude Opus 4.5. O modelo oferece suporte a quatro modos operacionais: Instant, com respostas de 3 a 8 segundos; Thinking, com raciocínio profundo e traces; Agent, para conclusão de tarefas com ferramentas; e Agent Swarm, para orquestração paralela de múltiplos agentes.
Para aplicações de voz, a janela de contexto de 256K tokens do K2.5 é a maior deste grupo, o que importa para conversas longas ou cenários em que um agente precisa consultar muito contexto anterior. O tradeoff é a latência: respostas no Thinking Mode normalmente levam de 8 a 25 segundos, o que não funciona para voz conversacional em tempo real. O Instant Mode é mais rápido, mas sacrifica parte do raciocínio profundo que torna o K2.5 competitivo em benchmarks difíceis.
Equipes que criam fluxos de voz assíncronos, como triagem de correio de voz, resumo pós-chamada ou campanhas outbound em lote, tendem a extrair mais valor das capacidades do K2.5. O preço da API é de US$ 0,60 por milhão de tokens de entrada e US$ 2,50 por milhão de tokens de saída, com pesos disponíveis no Hugging Face para implantação self-hosted.
Para entender como esse tipo de escolha se encaixa em uma estratégia de modelos para produção, veja também nosso guia sobre como escolher modelos de inferência pela fronteira eficiente.
Kimi K2.5 oferece um ótimo equilíbrio entre inteligência e custo. A versão sem raciocínio é ideal para Voice AI em tempo real, e também recomendamos o modelo para AI Assistants. Ele representa um grande salto em relação ao Qwen 235B em inteligência, com praticamente a mesma latência e faixa de preço. Muitos casos de uso que exigiam engenharia de prompt complexa com Qwen simplesmente funcionam com Kimi.
James Whedbee, VP of Engineering @ Telnyx
Na mesma semana em que o K2.5 foi lançado, a Z.AI testou discretamente seu próprio concorrente no OpenRouter sob um codinome, antes de revelar o modelo por completo.
A Z.AI, antes chamada Zhipu AI, lançou o GLM-5 em 11 de fevereiro de 2026, após uma estreia stealth no OpenRouter sob o alias “Pony Alpha”, uma referência a 2026 ser o Ano do Cavalo. Com 744 bilhões de parâmetros totais e 40 bilhões ativos por token, o GLM-5 representa um salto de escala de 2 vezes em relação ao GLM-4.5 e foi treinado em 28,5 trilhões de tokens. Ele estreou como o modelo open-weight mais bem ranqueado tanto na Artificial Analysis quanto na Text Arena da LMArena.
A arquitetura integra DeepSeek Sparse Attention para lidar com contexto longo de forma eficiente em uma janela de 200K tokens, combinada com uma nova estrutura de reinforcement learning assíncrona chamada “Slime”, que melhorou o throughput de pós-treinamento o suficiente para permitir iterações de otimização muito mais granulares.
O GLM-5 é claramente posicionado para engenharia de sistemas complexos e tarefas agentic de longo horizonte. No SWE-bench Verified, ele pontua 77,8%; no AIME 2026, chega a 92,7%; e fica em primeiro lugar entre modelos open-source no Vending Bench 2, um benchmark que mede capacidade operacional de longo prazo ao simular um ano inteiro de decisões de negócio.
A Z.AI apresenta a força do modelo como uma mudança de simples geração de código para engenharia agentic de ponta a ponta. Em sua suíte interna CC-Bench-V2, o GLM-5 atinge 98% de sucesso na criação de frontend e 74,8% de correção ponta a ponta, uma melhoria de 26% em relação ao antecessor em tarefas de frontend. Para Voice AI, esse tipo de coerência sustentada em fluxos de várias etapas é o que separa uma demonstração de uma implantação em produção.
O preço é de US$ 1,00 por milhão de tokens de entrada e US$ 3,20 por milhão de tokens de saída, cerca de 3 vezes mais que o DeepSeek V3.2 na entrada e significativamente mais na saída, mas ainda uma fração do custo de alternativas proprietárias. Ele tem licença MIT completa e já é compatível com vLLM, SGLang, KTransformers e xLLM para implantação self-hosted.
Para equipes que executam agentes de Voice AI que precisam lidar com conversas complexas em múltiplos turnos com chamadas de ferramentas, como agendamento, gerenciamento de pedidos ou troubleshooting técnico, a combinação de forte desempenho agentic e baixa taxa de alucinação do GLM-5 faz dele um candidato forte. O principal ponto de atenção: implantar o modelo completo exige 8 GPUs NVIDIA B200, então self-hosting é um compromisso sério de infraestrutura.
Essa é uma das razões pelas quais muitas equipes avaliam alternativas à OpenAI e à OpenAI API que já ofereçam infraestrutura pronta para produção. Veja mais no guia sobre alternativas à OpenAI para inferência.
GLM-5 é o LLM open-source de maior inteligência no mundo hoje. Oferecemos suporte a ele em nosso endpoint de chat completions e, para equipes que precisam de capacidade máxima de raciocínio em pipelines de Voice AI, ele é o modelo a ser batido.
James Whedbee, VP of Engineering @ Telnyx
Um dia depois, a MiniMax mostrou que não é preciso ter um trilhão de parâmetros para competir na fronteira.
MiniMax-M2.5, lançado em 12 de fevereiro de 2026, é de longe o menor modelo deste grupo: 230 bilhões de parâmetros totais, com apenas 10 bilhões ativos por token. Mas não subestime o tamanho. Treinado com reinforcement learning em mais de 200.000 ambientes reais, o M2.5 alcança 80,2% no SWE-bench Verified, a maior pontuação entre os modelos desta lista e competitiva com o Claude Opus 4.6 em várias estruturas de avaliação.
Ele também conclui essas tarefas de benchmark 37% mais rápido que seu antecessor M2.1, igualando a velocidade do Claude Opus 4.6. A MiniMax descreve o M2.5 como o primeiro modelo frontier em que custo deixa de ser uma restrição, e o preço reforça essa tese: US$ 0,30 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída, com uma variante Lightning que dobra o throughput para 100 tokens por segundo.
O que diferencia o M2.5 para Voice AI é seu comportamento de planejamento em nível de arquiteto. Durante o treinamento, o modelo desenvolveu a tendência de decompor e planejar tarefas antes de executá-las, escrevendo especificações para estrutura de recursos, design de UI e arquitetura de componentes antes de produzir código.
Essa abordagem planning-first vai além de programação. Em tarefas agentic de busca, o M2.5 usa 20% menos rodadas de pesquisa que o M2.1, com melhor eficiência de tokens, chegando aos resultados por caminhos de raciocínio mais precisos. A MiniMax também treinou o M2.5 em colaboração com especialistas de domínio em finanças, direito e ciências sociais, mirando entregas realmente utilizáveis para tarefas de produtividade corporativa. Em tarefas avançadas com documentos, como formatação de Word, edição de PowerPoint e modelagem financeira em Excel, o M2.5 atingiu uma taxa média de vitória de 59,0% contra modelos mainstream.
Para Voice AI em escala, a história de eficiência do M2.5 é difícil de ignorar. Com apenas 10 bilhões de parâmetros ativos, ele é pequeno o suficiente para self-hosting em configurações multi-GPU de nível consumidor ou até em máquinas Apple Silicon de alto desempenho com memória unificada suficiente. Isso significa que você pode executar inferência localmente e manter dados de conversas on-premises, uma vantagem relevante para setores como saúde e serviços financeiros, em que requisitos de residência de dados podem inviabilizar chamadas a APIs de terceiros.
O modelo oferece suporte a janela de contexto de 200K, chamada de funções e modos thinking e instant. A única lacuna relevante em comparação com os outros modelos deste grupo: o M2.5 é apenas texto, sem suporte nativo a visão. Para IA conversacional puramente de voz para voz, isso não é uma limitação. Para fluxos multimodais, você o combinaria com um pipeline de visão separado.
MiniMax-M2.5 é altamente inteligente a um custo menor. É outro modelo que está exatamente na fronteira eficiente, e nós o adicionamos ao nosso endpoint de chat completions. Para equipes que estão otimizando o custo de Voice AI em escala, a relação inteligência por dólar aqui é de alto nível.
James Whedbee, VP of Engineering @ Telnyx
Esses quatro lançamentos sinalizam uma tendência clara: modelos open-weight agora igualam ou superam alternativas proprietárias nos benchmarks que mais importam para IA conversacional, incluindo uso de ferramentas, raciocínio em várias etapas, coerência em contexto longo e conclusão de tarefas agentic. A economia também mudou. Executar um agente de Voice AI com MiniMax-M2.5 ou DeepSeek V3.2 custa uma fração do que modelos proprietários equivalentes cobram, e licenças MIT dão às equipes controle total sobre implantação, fine-tuning e tratamento de dados.
Para equipes que constroem na infraestrutura de Voice AI da Telnyx, esses modelos entram diretamente na stack. Infraestrutura de GPU co-localizada com PoPs globais de telecom significa que você pode executar inferência nesses modelos abertos com a baixa latência que voz em tempo real exige, sem rotear dados por APIs de terceiros nem sacrificar controle sobre o pipeline.
Esse ponto é especialmente importante quando o agente precisa operar sobre tráfego telefônico real. Se sua aplicação depende de telefonia, roteamento e sinalização, vale revisar como SIP trunking e trunk SIP entram na arquitetura. A escolha do LLM importa, mas a rede que conecta o modelo à conversa também determina a experiência final.
A pergunta não é mais se modelos open-weight estão prontos para Voice AI em produção. A pergunta é qual deles se encaixa melhor nos seus requisitos de latência, custo e capacidade.
Para muitas equipes, Kimi é a escolha natural quando o equilíbrio entre inteligência, latência e custo precisa funcionar em experiências de voz. MiniMax é especialmente forte quando a prioridade é eficiência em escala. E, em uma arquitetura madura, você não precisa escolher apenas um: pode rotear tarefas diferentes para modelos diferentes, mantendo controle sobre custo, desempenho e experiência do usuário.