14:50
youtube.com ontem SRT AI Coder TODAY

A nova IA aberta e autoaperfeiçoável da China supera a OpenAI.

IA chinesa supera OpenAI com tecnologia aberta e autoaperfeiçoável.

OpenAI Technology AI Open Models

Conteudo

TLDR;

O modelo M2.7 da MiniMax foi realmente open-sourced com pesos publicados no Hugging Face e demonstrou um processo de autoaperfeiçoamento com ciclos autônomos que elevaram sua performance em cerca de 30% em avaliações internas. Em benchmarks de engenharia e competições de ML, M2.7 alcança resultados comparáveis a modelos como GPT‑5.3/5.4 em várias tarefas, mas o conteúdo não sustenta uma afirmação absoluta de que ela "supere" toda a linha da OpenAI. O texto descreve capacidades e lançamentos da MiniMax, mas não fornece evidência direta de que a empresa seja chinesa, portanto essa parte do título não é confirmada pelo trecho apresentado.

Resumo

MiniMax liberou de verdade o M2.7 como open-source (pesos no Hugging Face): um modelo mixture-of-experts voltado para engenharia de software, trabalho de escritório e “agent teams”, capaz de coordenar agentes, usar ferramentas e tratar tarefas complexas. Em benchmarks relevantes ele alcança 56,22% no SWE‑Pro, 57,0% no Terminal Bench 2, 39,8% no NL2Repo e 55,6% no Vibe Pro, além de 76,5% em SWE‑Multilingual; demonstra compreensão de bases de código e diagnóstico de produção (reduzindo tempos de recuperação a menos de 3 minutos). Notável é o sistema de auto‑evolução: mais de 100 ciclos autônomos ajustando scaffolds, hiperparâmetros e workflows (incluindo detecção de loops), resultando em +30% em avaliações internas; o modelo já executa 30–50% do fluxo de trabalho RL internamente. Em MLE‑Bench Light obteve 66,6% de medalhas em média; no GDP‑Val AA marcou ELO 1.495, sendo o melhor open‑source nesse conjunto; mantém 97% de compliance em MM‑Claw e 62,7% de acurácia. Paralelamente, Runnable lançou o Run Claw, um agente em nuvem integrado a Slack/Telegram/Discord que age como parte da equipe (planeja, faz perguntas e executa), atingiu >US$2M e oferece geração de sites, vídeos, decks, upload de arquivos, modos de chat/planos, seleção de modelos, memória e integrações com Google, Notion, GitHub e Shopify.