19:35
youtube.com ontem SRT AI Videos

20 days of compute vs 7 hours: rethinking what state-of-the-art means — Bertrand Charpentier, Pruna

Benchmark Tecnologia LLM

Conteudo

TLDR;

O título contrapõe avaliações pesadas a testes rápidos para argumentar que "state‑of‑the‑art" deve ser repensado considerando eficiência e validação no uso real, não apenas métricas de leaderboard. Para decidir qual modelo é o melhor, consulte múltiplas leaderboards focadas no seu caso de uso e faça benchmarks internos amplos que reproduzam as condições finais para obter resultados estatisticamente significativos. Escolher o maior foundation model por padrão não é recomendável; como o desempenho varia conforme a tarefa e a amostra, prefira o modelo que demonstrar consistência e relevância para sua aplicação.

Resumo

Este trecho discute como determinar qual modelo de IA é state of the art, mostrando que o conceito é ambíguo e que as duas abordagens comuns — consultar leaderboards públicos e realizar avaliações internas — têm limitações. Ver leaderboards é prático e rápido, mas rankings variam entre plataformas (Design Arena, Arena, Artificial Analysis), Elo scores mudam de escala, há duplicatas e inconsistências, e a posição no ranking geral não garante performance no seu caso de uso específico. Além disso, leaderboards costumam agregar tarefas diversas, escondendo diferenças por subtarefa; modelos que se destacam em remover objetos podem falhar em editar texto, por exemplo. As amostras usadas são frequentemente poucas (alguns milhares), pouco representativas frente ao tráfego real, e win rates mostram que nenhum modelo vence sempre — muitos perdem em cerca de 40% das batalhas — o que torna decisões baseadas em pequenas diferenças arriscadas. A solução recomendada é: comparar múltiplos leaderboards, focalizar rankings e métricas que reflitam seu uso final, ampliar a amostragem e completar com avaliação interna em condições reais (logs de API, testes específicos) para obter uma escolha mais robusta do modelo e iterar continuamente a partir de feedback real dos usuários para ajustes de eficiência e segurança.