O Turno da Madrugada

Um escritório vazio às 3 da manhã, telas brilhando com código em execução, cadeiras vazias, abajures âmbar projetando círculos de luz quente enquanto agentes de IA trabalham durante a noite

Em 7 de março, Andrej Karpathy foi dormir. Quando acordou, um agente de IA havia feito 700 alterações no seu código de treinamento, encontrado 20 melhorias que ele havia perdido após semanas de ajuste manual, e registrado cada uma delas em um branch do git. Ele abriu o código — um script de 630 linhas, um arquivo de prompt, um relógio de cinco minutos — e em dez dias, builders independentes haviam apontado o mesmo loop para mercados financeiros, motores de xadrez, pipelines de renderização e raciocínio argumentativo. Ninguém coordenou isso. As condições estruturais simplesmente estavam certas.

O Loop

A configuração de Karpathy é deliberadamente minimalista. Uma GPU. Um script de treinamento com 630 linhas. Um arquivo de prompt que descreve a direção da pesquisa. O agente modifica o código, treina um modelo de linguagem pequeno por exatamente cinco minutos, verifica a perda de validação, registra o resultado em um branch do git e repete. Cada ponto em sua visualização é uma rodada de treinamento completa. A restrição — cinco minutos, sem exceções — é o que faz o sistema funcionar. Sem um relógio fixo, o agente gastaria horas em becos sem saída. Com ele, cada experimento é barato o suficiente para ser descartável.

Karpathy deixou o loop rodando por dois dias em um modelo de profundidade 12. Setecentas alterações autônomas. O agente não tentou mutações aleatórias — ele examinou a sequência de resultados anteriores e planejou experimentos subsequentes com base no que havia funcionado. Descobriu que a atenção estava muito difusa (faltava um multiplicador de escala), a regularização estava incompleta, a atenção em banda estava conservadora demais e os betas do otimizador estavam mal configurados. Vinte dessas alterações transferiram para modelos maiores e melhoraram o leaderboard em 11%. Tudo isso em cima de ajustes que ele já havia feito manualmente durante semanas.

O trecho mais revelador é o que Karpathy quase deixa escapar: "qualquer métrica que você se importe que seja razoavelmente eficiente de avaliar pode ser autopesquisada por um enxame de agentes." Tem um número e uma função de avaliação rápida? Tem um loop. Não tem? Não tem. Tudo o que se seguiu foi uma exploração dessa fronteira.

A Cascata de Instanciação

O que Lior Alexander chamou de "o gênio silencioso" da autopesquisa é o relógio fixo de cinco minutos. É a restrição que torna o loop legível — cada experimento custa o mesmo, os resultados são diretamente comparáveis e o agente nunca se perde por horas numa exploração sem fim. É isso que torna o padrão portátil. Você não precisa da configuração específica de Karpathy. Você precisa de uma métrica, um relógio e um loop.

Chris Worsey foi o primeiro a demonstrar portabilidade em escala. Ele pegou o loop de autopesquisa e o apontou para os mercados financeiros. Vinte e cinco agentes debatendo macro, taxas, commodities, setores e ações individuais. Cada recomendação pontuada contra resultados reais. O agente com o pior Sharpe ratio acumulado tem seu prompt reescrito pelo sistema. Mantém ou reverte. Mesmo loop, mesma lógica — os prompts são os pesos, o Sharpe é a função de perda.

mutações de prompt testadas

sobreviveram à seleção natural

retorno em 173 dias

Mas o que importa de verdade não é o retorno. É a substituição. Na versão de Karpathy, o agente edita código Python e a função de perda avalia o resultado. Na versão de Worsey, o agente edita prompts em inglês e o mercado avalia o resultado. O loop é idêntico. Só o substrato mudou — e é exatamente por isso que o padrão é perigoso.

Março de 2026

O experimento de "autopesquisa" de Karpathy: um agente de IA em loop recursivo de automelhoria com uma única métrica testável

Fortune

Os domínios continuaram se multiplicando. Tobi Lütke, CEO da Shopify, rodou autopesquisa no motor de renderização Liquid da sua empresa e obteve 53% mais velocidade no tempo de parse+render e 61% menos alocações de objetos — depois abriu o código do plugin. Deedy Das apontou o loop para um motor de xadrez escrito em Rust e o elevou do nível "expert" para um grão-mestre do top 50 — motor número 311 no leaderboard — por meio de 70 experimentos autônomos. Kaspars Dancis usou o loop para otimizar um motor de renderização em canvas e viu uma melhoria de 10x no teste mais lento, em questão de horas.

A equipe de Varun Mathur tornou o padrão completamente genérico. O sistema deles permite que qualquer pessoa proponha um problema de otimização em linguagem natural, e um enxame distribuído é iniciado para resolvê-lo. Duzentos e trinta e sete agentes, 14.832 experimentos em cinco domínios, zero intervenção humana. A abstração havia se separado completamente da implementação específica de Karpathy. O padrão estava se replicando — não por coordenação, mas por inevitabilidade estrutural: se você tem as peças (agentes baratos, avaliação rápida, uma pontuação), o loop se monta sozinho.

A Força Estrutural

A queda de custo que torna tudo isso possível não é uma coisa só — são três coisas convergindo. Inferência barata o suficiente para que um indivíduo rode centenas de chamadas de agente por hora. Infraestrutura de avaliação — funções de perda, benchmarks, APIs de pontuação — madura o bastante para automatizar o "verificar se funcionou." E o git, que entrega de graça um registro universal de experimentos. O agente registra cada tentativa. O humano revisa um log, não um processo.

Juntas, essas três quedas cruzam um limiar. Abaixo dele, rodar experimentos durante a noite exige uma equipe: alguém para projetá-los, alguém para monitorá-los, alguém para interpretar os resultados. Acima, uma pessoa escreve um prompt e vai dormir. A unidade de pesquisa encolheu de um laboratório para um laptop.

O turno da madrugada não é sobre velocidade. É sobre o que compõe enquanto o organograma dorme.

Quem colocou isso de forma mais viva foi Heinrich (@arscontexta). Ele propôs que os agentes deveriam "sonhar" — literalmente processar suas sessões durante o tempo ocioso, manter e evoluir suas notas, sintetizar e explorar, até mesmo alucinar. A metáfora biológica é imprecisa, mas a intuição estrutural está correta: tempo ocioso é capacidade desperdiçada, e capacidade desperdiçada é um custo que compõe contra você quando os agentes do seu concorrente não dormem.

Onde o Loop Quebra

Tudo o que foi descrito acima funciona porque existe um número. Perda de validação. Sharpe ratio. Pontuação de qualidade de renderização. Taxa de quadros. O loop compõe porque a função de aptidão é inequívoca — menor é melhor, maior é melhor, e o agente não precisa entender por quê.

A maior parte do trabalho real não tem pontuação.

Escrita não tem função de perda. Estratégia não tem Sharpe ratio. Design não tem uma métrica de validação que um agente possa explorar sem manipulá-la. O turno da madrugada é poderoso precisamente onde o trabalho é redutível a um número, e silencioso onde não é. O próprio Karpathy nomeou essa fronteira — "razoavelmente eficiente de avaliar" — e ela é mais difícil do que a cascata de instanciações sugere.

A Alibaba testou essa fronteira empiricamente. Ela rodou 18 agentes de codificação de IA em 100 bases de código reais abrangendo 233 dias cada uma. Os agentes conseguiam passar em testes — o equivalente de uma pontuação de validação — na primeira tentativa. Mas manter código por oito meses, onde a métrica é "tudo ainda funciona depois desta mudança e das próximas cinquenta", foi catastrófico. Setenta e cinco por cento dos modelos quebraram código que funcionava anteriormente durante a manutenção. A função de perda para um único commit é tratável. A função de perda para uma base de código ao longo do tempo não é.

Não é questão de modelos melhores. É uma propriedade estrutural do domínio. Em treinamento de ML, a perda de validação é uma estatística suficiente — ela captura tudo que você precisa saber sobre se a mudança foi boa. Em manutenção de código, nenhuma métrica única captura "esta mudança é boa para o sistema nos próximos seis meses." Em estratégia, nenhuma métrica captura "esta é a direção certa." O loop precisa de uma pontuação. Alguns trabalhos resistem à pontuação.

A Primeira Tentativa no Terreno Subjetivo

É por isso que o projeto AutoReason de @SHL0MS é o desenvolvimento mais interessante nessa cascata — não porque funciona, mas porque identifica o problema certo. O AutoReason estende o loop de autopesquisa a domínios subjetivos construindo uma função de aptidão sintética por meio de debate adversarial.

O mecanismo: gera a versão A. Um agente novo a ataca como um espantalho. Um autor separado produz a versão B incorporando a crítica. Um terceiro agente sintetiza A e B. Um painel de juízes cegos escolhe a mais forte. A vencedora torna-se a nova A. O loop se repete até que os juízes consistentemente escolham a incumbente — convergência por argumentação em vez de otimização.

Em vez de "menor perda é melhor", a função de aptidão torna-se "sobrevive ao escrutínio adversarial de avaliadores independentes." O número não existe no domínio, então o AutoReason fabrica um proxy simulando o processo que os humanos usam para avaliar trabalho subjetivo: argumento, contra-argumento, síntese, julgamento.

Mas a questão estrutural permanece: o proxy captura o que importa? Na autopesquisa, a perda de validação se correlaciona com a qualidade do modelo porque é isso que a perda de validação mede. No AutoReason, "sobrevive ao julgamento cego" se correlaciona com... o quê? Persuasão? Consistência lógica? Polimento retórico? A distância entre "os juízes escolheram" e "é genuinamente bom" é a distância entre uma função de aptidão real e uma sintética. Todo proxy métrico na história acabou sendo vítima da Lei de Goodhart. A questão é se o debate adversarial é robusto o suficiente para resistir a isso, ou se os loops do AutoReason convergirão para outputs que são maximamente agradáveis aos juízes em vez de maximamente bons.

O Portanto

Setecentos experimentos enquanto você dorme não é uma melhoria incremental. É uma função de produção diferente. O turno da madrugada reestrutura cada domínio onde a pontuação é honesta — onde perda de validação, Sharpe ratio ou qualidade de renderização podem representar "melhor" sem ser manipulados. Isso cobre mais território do que a maioria das pessoas percebe.

A fronteira é todo o resto. O trabalho subjetivo não carece de avaliação — carece de avaliação que permaneça honesta sob pressão de otimização. O AutoReason é a primeira tentativa séria de fabricar essa honestidade por meio de debate adversarial. Se funciona depende de se "sobrevive ao julgamento cego" consegue resistir às mesmas dinâmicas de Goodhart que corrompem todo outro proxy métrico. A história sugere que não consegue. A estrutura da tentativa sugere que talvez consiga.

O organograma ainda não precificou nada disso — e talvez essa seja a parte mais preocupante. As empresas rodando loops noturnos não estão anunciando. Estão enviando os resultados às 9 da manhã. O gap vai se alargar em silêncio, como toda vantagem estrutural: invisível até que o delta seja grande demais para fechar.

Para a mecânica completa — a cascata de instanciação em cinco domínios, o estudo de manutenção da Alibaba e a fronteira do AutoReason — veja Autopesquisa: O Loop Noturno que Mudou a Função de Produção no MMNTM. Para as implicações no design de avaliação empresarial (como construir uma função de aptidão quando seu domínio não tem uma nativamente), veja O Relógio de Cinco Minutos.