El 7 de marzo, Andrej Karpathy se fue a dormir. Cuando se despertó, un agente de IA había realizado 700 cambios en su código de entrenamiento, encontrado 20 mejoras que él había pasado por alto tras semanas de ajuste manual, y confirmado cada una en una rama de git. Publicó la configuración como código abierto — un script de 630 líneas, un archivo de instrucciones, un reloj de cinco minutos — y en diez días, constructores independientes habían apuntado el mismo bucle a mercados financieros, motores de ajedrez, pipelines de renderizado y razonamiento argumentativo. Nadie coordinó nada. Las condiciones estructurales simplemente coincidieron.
El Bucle
La configuración de Karpathy es deliberadamente mínima. Una sola GPU. Un script de entrenamiento de 630 líneas. Un archivo de instrucciones que describe la dirección de investigación. El agente modifica el código, entrena un pequeño modelo de lenguaje durante exactamente cinco minutos, comprueba la pérdida de validación, confirma el resultado en una rama de git y vuelve a empezar. Cada punto en su visualización es una ejecución de entrenamiento completa. La restricción — cinco minutos, sin excepciones — es lo que hace que funcione. Sin un reloj fijo, el agente desperdiciaría horas en callejones sin salida. Con él, cada experimento es lo suficientemente barato como para ser desechable.
Karpathy dejó el bucle corriendo durante dos días en un modelo de profundidad 12. Setecientos cambios autónomos. El agente no probó mutaciones aleatorias — examinó la secuencia de resultados anteriores y planeó los experimentos siguientes en función de lo que había funcionado. Descubrió que la atención era demasiado difusa (faltaba un multiplicador escalar), que la regularización era incompleta, que la atención en banda era demasiado conservadora y que los parámetros beta del optimizador estaban mal configurados. Veinte de esos cambios se transfirieron a modelos más grandes y mejoraron el desempeño en el benchmark en un 11%. Todo encima de ajustes que él ya había realizado manualmente durante semanas.
La línea clave es la que Karpathy casi deja pasar: "cualquier métrica que te importe y que sea razonablemente eficiente de evaluar puede ser autoinvestigada por un enjambre de agentes." Es decir: si tienes un número y una función de evaluación rápida, tienes un bucle; si no, no tienes nada. Todo lo que vino después fue una exploración sistemática de esa frontera.
La Cascada de Instanciaciones
Lo que Lior Alexander llamó "el genio silencioso" de la autoinvestigación es el reloj fijo de cinco minutos: la restricción que hace legible el bucle, porque cada experimento cuesta lo mismo, los resultados son directamente comparables y el agente nunca puede perderse en un agujero de varias horas. De ahí que el patrón sea portable. No necesitas la configuración específica de Karpathy. Necesitas una métrica, un reloj y un bucle.
Chris Worsey fue el primero en demostrar la portabilidad a escala. Tomó el bucle de autoinvestigación y lo apuntó a los mercados financieros — veinticinco agentes debatiendo macro, tipos de interés, materias primas, sectores y acciones individuales, cada recomendación puntuada frente a resultados reales. El agente con peor ratio de Sharpe acumulado tiene su instrucción reescrita por el sistema: conservar o revertir. El mismo bucle, la misma lógica — las instrucciones son los pesos, el Sharpe es la función de pérdida.
Pero la intuición estructural no es el retorno. Es la sustitución. En la versión de Karpathy, el agente edita código Python y la función de pérdida evalúa el resultado. En la versión de Worsey, el agente edita instrucciones en inglés y el mercado evalúa el resultado. El bucle es idéntico. Solo cambió el sustrato.
Los dominios siguieron multiplicándose. Tobi Lütke, CEO de Shopify, ejecutó la autoinvestigación en el motor de renderizado Liquid de su empresa y obtuvo un tiempo de análisis y renderizado un 53% más rápido y un 61% menos de asignaciones de objetos — y luego publicó el plugin como código abierto. Deedy Das lo apuntó a un motor de ajedrez programado de forma intuitiva en Rust y lo llevó del nivel "experto" a un gran maestro entre los mejores 50 — el motor número 311 del ranking — a través de 70 experimentos autónomos. Kaspars Dancis lo usó para optimizar un motor de renderizado en canvas y obtuvo una mejora de 10 veces en la prueba más lenta en cuestión de horas.
El equipo de Varun Mathur hizo el patrón completamente genérico. Su sistema permite que cualquier persona proponga un problema de optimización en inglés llano, y un enjambre distribuido se activa para resolverlo. Doscientos treinta y siete agentes, 14.832 experimentos en cinco dominios, cero intervención humana. La abstracción se había separado por completo de la implementación específica de Karpathy. El patrón se replicaba a sí mismo — no a través de la coordinación, sino por inevitabilidad estructural: si tienes las piezas (agentes baratos, evaluación rápida, una puntuación), el bucle se ensambla solo.
La Fuerza Estructural
Lo que hace posible todo esto no es una sola caída de costos, sino tres convergencias simultáneas: los costos de inferencia han bajado lo suficiente como para que ejecutar cientos de llamadas de agentes por hora sea viable para individuos, no solo para empresas; la infraestructura de evaluación — funciones de pérdida, benchmarks, APIs de puntuación — ha madurado hasta el punto en que "comprobar si esto funcionó" puede automatizarse; y git proporciona un registro gratuito y universal. El agente confirma cada intento. El humano revisa un registro, no un proceso.
Juntas, estas tres convergencias cruzan un umbral que reestructura la unidad básica de la investigación. Por debajo de él, ejecutar experimentos de noche requería un equipo — alguien que los diseñara, alguien que los supervisara, alguien que interpretara los resultados. Por encima, una sola persona escribe una instrucción y se va a dormir, y la laptop hace el trabajo del laboratorio.
El turno nocturno no se trata de velocidad. Se trata de lo que se acumula mientras el organigrama duerme.
Heinrich (@arscontexta) lo articuló de la forma más vívida. Propuso que los agentes deberían "soñar" — literalmente procesar sus sesiones durante el tiempo inactivo, mantener y evolucionar sus notas, sintetizar y explorar, incluso alucinar. La metáfora biológica es imprecisa, pero la intuición estructural es correcta: el tiempo inactivo es capacidad desperdiciada, y la capacidad desperdiciada es un costo que se acumula en tu contra cuando los agentes de tu competidor no duermen.
Donde el Bucle se Rompe
Todo lo descrito arriba funciona porque hay un número. Pérdida de validación. Ratio de Sharpe. Puntuación de calidad de renderizado. Tasa de fotogramas. El bucle se acumula porque la función de aptitud es inequívoca — más bajo es mejor, más alto es mejor, y el agente no necesita entender por qué.
La mayor parte del trabajo real no tiene puntuación.
La escritura no tiene una función de pérdida. La estrategia no tiene un ratio de Sharpe. El diseño no tiene una métrica de validación que un agente pueda explotar sin manipularla. El turno nocturno es poderoso precisamente donde el trabajo es reducible a un número, y silencioso donde no lo es. Karpathy nombró él mismo esta frontera — "razonablemente eficiente de evaluar" — y es más difícil de cruzar de lo que la cascada de instanciaciones sugiere.
Alibaba probó esta frontera empíricamente. Ejecutaron 18 agentes de codificación de IA en 100 bases de código reales que abarcaban 233 días cada una. Los agentes podían superar las pruebas — el equivalente a una puntuación de validación — en el primer intento. Pero mantener el código durante ocho meses, donde la métrica es "¿sigue funcionando todo después de este cambio y los cincuenta siguientes?", resultó catastrófico. El 75% de los modelos rompió código que funcionaba previamente durante el mantenimiento. La función de pérdida para una sola confirmación es manejable. La función de pérdida para una base de código a lo largo del tiempo no lo es.
Esta no es una limitación temporal que aguarda mejores modelos. Es una propiedad estructural de los dominios. En el entrenamiento de ML, la pérdida de validación es una estadística suficiente — captura todo lo que necesitas saber sobre si el cambio fue bueno. En el mantenimiento de código, ninguna métrica única captura "este cambio es bueno para el sistema durante los próximos seis meses." En la estrategia, ninguna métrica captura "esta es la dirección correcta." El bucle necesita una puntuación. Hay trabajos que resisten la puntuación.
El Primer Intento de Acumulación Subjetiva
Por eso el proyecto AutoReason de @SHL0MS es el desarrollo más interesante de esta cascada — no porque funcione, sino porque identifica el problema correcto. AutoReason extiende el bucle de autoinvestigación a dominios subjetivos construyendo una función de aptitud sintética a través del debate adversarial.
El mecanismo: generar la versión A. Un agente nuevo la ataca como un argumento de paja. Un autor separado produce la versión B incorporando la crítica. Un tercer agente sintetiza A y B. Un panel de jueces ciegos elige la más sólida. La ganadora se convierte en la nueva A. El bucle se repite hasta que los jueces eligen consistentemente al titular — convergencia a través de la argumentación en lugar de la optimización.
En lugar de "menor pérdida es mejor", la función de aptitud se convierte en "sobrevive el escrutinio adversarial de evaluadores independientes." El número no existe en el dominio, así que AutoReason fabrica un proxy simulando el proceso que los humanos usan para evaluar el trabajo subjetivo: argumento, contraargumento, síntesis, juicio.
Pero la pregunta estructural persiste: ¿el proxy captura lo que importa? En la autoinvestigación, la pérdida de validación se correlaciona con la calidad del modelo porque eso es lo que mide la pérdida de validación. En AutoReason, "sobrevive el juicio ciego" se correlaciona con... ¿qué? ¿Persuasión? ¿Consistencia lógica? ¿Pulido retórico? La brecha entre "los jueces lo eligieron" y "es realmente bueno" es la brecha entre una función de aptitud real y una sintética. Todas las métricas proxy de la historia han terminado siendo manipuladas en algún momento — lo que los economistas llaman la Ley de Goodhart. La pregunta es si el debate adversarial es suficientemente robusto para resistirlo, o si los bucles de AutoReason convergerán en resultados que son máximamente favorables para los jueces en lugar de máximamente buenos.
El Por lo Tanto
Setecientos experimentos mientras duermes no es una mejora incremental — es una función de producción diferente, que reestructura cada dominio donde la puntuación es honesta: donde la pérdida de validación, el ratio de Sharpe o la calidad de renderizado pueden sustituir a "mejor" sin ser manipulados. Ese territorio es más amplio de lo que la mayoría imagina.
La frontera es todo lo demás. El trabajo subjetivo no carece de evaluación — carece de evaluación que permanezca honesta bajo presión de optimización. AutoReason es el primer intento serio de fabricar esa honestidad a través del debate adversarial. Que funcione depende de si "sobrevive el juicio ciego" puede resistir las mismas dinámicas de Goodhart que corrompen cualquier otra métrica proxy. Ahora bien, la historia sugiere que no puede. La estructura del intento sugiere que quizás sí. Y esa tensión irresuelta es exactamente donde vive el problema real.
El organigrama todavía no ha descontado nada de esto. Las empresas que ejecutan bucles nocturnos no lo anuncian — envían los resultados a las 9am. La brecha se ampliará silenciosamente, como siempre lo hacen las ventajas estructurales: invisible hasta que el delta es demasiado grande para cerrarse.
Para la mecánica completa — la cascada de instanciaciones en cinco dominios, el estudio de mantenimiento de Alibaba y la frontera de AutoReason — ver Autoresearch: El Bucle Nocturno que Cambió la Función de Producción en MMNTM. Para las implicaciones del diseño de evaluación empresarial (cómo construir una función de aptitud cuando tu dominio no tiene una de forma nativa), ver El Reloj de Cinco Minutos.