Los Precios de Tokens de IA Bajan. El Gasto Total e…

Planta de acuñación industrial de noche con máquinas produciendo tokens a escala, un tablero de precios mostrando costos en caída libre mientras los contenedores se desbordan

2,1 millones de dólares. Eso es lo que generó Sora en ingresos totales a lo largo de toda su vida comercial — quince meses desde su lanzamiento general en diciembre de 2024 hasta el anuncio de cierre el 24 de marzo de 2026. En esos quince meses, millones de personas lo usaron para generar videos que costaban 1,30 dólares cada uno en cómputo. En sus mejores días, la factura llegaba a 15 millones. Una asociación con Disney valuada en mil millones de dólares, que habría cambiado la matemática por completo, murió sin que cambiara de manos un solo centavo.

Costo diario de cómputo de OpenAI para operar Sora en su pico

Ingresos totales en toda la vida de Sora

Marzo 2026

OpenAI discontinúa sus productos basados en Sora, incluyendo la app para consumidores, una versión para desarrolladores y la función de video dentro de ChatGPT

Wall Street Journal

La proporción — 7.143:1 — es la de un solo día de costos operativos contra todo lo que el producto llegaría a facturar en su historia: no hay ambigüedad posible.

Pero Sora no es una anomalía. Es una prueba de concepto — por un lado, de la proposición de que la caída en los precios por token terminará produciendo productos de IA rentables; por otro, de exactamente por qué esa proposición falla de un modo que el sector todavía no ha procesado del todo.

La Paradoja

Los precios de inferencia para LLM han caído aproximadamente 50 veces al año desde 2023, con una aceleración a 200 veces desde enero de 2024. El modelo más económico disponible hoy — DeepSeek V3.2-Exp, a 0,07 dólares por millón de tokens de entrada — ofrece resultados comparables a modelos que costaban 30 dólares por millón hace dieciocho meses; Gartner proyecta reducciones adicionales superiores al 90% para 2030, lo que convierte la trayectoria no solo en pronunciada, sino en estructuralmente irreversible.

Y sin embargo: el gasto en infraestructura de IA de las grandes tecnológicas va camino de alcanzar los 700 mil millones de dólares en 2026. Amazon, 200 mil millones. Google, 185 mil millones. Meta, 135 mil millones. Microsoft, 120 mil millones. La factura total de cómputo sube, no baja, incluso mientras el costo unitario de la inferencia se derrumba.

El mecanismo es este: los tokens más baratos no reducen la demanda — la crean. Cuando una tarea que costaba 10 dólares en ejecutar pasa a costar 10 centavos, se automatiza — y una vez automatizada, corre diez veces más seguido. La frontera de lo que vale la pena enrutar a través de la IA se expande más rápido de lo que cae el costo por token. En 2023, la inferencia representaba el 33% de la demanda total de cómputo de IA. Para 2026, representa entre el 60 y el 70%. El volumen devoró la reducción de precios.

Los flujos de trabajo agénticos — lo que Andrej Karpathy describe como programar a un nivel superior, donde "la unidad básica de interés no es un archivo sino un agente" — consumen entre 10 y 100 veces más tokens por tarea que un intercambio de chat simple. La generación de video consume todavía más. Un clip de Sora de 10 segundos costaba 1,30 dólares en producción. Con esa economía unitaria, el acceso ilimitado al consumidor no es un modelo de negocio. Es una sangría del runway.

Quién Paga

El 5,5% de los 900 millones de usuarios semanales de ChatGPT paga por él. El otro 94,5% también genera costos de cómputo — cada consulta de chat, cada completación de código, cada solicitud de imagen. Cuando el costo por consulta es una fracción de centavo, el nivel gratuito es manejable. Cuando cuesta 1,30 dólares por generación, la matemática se rompe. Las descargas de Sora cayeron un 65% — de 3,33 millones en noviembre de 2025 a 1,13 millones en febrero de 2026 —. Es decir: el mercado no abandonó el producto por falta de interés en el video generativo, sino porque la distancia entre lo que los usuarios estaban dispuestos a pagar y lo que costaba servirlos era, desde el primer día, insalvable con una suscripción plana.

La pregunta no era si los usuarios querían video generativo. Era si algún modelo de cobro podía cerrar esa brecha.

OpenAI proyecta perder 14 mil millones de dólares sobre 20 mil millones en ingresos durante 2026, con el punto de equilibrio postergado hasta 2030. Esa proyección supone que la curva de costos sigue bajando y que la curva de demanda permanece acotada. De ahí que Sora sea la evidencia más precisa de qué ocurre cuando un producto viola el segundo supuesto.

Entidad	Ingresos 2026	Resultado Neto 2026	Participación Empresarial	Crecimiento
OpenAI	$20B	−$14B	27% (era 50%)	~2x
Anthropic	$19B ARR	aproximándose al equilibrio	40%	10x
Sora	$2,1M (total histórico)	~−$5,4B anualizado	—	−65% MAU

Observe la columna de Participación Empresarial, porque ahí está la implicación estructural que los demás números encubren. OpenAI tenía el 50% del gasto empresarial en LLM a principios de 2025; para principios de 2026, tenía el 27%. Anthropic tiene ahora el 40% y se lleva aproximadamente el 70% de los contratos empresariales nuevos según los datos de proveedores de Ramp. La reversión ocurrió en doce meses — no porque los modelos de Anthropic sean mejores, sino porque su estructura de cobro es diferente.

Marzo 2026

Fuentes: Anthropic superó recientemente los 19.000 millones en run-rate de ingresos, frente a los 9.000 millones a finales de 2025

Bloomberg

La Cobertura Empresarial

Ahora bien, la reversión no se explica principalmente por la calidad de los modelos — ambas empresas obtienen resultados comparables en los benchmarks. Se explica por la estructura de la demanda de tokens.

El software empresarial tiene un consumo de tokens acotado: un departamento de TI que despliega Claude para casos de uso internos establece presupuestos, define flujos de trabajo y controla qué se enruta a través del modelo, de modo que el gasto mensual de API es predecible y los ingresos escalan con el costo. Los productos para consumidores no tienen esto. Una suscripción plana — 20 dólares al mes, consultas ilimitadas — elimina el incentivo del usuario para autocontrolarse; los usuarios intensivos generan los costos más altos y pagan lo mismo que los ocasionales. Cuando esos usuarios intensivos son los que generan clips de Sora a 1,30 dólares cada uno, la economía de la suscripción plana no se tensiona: colapsa.

De ahí que lo que el mercado llama ventaja competitiva de Anthropic sea, en realidad, una diferencia en la unidad de cobro. El crecimiento anual de 10 veces — de aproximadamente mil millones de dólares en ARR hace quince meses a 19 mil millones hoy — refleja una apuesta por el lado acotado de la economía del token: contratos que se cobran por consumo, no por acceso, con un perfil de riesgo que no tiene nada que ver con el que OpenAI asume con ChatGPT para el consumidor masivo.

Los compradores hacen el mismo cálculo desde el otro lado. Jack Dorsey anunció en febrero de 2026 una reducción de 10.000 empleados a menos de 6.000, y su comunicado interno fue directo sobre la causa:

"Las herramientas de inteligencia que estamos creando y usando, combinadas con equipos más pequeños y planos, están habilitando una nueva forma de trabajar." Block no recorta porque no puede costear la IA. Recorta porque la IA le permitió reducir el costo humano de flujos de trabajo específicos — con el gasto en IA acotado a esos flujos y facturado en consecuencia. La relación de las empresas con la IA es una historia de control de costos. La relación del consumidor, no.

El Piso de la Demanda

El fundador en solitario llega a la misma economía desde el extremo opuesto:

La estructura es idéntica a la de Sora — el costo de ejecutar la IA es real e inmediato, el ingreso es teórico y diferido — salvo que @kloss_xyz está eligiendo ese intercambio de manera consciente. Los usuarios de Sora no pagaban el costo de cómputo en absoluto — tenían una suscripción plana, y la brecha entre lo que pagaban y lo que consumían era problema de OpenAI.

La demanda de trabajo potenciado por IA es estructural, no cíclica. El cálculo de @levelsio — que un MVP ahora lleva 24 minutos, "teóricamente puedes construir 40 ideas por día", escribió — refleja un cambio real en el rendimiento del desarrollo. Ese nivel de productividad consume muchos tokens. Los desarrolladores que construyen a esa velocidad no están usando inferencia al nivel de chatbot: están ejecutando agentes, bucles y generaciones. Ellos son el impulso de la demanda para el que está diseñada la apuesta de infraestructura de 700 mil millones de dólares. La pregunta es si el precio que pagan por el acceso cubre lo que cuesta servirlos, o si ese costo se absorbe en algún otro punto de la cadena.

En Sora, se absorbió en el P&L. El producto no encontró un modelo donde el pago del usuario cubriera el costo de generación. La tarificación por asiento a precios de consumidor era la unidad equivocada para un producto donde el costo escala con la producción, no con el acceso.

$2,1M

A 1,30 dólares por clip de 10 segundos, los 2,1 millones de dólares en ingresos totales de Sora representan aproximadamente 1,6 millones de clips a lo largo de quince meses — en un producto usado por millones de personas. El usuario de pago promedio apenas generó ningún clip, porque la gran mayoría de los usuarios no eran usuarios de pago. El producto regalaba en el nivel de suscripción lo que costaba 1,30 dólares por unidad producir.

Noviembre 2025

Documentos internos: Anthropic espera alcanzar el equilibrio en 2028 mientras OpenAI proyecta ~74.000 millones en pérdidas operativas ese año antes de ser rentable en 2030

Wall Street Journal

La economía del token tiene un precio mínimo: el costo de generar una respuesta menos lo que el usuario paga por ella. Cuando el usuario paga una tarifa plana que no escala con el consumo, ese mínimo es el costo completo de generación. A nivel de inferencia de chatbot, ese piso es soportable. A nivel de inferencia de video, no lo es.

Los 700 mil millones de dólares en gasto de infraestructura de IA son una apuesta a que la mayoría de los casos de uso no se parecerán a Sora — a que la inferencia será lo suficientemente barata, y los modelos de ingresos lo suficientemente alineados con el consumo, para que las curvas de costo e ingresos se crucen eventualmente. Para OpenAI, ese cruce está programado para 2030. Para Anthropic, llega antes: los contratos empresariales fijan el precio por consumo de tokens, no por acceso, de modo que las curvas ya se siguen mutuamente. Para Sora, las curvas nunca se cruzaron.

2,1 millones contra 15 millones al día. La demostración, impecable. La aritmética, nunca.

Más sobre OpenAI, Anthropic y economía de la IA. Explora la cobertura de entidades a través de la API Pulse.