Os Preços de Tokens de IA Estão Caindo. O Gasto Tot…

Piso industrial de cunhagem à noite com máquinas produzindo tokens em escala, painel de preços mostrando custos em queda enquanto contêineres transbordam

US$ 2,1 milhões. Foi o que o Sora gerou em receita total ao longo de toda a sua vida comercial — quinze meses do lançamento geral em dezembro de 2024 até o anúncio de encerramento em 24 de março de 2026. Nesse período, milhões de pessoas usaram o produto para gerar vídeos que custavam US$ 1,30 cada um em compute. Nos melhores dias, a conta de infraestrutura chegava a US$ 15 milhões. Uma parceria com a Disney avaliada em US$ 1 bilhão — que teria mudado toda a matemática — morreu sem que um centavo trocasse de mãos.

Custo diário de compute da OpenAI para operar o Sora no pico

Receita total do Sora em toda a sua existência

Março 2026

OpenAI encerra produtos baseados no Sora, incluindo app para consumidores, versão para desenvolvedores e funcionalidade de vídeo no ChatGPT

Wall Street Journal

A proporção é 7.143:1 — um único dia de custos operacionais contra tudo o que o produto faturou na vida. Não dá para chamar isso de disputa acirrada.

Só que o Sora não é uma anomalia. É uma prova de conceito — da proposição de que a queda no preço de tokens vai eventualmente gerar produtos de IA lucrativos, e de por que essa proposição falha de um jeito específico que o setor ainda não absorveu completamente.

O Paradoxo

Os preços de inferência para LLMs caíram cerca de 50 vezes ao ano desde 2023, acelerando para 200 vezes desde janeiro de 2024. O modelo mais barato disponível hoje — DeepSeek V3.2-Exp, a US$ 0,07 por milhão de tokens de entrada — roda benchmarks comparáveis aos de modelos que custavam US$ 30 por milhão dezoito meses atrás. O Gartner projeta uma redução adicional de mais de 90% nos custos até 2030. A direção é clara e a trajetória é íngreme.

E mesmo assim: o gasto em infraestrutura de IA das big techs está no caminho dos US$ 700 bilhões em 2026. Amazon, US$ 200 bilhões. Google, US$ 185 bilhões. Meta, US$ 135 bilhões. Microsoft, US$ 120 bilhões. A conta total de compute está subindo, não caindo, mesmo com o custo unitário de inferência desabando.

Tokens baratos não reduzem a demanda — criam demanda. Quando uma tarefa que custava US$ 10 para rodar passa a custar US$ 0,10, ela vira automação. Automatizada, roda dez vezes mais. A fronteira do que vale a pena passar pela IA se expande mais rápido do que o preço por token cai. Em 2023, a inferência representava 33% da demanda total de compute em IA. Em 2026, vai para 60 a 70%. O volume engoliu a redução de preço.

Os fluxos de trabalho agênticos — o que Andrej Karpathy descreve como programar num nível superior, onde "a unidade básica de interesse não é um arquivo, mas um agente" — são intensivos em tokens por design. Um agente rodando um loop de pesquisa consome de dez a cem vezes mais tokens do que uma troca de chat. Um clipe de dez segundos no Sora custava US$ 1,30 para produzir. Com essa economia unitária, acesso ilimitado ao consumidor não é modelo de negócio. É consumo de runway.

Quem Paga

5,5% dos 900 milhões de usuários semanais do ChatGPT pagam pelo serviço. Os outros 94,5% também geram custos de compute — cada consulta de chat, cada completação de código, cada solicitação de imagem. Quando o custo por consulta é uma fração de centavo, o nível gratuito é administrável. Quando custa US$ 1,30 por geração, a matemática quebra. Os downloads do Sora caíram 65% — de 3,33 milhões em novembro de 2025 para 1,13 milhão em fevereiro de 2026. O mercado comunicando à OpenAI algo sobre o abismo entre o que os usuários queriam pagar e o que custava atendê-los.

A OpenAI projeta perder US$ 14 bilhões sobre US$ 20 bilhões em receita em 2026, com o ponto de equilíbrio empurrado para 2030. Essa projeção assume que a curva de custos continua caindo e que a curva de demanda permanece limitada. O Sora é a evidência do que acontece quando um produto viola a segunda premissa.

Empresa	Receita 2026	Resultado Líquido 2026	Participação Empresarial	Crescimento
OpenAI	US$ 20B	−US$ 14B	27% (era 50%)	~2x
Anthropic	US$ 19B ARR	aproximando do equilíbrio	40%	10x
Sora	US$ 2,1M (total histórico)	~−US$ 5,4B anualizado	—	−65% MAU

Olhe para a coluna de Participação Empresarial. A OpenAI tinha 50% do gasto empresarial em LLMs no início de 2025. No início de 2026, tinha 27%. A Anthropic agora tem 40% e vence aproximadamente 70% dos novos contratos empresariais, segundo dados de fornecedores da Ramp. A reversão aconteceu em doze meses.

Março 2026

Fontes: Anthropic ultrapassa US$ 19B em run-rate de receita, vindo de US$ 9B no final de 2025, enquanto embate com o Pentágono gera incertezas

Bloomberg

A Aposta Empresarial

Nenhuma das duas perdeu por ter pior modelo. Os benchmarks são comparáveis. O que mudou foi a estrutura da demanda.

Software empresarial tem consumo de tokens delimitado. Um departamento de TI que implementa o Claude para casos de uso internos define orçamentos, estabelece fluxos de trabalho e controla o que entra no modelo. O gasto mensal com API é previsível. Produtos para consumidores não têm isso. Uma assinatura fixa — US$ 20 por mês, consultas ilimitadas — elimina o incentivo do usuário para se autolimitar. Usuários intensivos geram os custos mais altos e pagam o mesmo que os ocasionais. Quando esses usuários intensivos estão gerando clipes de Sora a US$ 1,30 cada, a economia da assinatura fixa entra em colapso.

O crescimento de dez vezes ao ano da Anthropic — de aproximadamente US$ 1 bilhão em ARR quinze meses atrás para US$ 19 bilhões hoje — é uma aposta na empresa, não no consumidor. Contratos empresariais precificam pelo consumo, não pelo acesso. A receita acompanha o custo. Perfil de risco completamente diferente do que a OpenAI está rodando com o ChatGPT.

Os compradores fazem o mesmo cálculo do outro lado. Em fevereiro de 2026, Jack Dorsey anunciou uma redução de 10.000 funcionários para menos de 6.000. A mensagem à empresa foi direta sobre a causa:

"As ferramentas de inteligência que estamos criando e usando, combinadas com equipes menores e mais horizontais, estão possibilitando uma nova forma de trabalhar." O Block não está cortando porque não consegue pagar pela IA. Está cortando porque a IA permitiu reduzir o custo humano de fluxos de trabalho específicos — com o gasto em IA delimitado a esses fluxos e faturado de acordo. Para a empresa, IA é redução de custo. Para o consumidor, é entretenimento. São economias diferentes.

O Piso da Demanda

Do outro lado desse cálculo está o founder solo chegando à mesma economia por baixo:

A estrutura é idêntica à do Sora: o custo de rodar a IA é real e imediato; a receita é teórica e futura.

A diferença é que @kloss_xyz está escolhendo esse acordo. Os usuários do Sora não pagavam o custo de compute em momento algum — tinham uma assinatura fixa, e a lacuna entre o que pagavam e o que consumiam era problema da OpenAI.

Desenvolvedores que constroem nessa velocidade não vão parar. O cálculo do @levelsio — que um MVP agora leva 24 minutos, "teoricamente você consegue construir 40 ideias por dia" — reflete uma mudança real no throughput de desenvolvimento. Os desenvolvedores que constroem nessa velocidade não estão usando inferência de chatbot. Estão rodando agentes, loops e gerações. São eles a onda de demanda para a qual a aposta de US$ 700 bilhões em infraestrutura foi desenhada. A questão é se o preço que pagam pelo acesso cobre o que custa atendê-los — ou se esse custo é absorvido em algum outro ponto da cadeia.

No Sora, foi absorvido no P&L. O produto não encontrou um modelo onde o pagamento do usuário cobrisse o custo de geração. A precificação por assento a preços de consumidor era a unidade errada para um produto cujo custo escala com o output, não com o acesso. Mas a questão real é quem absorve o gap na próxima versão. No Sora, foi o P&L da OpenAI. Ainda não está claro o que vai ser amanhã.

US$ 2,1M

A US$ 1,30 por clipe de 10 segundos, os US$ 2,1 milhões em receita total do Sora representam cerca de 1,6 milhão de clipes em quinze meses — num produto usado por milhões de pessoas. O usuário pagante médio mal gerou clipe algum, porque a maioria dos usuários não era pagante. O produto distribuía gratuitamente, no nível de assinatura, o que custava US$ 1,30 por unidade para produzir.

Novembro 2025

Documentos internos: Anthropic espera atingir o equilíbrio em 2028 enquanto a OpenAI projeta US$ 74B em perdas operacionais naquele ano antes de lucrar em 2030

Wall Street Journal

Todo produto de IA tem um piso: o que custa gerar uma resposta menos o que o usuário paga. Com assinatura fixa que não escala com o consumo, esse piso é o custo de geração inteiro. No nível de chatbot, é suportável. No nível de vídeo, não é.

Os US$ 700 bilhões em investimento em infraestrutura de IA são uma aposta de que a maioria dos casos de uso não vai se parecer com o Sora — de que a inferência vai ficar barata o suficiente, e os modelos de receita alinhados o suficiente com o consumo, para que as curvas de custo e receita se cruzem eventualmente. Para a OpenAI, esse cruzamento está previsto para 2030. Para a Anthropic, vem antes: contratos empresariais precificam pelo consumo de tokens, não pelo acesso, então as curvas já se acompanham. Para o Sora, as curvas nunca se cruzaram.

US$ 2,1 milhões contra US$ 15 milhões por dia. A demo era impecável. A matemática, não.

Mais sobre OpenAI, Anthropic e economia da IA. Explore a cobertura de entidades pela API Pulse.