Die KI-Inferenz-Kostenfalle: Wie DeepSeek die Hyperscaler zwingt, ihre Margen aufzugeben
Der Millionen-Dollar-Wechsel
Anfang 2026 gab ein KI-Agenten-Startup namens Lindy öffentlich bekannt, dass es für Inferenz von Anthropics Claude zu DeepSeek gewechselt war und nun Millionen von Dollar einsparte. Das war kein Research-Paper. Das war kein Benchmark. Das war eine Produktions-Deployment-Entscheidung eines Unternehmens, dessen Unit Economics von Inferenzkosten abhängen — und es folgte eine Welle ähnlicher Ankündigungen von Unternehmen, die mit DeepSeek experimentierten, oft gehostet über Drittanbieter-Plattformen wie Together AI, Atlas Cloud oder Lightning AI Hub, die DeepSeek-Modelle mit 99,9%-Uptime-SLAs und Enterprise-Support umhüllen.
Die Preislücke ist strukturell, nicht marginal. DeepSeek-V3 kostet etwa $0,14 pro Million Input-Tokens und $0,28 pro Million Output-Tokens, verglichen mit $2,50/$10,00 für GPT-4o und $3,00/$15,00 für Claude Sonnet 4.6. Das ist ein 18–21× Kostenvorteil beim Input und ein 36–54× Vorteil beim Output, noch vor Mengenrabatten. Für ein Unternehmen, das 10 Millionen Tokens pro Tag verarbeitet — eine bescheidene Produktions-Workload — sinkt die jährliche Inferenzrechnung von etwa $36 Millionen bei GPT-4o auf unter $2 Millionen bei DeepSeek-V3. Das sind keine Rundungsfehler. Das sind budgetdefinierende Unterschiede.
Anthropic reagierte sofort und defensiv: Es verdoppelte die Claude-Cowork-Limits ohne Aufpreis und startete Fable 5 (Mythos-Klasse) mit einem zeitlich begrenzten Verfügbarkeitsfenster, beides Maßnahmen, um Entwickler zu halten, bevor sie zu günstigeren Alternativen abwandern. Microsoft kündigte an, dass seine Agent-Runtime nun kostenlos ist, und positioniert explizit Azure Foundry, Visual Studio und GitHub als Lock-in-Ebenen, während es einräumt, dass die Runtime selbst — die Inferenzebene — keine verteidigbare Margenquelle mehr ist. Das sind nicht die Aktionen von Unternehmen, die von ihrer Preissetzungsmacht überzeugt sind.
Warum Hyperscaler-KI-Margen kurz vor dem Kollaps stehen
Der KI-Infrastrukturmarkt 2024–2025 steht an der Schnittstelle explosiver Nachfrage nach Inferenz-Compute, eines reifenden Cloud-Oligopols, das seiner ersten glaubwürdigen Margenbedrohung seit einem Jahrzehnt gegenübersteht, und eines Kostenumfelds, das Unternehmen zwingt, KI-Ausgaben als Budgetposten statt als Innovationsbudget zu behandeln. Die Hyperscaler — Microsoft Azure, AWS und Google Cloud — haben die letzten drei Jahre damit verbracht, GPU-Cluster und Custom-Accelerators aufzubauen, um das zu erfassen, was sie für einen anhaltenden, margenstarken KI-Infrastruktur-Boom hielten.
Microsoft gab im FY25 explizit bekannt, dass die Skalierung der KI-Infrastruktur die Bruttomarge der Microsoft Cloud auf 69% drückte, ein seltenes Eingeständnis von Kostendruck in einem Segment, das historisch 70%+ Bruttomargen erwirtschaftete. AWS führt das größte Capex-Programm seiner Geschichte durch, um KI-Kapazität aufzubauen, und die Margenexpansion von Google Cloud von 9,4% auf 32,9% in einem einzigen Jahr spiegelt aggressive Skalierung wider, nicht nachhaltige Unit Economics. Die Basisannahme, die in Hyperscaler-Bewertungen eingebacken ist, lautet, dass KI-Inferenz dem Playbook der Cloud-Preiskriege 2010–2015 folgen wird: sichtbare Preissenkungen, aber Margen verteidigt durch Skalierung, Effizienz und Ökosystem-Lock-in.
Dieses Playbook funktionierte, weil AWS, Azure und GCP gegeneinander und gegen On-Prem-Legacy-Infrastruktur konkurrierten, nicht gegen ein fundamental günstigeres architektonisches Paradigma. DeepSeeks Mixture-of-Experts-Modelle, die nur 37B von 671B Parametern pro Token aktivieren, stellen eine Sprungverbesserung der Kosteneffizienz dar, die die Hyperscaler nicht einfach replizieren können, ohne ihre bestehenden GPU-Flotten zu kannibalisieren. Der AWS-Preiskrieg 2010–2015 ist aufschlussreich: AWS senkte die S3-Speicherpreise von 2010 bis 2016 um mehr als 80%, dennoch expandierten die Bruttomargen von den hohen 40ern zu niedrigen 60ern, weil die Kostenkurve schneller fiel als die Preise. Der Unterschied heute ist, dass DeepSeek und Open-Weight-Modelle nicht nur günstiger sind — sie sind architektonisch anders, und sie werden von Unternehmen übernommen, die bereits die MLOps- und Governance-Infrastruktur aufgebaut haben, um sie zu betreiben.
Der KI-Governance- und Observability-Markt, derzeit etwa $1,5–3 Milliarden global, wächst mit 25–40% jährlich, gerade weil Unternehmen von der Pilotphase „Lass uns GPT-4 ausprobieren
Sources
- 1.The New Stack — Microsoft just made the agent runtime free — and kept everything around it
- 2.The New Stack — AI teams now deploy 1,000 times a month. Your pipeline wasn’t built for that.
- 3.The New Stack — With Foundry, Microsoft bets the enterprise AI battle is about reliability, not capability
- 4.The New Stack — Why Anthropic just doubled Claude Cowork limits at no charge
- 5.The New Stack — Microsoft’s pitch to enterprises: Ditch Azure Repos for GitHub, despite its rocky reliability record
- 6.The New Stack — This AI agent startup ditched Anthropic for DeepSeek’s — and says it’s saving millions
- 7.The New Stack — Anthropic launches Claude Mythos/Fable 5, but you better try it soon