anticipated catalyst · technology

Die KI-Inferenz-Kostenfalle: Wie DeepSeek die Hyperscaler zwingt, ihre Margen aufzugeben

published 6/11/2026

Der Millionen-Dollar-Wechsel

Anfang 2026 gab ein KI-Agenten-Startup namens Lindy öffentlich bekannt, dass es für Inferenz von Anthropics Claude zu DeepSeek gewechselt war und nun Millionen von Dollar einsparte. Das war kein Research-Paper. Das war kein Benchmark. Das war eine Produktions-Deployment-Entscheidung eines Unternehmens, dessen Unit Economics von Inferenzkosten abhängen — und es folgte eine Welle ähnlicher Ankündigungen von Unternehmen, die mit DeepSeek experimentierten, oft gehostet über Drittanbieter-Plattformen wie Together AI, Atlas Cloud oder Lightning AI Hub, die DeepSeek-Modelle mit 99,9%-Uptime-SLAs und Enterprise-Support umhüllen.

Die Preislücke ist strukturell, nicht marginal. DeepSeek-V3 kostet etwa $0,14 pro Million Input-Tokens und $0,28 pro Million Output-Tokens, verglichen mit $2,50/$10,00 für GPT-4o und $3,00/$15,00 für Claude Sonnet 4.6. Das ist ein 18–21× Kostenvorteil beim Input und ein 36–54× Vorteil beim Output, noch vor Mengenrabatten. Für ein Unternehmen, das 10 Millionen Tokens pro Tag verarbeitet — eine bescheidene Produktions-Workload — sinkt die jährliche Inferenzrechnung von etwa $36 Millionen bei GPT-4o auf unter $2 Millionen bei DeepSeek-V3. Das sind keine Rundungsfehler. Das sind budgetdefinierende Unterschiede.

Anthropic reagierte sofort und defensiv: Es verdoppelte die Claude-Cowork-Limits ohne Aufpreis und startete Fable 5 (Mythos-Klasse) mit einem zeitlich begrenzten Verfügbarkeitsfenster, beides Maßnahmen, um Entwickler zu halten, bevor sie zu günstigeren Alternativen abwandern. Microsoft kündigte an, dass seine Agent-Runtime nun kostenlos ist, und positioniert explizit Azure Foundry, Visual Studio und GitHub als Lock-in-Ebenen, während es einräumt, dass die Runtime selbst — die Inferenzebene — keine verteidigbare Margenquelle mehr ist. Das sind nicht die Aktionen von Unternehmen, die von ihrer Preissetzungsmacht überzeugt sind.

Warum Hyperscaler-KI-Margen kurz vor dem Kollaps stehen

Der KI-Infrastrukturmarkt 2024–2025 steht an der Schnittstelle explosiver Nachfrage nach Inferenz-Compute, eines reifenden Cloud-Oligopols, das seiner ersten glaubwürdigen Margenbedrohung seit einem Jahrzehnt gegenübersteht, und eines Kostenumfelds, das Unternehmen zwingt, KI-Ausgaben als Budgetposten statt als Innovationsbudget zu behandeln. Die Hyperscaler — Microsoft Azure, AWS und Google Cloud — haben die letzten drei Jahre damit verbracht, GPU-Cluster und Custom-Accelerators aufzubauen, um das zu erfassen, was sie für einen anhaltenden, margenstarken KI-Infrastruktur-Boom hielten.

Microsoft gab im FY25 explizit bekannt, dass die Skalierung der KI-Infrastruktur die Bruttomarge der Microsoft Cloud auf 69% drückte, ein seltenes Eingeständnis von Kostendruck in einem Segment, das historisch 70%+ Bruttomargen erwirtschaftete. AWS führt das größte Capex-Programm seiner Geschichte durch, um KI-Kapazität aufzubauen, und die Margenexpansion von Google Cloud von 9,4% auf 32,9% in einem einzigen Jahr spiegelt aggressive Skalierung wider, nicht nachhaltige Unit Economics. Die Basisannahme, die in Hyperscaler-Bewertungen eingebacken ist, lautet, dass KI-Inferenz dem Playbook der Cloud-Preiskriege 2010–2015 folgen wird: sichtbare Preissenkungen, aber Margen verteidigt durch Skalierung, Effizienz und Ökosystem-Lock-in.

Dieses Playbook funktionierte, weil AWS, Azure und GCP gegeneinander und gegen On-Prem-Legacy-Infrastruktur konkurrierten, nicht gegen ein fundamental günstigeres architektonisches Paradigma. DeepSeeks Mixture-of-Experts-Modelle, die nur 37B von 671B Parametern pro Token aktivieren, stellen eine Sprungverbesserung der Kosteneffizienz dar, die die Hyperscaler nicht einfach replizieren können, ohne ihre bestehenden GPU-Flotten zu kannibalisieren. Der AWS-Preiskrieg 2010–2015 ist aufschlussreich: AWS senkte die S3-Speicherpreise von 2010 bis 2016 um mehr als 80%, dennoch expandierten die Bruttomargen von den hohen 40ern zu niedrigen 60ern, weil die Kostenkurve schneller fiel als die Preise. Der Unterschied heute ist, dass DeepSeek und Open-Weight-Modelle nicht nur günstiger sind — sie sind architektonisch anders, und sie werden von Unternehmen übernommen, die bereits die MLOps- und Governance-Infrastruktur aufgebaut haben, um sie zu betreiben.

Der KI-Governance- und Observability-Markt, derzeit etwa $1,5–3 Milliarden global, wächst mit 25–40% jährlich, gerade weil Unternehmen von der Pilotphase „Lass uns GPT-4 ausprobieren

Sources

  1. 1.The New StackMicrosoft just made the agent runtime free — and kept everything around it
  2. 2.The New StackAI teams now deploy 1,000 times a month. Your pipeline wasn’t built for that.
  3. 3.The New StackWith Foundry, Microsoft bets the enterprise AI battle is about reliability, not capability
  4. 4.The New StackWhy Anthropic just doubled Claude Cowork limits at no charge
  5. 5.The New StackMicrosoft’s pitch to enterprises: Ditch Azure Repos for GitHub, despite its rocky reliability record
  6. 6.The New StackThis AI agent startup ditched Anthropic for DeepSeek’s — and says it’s saving millions
  7. 7.The New StackAnthropic launches Claude Mythos/Fable 5, but you better try it soon