Сжатие маржи на AI-инференсе: как DeepSeek заставляет гипермасштабируемые платформы сдавать позиции
Переключение на миллион долларов
В начале 2026 года стартап AI-агентов Lindy публично раскрыл, что переключился с Claude от Anthropic на DeepSeek для инференса и теперь экономит миллионы долларов. Это была не исследовательская работа. Не бенчмарк. Это было решение о производственном развертывании компании, чья юнит-экономика зависит от затрат на инференс — и за ним последовала волна аналогичных заявлений от предприятий, экспериментирующих с DeepSeek, часто размещенным через сторонние платформы вроде Together AI, Atlas Cloud или Lightning AI Hub, которые оборачивают модели DeepSeek SLA с 99.9% uptime и корпоративной поддержкой.
Ценовой разрыв структурный, а не маргинальный. DeepSeek-V3 стоит примерно $0.14 за миллион входных токенов и $0.28 за миллион выходных токенов, по сравнению с $2.50/$10.00 для GPT-4o и $3.00/$15.00 для Claude Sonnet 4.6. Это преимущество в 18–21× по входным данным и 36–54× по выходным, еще до объемных скидок. Для предприятия, обрабатывающего 10 миллионов токенов в день — скромная производственная нагрузка — годовой счет за инференс падает с примерно $36 миллионов на GPT-4o до менее $2 миллионов на DeepSeek-V3. Это не ошибки округления. Это различия, переопределяющие бюджет.
Ответ Anthropic был немедленным и оборонительным: компания удвоила лимиты Claude Cowork без дополнительной платы и запустила Fable 5 (Mythos-class) с ограниченным окном доступности — оба шага направлены на удержание разработчиков до их перехода к более дешевым альтернативам. Microsoft объявила, что ее agent runtime теперь бесплатен, явно позиционируя Azure Foundry, Visual Studio и GitHub как слои lock-in, одновременно признавая, что сам runtime — слой инференса — больше не является защищаемым источником маржи. Это не действия компаний, уверенных в своей ценовой власти.
Почему маржа гипермасштабируемых платформ на AI вот-вот рухнет
Рынок AI-инфраструктуры в 2024–2025 находится на пересечении взрывного спроса на вычисления для инференса, зрелой облачной олигополии, столкнувшейся с первой серьезной угрозой марже за десятилетие, и ценовой среды, которая заставляет предприятия рассматривать расходы на AI как статью бюджета, а не инновационный фонд. Гипермасштабируемые платформы — Microsoft Azure, AWS и Google Cloud — последние три года наращивали GPU-кластеры и кастомные ускорители, чтобы захватить то, что они считали устойчивым, высокомаржинальным бумом AI-инфраструктуры.
Microsoft явно раскрыла в FY25, что масштабирование AI-инфраструктуры снизило валовую маржу Microsoft Cloud до 69% — редкое признание ценового давления в сегменте, который исторически печатал 70%+ валовой маржи. AWS проводит крупнейшую в своей истории программу капитальных затрат для наращивания AI-мощностей, а расширение маржи Google Cloud с 9.4% до 32.9% за один год отражает агрессивное масштабирование, а не устойчивую юнит-экономику. Базовое допущение, заложенное в оценки гипермасштабируемых платформ, состоит в том, что AI-инференс будет следовать сценарию ценовых войн в облаках 2010–2015: видимые снижения цен, но маржа защищена через масштаб, эффективность и экосистемный lock-in.
Этот сценарий работал, потому что AWS, Azure и GCP конкурировали друг с другом и с on-prem legacy-инфраструктурой, а не с фундаментально более дешевой архитектурной парадигмой. Mixture-of-Experts модели DeepSeek, которые активируют только 37B из 671B параметров на токен, представляют собой скачкообразное улучшение в эффективности затрат, которое гипермасштабируемые платформы не могут легко воспроизвести без каннибализации существующих GPU-флотов. Ценовая война AWS 2010–2015 поучительна: AWS снизила цены на S3-хранилище более чем на 80% с 2010 по 2016, но валовая маржа выросла с высоких 40-х до низких 60-х, потому что кривая затрат падала быстрее цен. Разница сегодня в том, что DeepSeek и open-weight модели не просто дешевле — они архитектурно иные, и их принимают предприятия, которые уже построили MLOps и governance-инфраструктуру для их запуска.
Рынок AI governance и observability, в настоящее время около $1.5–3 миллиардов глобально, растет на 25–40% ежегодно именно потому, что предприятия переходят от пилотной фазы «давайте попробуем GPT-4» к производственной фазе «нам нужны контроли политик, управление затратами и multi-model routing». Это не история о коллапсе спроса на AI — это история о фрагментации стека ценности, где инференс становится товарным входом, а реальная маржа накапливается на слоях оркестрации, governance и данных, которые находятся выше.
Рынок якорится на неверном прецеденте
Рынок оценивает AI-инфраструктуру гипермасштабируемых платформ как устойчивый, высокомаржинальный бизнес, потому что якорится на ценовой войне 2010–2015, когда AWS агрессивно снижала цены, но маржа росла. Консенсусное мнение состоит в том, что Azure, AWS и GCP будут защищать маржу на AI-инференсе так же: через масштаб, прирост эффективности и экосистемный lock-in. Это мнение ошибочно по трем причинам.
Во-первых, ценовая война 2010–2015 была конкуренцией между гипермасштабируемыми платформами и против on-prem legacy-инфраструктуры; сегодняшняя конкуренция — против фундаментально более дешевой архитектурной парадигмы, которую гипермасштабируемые платформы не могут легко воспроизвести без списания существующих GPU-инвестиций. Во-вторых, оборонительные шаги гипермасштабируемых платформ — бесплатные agent runtime, удвоенные Cowork-лимиты, ограниченные по времени Mythos-релизы — это не действия компаний с ценовой властью; это действия компаний, пытающихся замедлить отток. В-третьих, данные о чувствительности предприятий к затратам на AI показывают, что инференс уже составляет меньшинство затрат, на него приходится только 15–30% общего AI TCO, а 70–85% сидит в data pipelines, governance, observability и человеческом надзоре. Это означает, что даже скромные снижения цен от гипермасштабируемых платформ не предотвратят переход предприятий на DeepSeek, если ценовой разрыв остается 20–50×.
Информационная асимметрия в том, что большинство инвесторов фокусируется на заголовочном росте AI-выручки — Azure +39% YoY, Google Cloud +28% YoY — и не декомпозирует этот рост на инференс против платформенных сервисов. Раскрытие Microsoft о том, что AI-инфраструктура давит на валовую маржу, похоронено в сегментных комментариях, и ни AWS, ни Google Cloud не предоставляют чистую разбивку P&L для AI-инфраструктуры. Нарративная инерция мощная: «AI — это следующий cloud, и гипермасштабируемые платформы будут доминировать в AI так же, как доминировали в cloud». Но структурная разница в том, что облачная инфраструктура (compute, storage, networking) никогда не была по-настоящему коммодитизирована, потому что требовала массивных фиксированных инвестиций и имела сильные эффекты data gravity. AI-инференс, напротив, stateless, портативен и все чаще доступен с платформ, которые предлагают сопоставимые SLA за долю стоимости.
Разрыв сохраняется, потому что гипермасштабируемые платформы все еще растут достаточно быстро, чтобы инвесторы пока не беспокоились о сжатии маржи, и потому что кривая принятия DeepSeek все еще достаточно ранняя, чтобы выглядеть как нишевый феномен, а не структурная угроза. Это изменится во H2 2026, когда следующая волна корпоративных AI-развертываний выйдет в production, и CFO начнут спрашивать, почему они платят в 20–50× больше за инференс, чем нужно.
Куда смещается ценность
Размер возможности зависит от того, какая часть выручки гипермасштабируемых платформ от AI-инфраструктуры под угрозой и сколько ценности смещается на слои оркестрации и governance. Сегмент Intelligent Cloud Microsoft сгенерировал примерно $96 миллиардов выручки в FY25, при этом Azure составляет большинство; если AI-инфраструктура — это 10–15% выручки Azure — консервативная оценка, учитывая акцент Microsoft на AI-росте — это $10–15 миллиардов годовой выручки. AWS сгенерировала примерно $105 миллиардов выручки в 2024, при этом AI-инфраструктура, вероятно, в диапазоне $15–20 миллиардов на основе комментариев о росте. Google Cloud сгенерировала примерно $50 миллиардов в 2024, при этом AI-инфраструктура и generative-AI решения двигают рост; предположим $7–10 миллиардов AI-связанной выручки.
В совокупности гипермасштабируемые платформы генерируют $30–45 миллиардов годовой выручки от AI-инфраструктуры, с валовой маржой в диапазоне 50–70% в зависимости от микса инференса против платформенных сервисов. Если маржа на инференсе сожмется на 20–30 процентных пунктов в течение следующих 18–24 месяцев из-за арбитража DeepSeek и принятия open-weight моделей, это $6–13 миллиардов годовой валовой прибыли под угрозой у трех гипермасштабируемых платформ.
Ценность не исчезает — она смещается на слои оркестрации, governance и observability. Рынок LLM observability прогнозируется вырасти с $1.44 миллиарда в 2024 до $6.8 миллиарда к 2029, прирост в $5.4 миллиарда. Рынок AI governance software прогнозируется вырасти с примерно $300 миллионов в 2025 до $5.88 миллиарда к 2035, что подразумевает около $5.5 миллиарда инкрементального создания ценности в течение следующего десятилетия. Cloudflare, Databricks, Datadog и другие независимые платформы позиционированы захватить непропорциональную долю этого роста, потому что они не привязаны к единственному провайдеру инференса и могут предложить лучшее управление затратами и контроли политик, чем нативный тулинг гипермасштабируемых платформ.
Cloudflare сообщила о росте запросов к AI Gateway на 1,200%+ год к году, указывая, что предприятия маршрутизируют инференс-вызовы через независимые control plane, а не блокируются в Azure OpenAI или Bedrock. Независимые анализы корпоративных расходов на AI показывают, что инференс и доступ к моделям составляют только 15–30% общего AI TCO, а 70–85% сидит в data pipelines, governance, observability и человеческом надзоре. Это означает, что даже если маржа на инференсе сожмется до почти нуля, гипермасштабируемые платформы все еще могут захватывать ценность — но только если они контролируют окружающую платформу. Свидетельства говорят, что они теряют этот контроль.
Проблема скорости развертывания
AI-команды теперь развертывают 1,000 раз в месяц, требуя новой pipeline-инфраструктуры, для которой нативный тулинг гипермасштабируемых платформ не был построен. Переход от пилотных к производственным AI-развертываниям — это не только о стоимости инференса — это о governance, observability и оркестрации в масштабе, который традиционный DevOps-тулинг не может обработать. Microsoft призывает предприятия мигрировать с Azure Repos на GitHub, несмотря на неровную историю надежности GitHub — знак того, что компания приоритизирует консолидацию экосистемы над качеством сервиса. Microsoft позиционировала Azure Foundry как слой надежности и governance, делая ставку на то, что корпоративная битва за AI — об оркестрации, а не о сырой инференс-способности.
Но свидетельства говорят, что предприятия не покупают историю о bundled-платформе. Они маршрутизируют инференс через независимые control plane вроде AI Gateway от Cloudflare, используют Datadog для LLM observability, консолидируют данные на MongoDB Atlas и Snowflake's Cortex AI, и стримят real-time данные через Kafka-based pipelines от Confluent. Гипермасштабируемые платформы все еще захватывают часть этой ценности через платформенные сервисы, но профиль маржи фундаментально иной: платформенные сервисы требуют постоянных R&D-инвестиций и конкурируют с best-of-breed независимыми инструментами, тогда как инференс должен был быть высокомаржинальным, low-touch потоком выручки.
Инструменты
Этот портфель выражает тезис через три структурных слоя: платформы оркестрации и governance, которые захватывают ценность по мере коммодитизации инференса, инфраструктура data foundation, на которой предприятия консолидируются независимо от провайдера инференса, и инфраструктурные бенефициары, которые выигрывают, если объем инференса взрывается, даже когда маржа сжимается.
Cloudflare (NET) — чистейшая структурная экспозиция на коммодитизацию инференса. AI Gateway сидит между предприятиями и провайдерами инференса, захватывая ценность по мере того, как multi-model routing становится стандартом. Рост запросов к AI Gateway на 1,200% YoY валидирует механизм тезиса: предприятия больше не готовы блокироваться в Azure OpenAI или Bedrock, если это означает платить в 20–50× больше за инференс. Оценка Cloudflare закладывает совершенство — 33x price-to-sales, отрицательная операционная маржа — но слой оркестрации — это где накапливается маржа, когда инференс становится товарным входом. Upside 50% до $330, если монетизация AI Gateway ускорится во H2 2026 по мере масштабирования корпоративных развертываний. Вес: 20%. Горизонт: 540 дней.
Datadog (DDOG) — ведущая observability-платформа с LLM-мониторингом; рынок LLM observability прогнозируется расти на 36% ежегодно до $6.8 миллиарда к 2029. По мере того как предприятия маршрутизируют между DeepSeek, Claude и on-prem моделями, им нужен унифицированный logging, отслеживание затрат и enforcement политик — возможности, которые Datadog предоставляет лучше, чем нативный тулинг гипермасштабируемых платформ. Оценка заоблачная — 22x sales, 593x P/E — не оставляя места для ошибки, но механизм тезиса (расходы на governance растут по мере коммодитизации инференса) прямой. Upside 50% до $340, если расходы на LLM observability масштабируются со сложностью multi-model развертываний. Вес: 15%. Горизонт: 540 дней.
Elastic (ESTC) предоставляет search, observability и security analytics, которые отображаются на слой AI governance и мониторинга. Elasticsearch — де-факто стандарт для log aggregation; позиционирована в AI observability без экспозиции на маржу гипермасштабируемых платформ. Оценка нетребовательная — 17x earnings для 17% роста, 5.1% FCF yield — и компания структурно выигрывает, когда multi-model развертывания требуют централизованного logging и обнаружения аномалий. Upside 40% до $85, если расходы на observability масштабируются со сложностью AI-развертываний. Вес: 12%. Горизонт: 450 дней.
MongoDB (MDB) предоставляет слой data foundation через Atlas и vector search, захватывая расходы, когда предприятия строят производственные AI-системы независимо от провайдера инференса. Atlas и vector search сидят выше слоя инференса — предприятиям, запускающим multi-model архитектуры, нужна база данных, которая обрабатывает неструктурированные данные и embeddings в масштабе независимо от того, маршрутизируют ли они между DeepSeek, Claude или GPT-4. 23% рост выручки driven предприятиями, выравниваясь с волной развертываний H2 2026. Upside 25%, если Atlas станет дефолтной vector database для производственного AI. Вес: 15%. Горизонт: 540 дней.
NVIDIA (NVDA) структурно выигрывает, когда маржа гипермасштабируемых платформ на инференсе сжимается и предприятия переходят на self-hosted DeepSeek или гибридные архитектуры, чтобы избежать ценообразования Azure/AWS — им все еще нужны GPU, и софтверный стек NVIDIA (NIM, TensorRT-LLM, Triton) захватывает ценность оркестрации на edge и в private clouds. Катализатор тезиса двусторонний: больше on-prem развертываний благоприятствует NVIDIA-железу, но более низкая compute-интенсивность на токен (эффективность DeepSeek MoE) благоприятствует меньшему числу чипов на стойку. Размер 18% как хедж против сжатия облачной маржи и как экспозиция на on-prem GPU-спрос, если стоимость становится доминирующим корпоративным критерием выбора. Цель: $260. Горизонт: 450 дней.
Snowflake (SNOW) сидит в слое data foundation, где предприятия консолидируются перед запуском инференс-нагрузок — те 15–25% AI TCO, которые тезис идентифицирует как не коммодитизирующиеся. Cortex AI позиционирует Snowflake как control plane политик и pipeline. Оценка предполагает расширение маржи, которое еще не материализовалось (отрицательная операционная маржа -26%, 16.5x sales), и конкурентная позиция против Databricks и hyperscaler bundles оспаривается. Размер 10%, чтобы отразить выравнивание тезиса (расходы на governance растут по мере коммодитизации инференса), но недоказанный захват этих расходов при текущих burn rates. Горизонт: 540 дней.
Confluent (CFLT) захватывает расходы на data streaming инфраструктуру, когда предприятия строят real-time AI pipelines; data foundation составляет 15–25% AI TCO. Kafka-based data streaming для real-time pipelines — это data plumbing для multi-model AI-архитектур. По мере того как предприятия маршрутизируют инференс через DeepSeek, Anthropic и open-source модели, им нужен real-time data streaming для питания этих моделей и оркестрации выходов. Оценка уже закладывает growth story (9.5x P/S, отрицательный FCF), и компания все еще убыточна. Размер 10% как экспозиция на multi-model AI data инфраструктуру с 30–40% upside до $40, если расходы на AI data ускоряются. Горизонт: 450 дней.
Допущения и фальсификация
-
DeepSeek и другие low-cost провайдеры инференса масштабируются до корпоративных производственных объемов с 99.9%+ uptime SLA к H2 2026. Фальсифицируется, если: DeepSeek или сторонние обертки (Together AI, Atlas Cloud, Lightning AI Hub) испытывают устойчивые outages или не соответствуют корпоративным порогам надежности, заставляя risk-averse предприятия платить премию гипермасштабируемых платформ за Azure OpenAI или Bedrock-hosted Anthropic.
-
Инференс составляет 30–50% выручки гипермасштабируемых платформ от AI-инфраструктуры, с валовой маржой в диапазоне 50–70%. Фальсифицируется, если: гипермасштабируемые платформы раскрывают, что инференс <20% AI-выручки или что платформенные сервисы (Foundry, Bedrock tooling, Azure ML) уже захватывают большинство маржи, снижая величину сжатия.
-
Предприятия перенаправляют 20–40% экономии на инференсе в governance, observability и orchestration тулинг к 2027. Фальсифицируется, если: предприятия кладут экономию в карман вместо реинвестирования, или если гипермасштабируемые платформы успешно бандлят governance-тулинг с нулевой маржинальной стоимостью (например, Azure Foundry становится бесплатной, AWS запускает Bedrock governance layer, который «достаточно хорош»), предотвращая захват независимыми платформами смещения ценности.
-
Гипермасштабируемые платформы не могут защитить ценообразование инференса через экосистемный lock-in или превосходную надежность. Фальсифицируется, если: Microsoft успешно блокирует предприятия в Azure Foundry с switching costs, достаточно высокими, чтобы оправдать премию инференса в 20–50×, или если AWS строит governance layer, который значимо лучше Cloudflare/Databricks, удерживая предприятия на Bedrock, несмотря на ценовой разрыв.
-
Волна корпоративных AI-развертываний H2 2026 приоритизирует стоимость над способностью как доминирующий критерий выбора. Фальсифицируется, если: предприятия откладывают production rollouts из-за экономических условий или регуляторной неопределенности, сдвигая катализатор на 12–18 месяцев, или если способность (качество модели, latency, context window) остается первичным фактором решения и предприятия принимают премию гипермасштабируемых платформ за воспринимаемые преимущества производительности.
Риски
Снижения цен гипермасштабируемых платформ могут сузить ценовой разрыв, если Azure, AWS и GCP агрессивно снизят ценообразование инференса (снижения на 50–70%) для защиты рыночной доли. Предприятия могут воспринять гипермасштабируемые платформы как «достаточно дешевые», откладывая переход на DeepSeek и снижая срочность для независимых governance-платформ. Это сжимает маржу гипермасштабируемых платформ быстрее, чем предсказывает тезис, но также откладывает смещение ценности на слои оркестрации.
Бандлинг и конкуренция с нулевой маржинальной стоимостью — это риск «достаточно хорошо». Гипермасштабируемые платформы могут забандлить governance, observability и orchestration тулинг в свои платформы без инкрементальной стоимости (например, Azure Foundry становится бесплатной, AWS запускает Bedrock Policy Manager), делая экономически иррациональным для предприятий платить Cloudflare, Datadog или Databricks за standalone тулинг. Версия гипермасштабируемой платформы не должна быть best-in-class, просто достаточной для предотвращения оттока.
Надежность DeepSeek и геополитический риск: DeepSeek — китайский провайдер моделей; если геополитические напряжения эскалируют или если американские предприятия сталкиваются с регуляторным давлением избегать китайской AI-инфраструктуры, принятие останавливается независимо от ценовых преимуществ. Сторонние обертки (Together AI, Atlas Cloud) смягчают это, размещая DeepSeek в американских дата-центрах, но риск остается, если базовая архитектура модели воспринимается как уязвимость цепочки поставок.
Сжатие оценки в high-multiple governance plays: Cloudflare (33x P/S), Datadog (22x P/S) и Snowflake (16.5x P/S) оценены для устойчивого гиперроста. Если принятие AI Gateway или LLM observability медленнее ожидаемого, или если компании пропускают квартальный guidance, мультипликаторы сжимаются на 30–50% независимо от долгосрочной валидности тезиса. Это execution risk, а не thesis risk, но создает краткосрочную волатильность.
Разрушение спроса NVIDIA от MoE-эффективности: Mixture-of-Experts архитектура DeepSeek активирует только 37B из 671B параметров на токен, снижая GPU-утилизацию на инференс-нагрузку. Если этот прирост эффективности распространяется по индустрии (OpenAI, Anthropic принимают аналогичные архитектуры), общий GPU-спрос на стойку снижается, даже когда объем инференса взрывается, давя на рост unit sales NVIDIA. Software attach rate компании (NIM, Triton) может не компенсировать hardware headwind.
Риск crowded trade в AI infrastructure shorts: если тезис становится консенсусом (например, множественные хедж-фонды шортят маржу гипермасштабируемых платформ или underweight MSFT/GOOGL/AMZN в пользу governance plays), любой позитивный сюрприз (ценовая защита гипермасштабируемых платформ, outage DeepSeek, пауза корпоративных AI-расходов) триггерит жестокий unwind. Этот портфель long-only, но governance longs (NET, DDOG, ESTC) коррелированы и могут распродаться вместе, если нарратив сдвигается.
Портфель
| Ticker | Вес | Цель | Горизонт |
|---|---|---|---|
| NET | 20% | $330 | 540d |
| DDOG | 15% | $340 | 540d |
| ESTC | 12% | $85 | 450d |
| MDB | 15% | — | 540d |
| NVDA | 18% | $260 | 450d |
| SNOW | 10% | — | 540d |
| CFLT | 10% | $40 | 450d |
Sources
- 1.The New Stack — Microsoft just made the agent runtime free — and kept everything around it
- 2.The New Stack — AI teams now deploy 1,000 times a month. Your pipeline wasn’t built for that.
- 3.The New Stack — With Foundry, Microsoft bets the enterprise AI battle is about reliability, not capability
- 4.The New Stack — Why Anthropic just doubled Claude Cowork limits at no charge
- 5.The New Stack — Microsoft’s pitch to enterprises: Ditch Azure Repos for GitHub, despite its rocky reliability record
- 6.The New Stack — This AI agent startup ditched Anthropic for DeepSeek’s — and says it’s saving millions
- 7.The New Stack — Anthropic launches Claude Mythos/Fable 5, but you better try it soon