anticipated catalyst · technology

La compresión de costos de inferencia de IA: cómo DeepSeek está forzando a los hiperescaladores a ceder sus márgenes

published 6/11/2026

El cambio del millón de dólares

A principios de 2026, una startup de agentes de IA llamada Lindy reveló públicamente que había cambiado de Claude de Anthropic a DeepSeek para inferencia y ahora estaba ahorrando millones de dólares. Esto no fue un paper de investigación. No fue un benchmark. Fue una decisión de despliegue en producción por parte de una empresa cuya economía unitaria depende de los costos de inferencia—y fue seguida por una ola de anuncios similares de empresas experimentando con DeepSeek, a menudo alojado a través de plataformas de terceros como Together AI, Atlas Cloud o Lightning AI Hub que envuelven los modelos DeepSeek con SLAs de 99.9% de uptime y soporte empresarial.

La brecha de precios es estructural, no marginal. DeepSeek-V3 cuesta aproximadamente $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida, comparado con $2.50/$10.00 para GPT-4o y $3.00/$15.00 para Claude Sonnet 4.6. Eso es una ventaja de costos de 18–21× en entrada y de 36–54× en salida, incluso antes de descuentos por volumen. Para una empresa que ejecuta 10 millones de tokens por día—una carga de trabajo de producción modesta—la factura anual de inferencia cae de aproximadamente $36 millones en GPT-4o a menos de $2 millones en DeepSeek-V3. Estos no son errores de redondeo. Son diferencias que redefinen presupuestos.

La respuesta de Anthropic fue inmediata y defensiva: duplicó los límites de Claude Cowork sin cargo y lanzó Fable 5 (clase Mythos) con una ventana de disponibilidad por tiempo limitado, ambos movimientos diseñados para retener desarrolladores antes de que deserten a alternativas más baratas. Microsoft anunció que su runtime de agentes ahora es gratuito, posicionando explícitamente Azure Foundry, Visual Studio y GitHub como las capas de lock-in mientras concede que el runtime en sí—la capa de inferencia—ya no es una fuente de margen defendible. Estas no son las acciones de empresas confiadas en su poder de fijación de precios.

Por qué los márgenes de IA de los hiperescaladores están a punto de colapsar

El mercado de infraestructura de IA en 2024–2025 se sitúa en la intersección de una demanda explosiva de cómputo de inferencia, un oligopolio de nube maduro enfrentando su primera amenaza creíble de margen en una década, y un entorno de costos que está forzando a las empresas a tratar el gasto en IA como una partida presupuestaria en lugar de un presupuesto de innovación. Los hiperescaladores—Microsoft Azure, AWS y Google Cloud—han pasado los últimos tres años construyendo clusters de GPU y aceleradores personalizados para capturar lo que creían sería un boom sostenido de infraestructura de IA de alto margen.

Microsoft reveló explícitamente en FY25 que escalar la infraestructura de IA llevó su margen bruto de Microsoft Cloud al 69%, una rara admisión de presión de costos en un segmento que históricamente imprimía márgenes brutos de 70%+. AWS está ejecutando el programa de capex más grande de su historia para construir capacidad de IA, y la expansión de margen de Google Cloud de 9.4% a 32.9% en un solo año refleja un scale-up agresivo en lugar de economías unitarias sostenibles. El supuesto base incorporado en las valuaciones de los hiperescaladores es que la inferencia de IA seguirá el playbook de las guerras de precios de nube de 2010–2015: recortes de precios visibles, pero márgenes defendidos a través de escala, eficiencia y lock-in de ecosistema.

Ese playbook funcionó porque AWS, Azure y GCP competían entre sí y contra infraestructura legacy on-prem, no contra un paradigma arquitectónico fundamentalmente más barato. Los modelos Mixture-of-Experts de DeepSeek, que activan solo 37B de 671B parámetros por token, representan una mejora de función escalonada en eficiencia de costos que los hiperescaladores no pueden replicar fácilmente sin canibalizar sus flotas de GPU existentes. La guerra de precios de AWS de 2010–2015 es instructiva: AWS recortó los precios de almacenamiento S3 en más del 80% de 2010 a 2016, sin embargo los márgenes brutos se expandieron de los altos 40s a los bajos 60s porque la curva de costos cayó más rápido que los precios. La diferencia hoy es que DeepSeek y los modelos de pesos abiertos no son solo más baratos—son arquitectónicamente diferentes, y están siendo adoptados por empresas que ya han construido la infraestructura de MLOps y gobernanza para ejecutarlos.

El mercado de gobernanza y observabilidad de IA, actualmente alrededor de $1.5–3 mil millones globalmente, está creciendo al 25–40% anualmente precisamente porque las empresas están pasando de la fase piloto "probemos GPT-4" a la fase de producción "necesitamos controles de política, gestión de costos y enrutamiento multi-modelo". Esta no es una historia sobre el colapso de la demanda de IA—es una historia sobre la fragmentación del stack de valor, con la inferencia convirtiéndose en un input commodity y el margen real acumulándose en las capas de orquestación, gobernanza y datos que se sitúan por encima.

El mercado está anclándose en el precedente equivocado

El mercado está valorando la infraestructura de IA de los hiperescaladores como un negocio sostenido de alto margen porque se está anclando en la guerra de precios de nube de 2010–2015, donde AWS recortó precios agresivamente pero los márgenes se expandieron. La visión de consenso es que Azure, AWS y GCP defenderán los márgenes de inferencia de IA de la misma manera: a través de escala, ganancias de eficiencia y lock-in de ecosistema. Esta visión es incorrecta por tres razones.

Primero, la guerra de precios de 2010–2015 fue una competencia entre hiperescaladores y contra infraestructura legacy on-prem; la competencia de hoy es contra un paradigma arquitectónico fundamentalmente más barato que los hiperescaladores no pueden replicar fácilmente sin dejar varadas sus inversiones existentes en GPU. Segundo, los movimientos defensivos de los hiperescaladores—runtimes de agentes gratuitos, límites de Cowork duplicados, lanzamientos Mythos por tiempo limitado—no son las acciones de empresas con poder de fijación de precios; son las acciones de empresas tratando de frenar la deserción. Tercero, los datos de sensibilidad de costos de IA empresarial muestran que la inferencia ya es un costo minoritario, representando solo el 15–30% del TCO total de IA, con el 70–85% situado en pipelines de datos, gobernanza, observabilidad y supervisión humana. Esto significa que incluso recortes de precios modestos de los hiperescaladores no evitarán que las empresas cambien a DeepSeek si la brecha de costos permanece en 20–50×.

La asimetría informacional es que la mayoría de los inversores están enfocados en el crecimiento de ingresos de IA titular—Azure arriba 39% YoY, Google Cloud arriba 28% YoY—y no están descomponiendo ese crecimiento en inferencia versus servicios de plataforma. La revelación de Microsoft de que la infraestructura de IA está presionando los márgenes brutos está enterrada en comentarios de segmento, y ni AWS ni Google Cloud proporcionan un desglose limpio de P&L para infraestructura de IA. La inercia narrativa es poderosa: "IA es la próxima nube, y los hiperescaladores dominarán IA tal como dominaron la nube". Pero la diferencia estructural es que la infraestructura de nube (cómputo, almacenamiento, redes) nunca fue verdaderamente commoditizada porque requería inversiones fijas masivas y tenía fuertes efectos de gravedad de datos. La inferencia de IA, por el contrario, es stateless, portable y cada vez más disponible desde plataformas que ofrecen SLAs comparables a una fracción del costo.

La brecha persiste porque los hiperescaladores todavía están creciendo lo suficientemente rápido como para que los inversores aún no estén preocupados por la compresión de margen, y porque la curva de adopción de DeepSeek todavía es lo suficientemente temprana como para que parezca un fenómeno de nicho en lugar de una amenaza estructural. Eso cambiará en H2 2026 cuando la próxima ola de despliegues de IA empresarial llegue a producción y los CFOs comiencen a preguntar por qué están pagando 20–50× más por inferencia de lo que necesitan.

Hacia dónde se está desplazando el valor

El tamaño de la oportunidad depende de cuánto de los ingresos de infraestructura de IA de los hiperescaladores está en riesgo y cuánto valor se desplaza a las capas de orquestación y gobernanza. El segmento Intelligent Cloud de Microsoft generó aproximadamente $96 mil millones en ingresos en FY25, con Azure representando la mayoría; si la infraestructura de IA es el 10–15% de los ingresos de Azure—una estimación conservadora dado el énfasis de Microsoft en el crecimiento de IA—eso es $10–15 mil millones en ingresos anuales. AWS generó aproximadamente $105 mil millones en ingresos en 2024, con infraestructura de IA probablemente en el rango de $15–20 mil millones basado en comentarios de crecimiento. Google Cloud generó aproximadamente $50 mil millones en 2024, con infraestructura de IA y soluciones de IA generativa impulsando el crecimiento; asumamos $7–10 mil millones en ingresos relacionados con IA.

Combinados, los hiperescaladores están ejecutando $30–45 mil millones en ingresos anuales de infraestructura de IA, con márgenes brutos en el rango de 50–70% dependiendo de la mezcla de inferencia versus servicios de plataforma. Si los márgenes de inferencia se comprimen en 20–30 puntos porcentuales durante los próximos 18–24 meses debido al arbitraje de DeepSeek y la adopción de modelos de pesos abiertos, eso es $6–13 mil millones en ganancia bruta anual en riesgo a través de los tres hiperescaladores.

El valor no desaparece—se desplaza a las capas de orquestación, gobernanza y observabilidad. Se pronostica que el mercado de observabilidad de LLM crecerá de $1.44 mil millones en 2024 a $6.8 mil millones para 2029, un aumento de $5.4 mil millones. Se pronostica que el mercado de software de gobernanza de IA crecerá de aproximadamente $300 millones en 2025 a $5.88 mil millones para 2035, implicando alrededor de $5.5 mil millones en creación de valor incremental durante la próxima década. Cloudflare, Databricks, Datadog y otras plataformas independientes están posicionadas para capturar una participación desproporcionada de este crecimiento porque no están atadas a un solo proveedor de inferencia y pueden ofrecer mejor gestión de costos y controles de política que las herramientas nativas de los hiperescaladores.

Cloudflare reportó un crecimiento de más del 1,200% año tras año en solicitudes de AI Gateway, indicando que las empresas están enrutando llamadas de inferencia a través de planos de control independientes en lugar de bloquearse en Azure OpenAI o Bedrock. Análisis independientes del gasto de IA empresarial muestran que la inferencia y el acceso a modelos representan solo el 15–30% del TCO total de IA, con el 70–85% situado en pipelines de datos, gobernanza, observabilidad y supervisión humana. Esto significa que incluso si los márgenes de inferencia se comprimen a casi cero, los hiperescaladores aún pueden capturar valor—pero solo si controlan la plataforma circundante. La evidencia sugiere que están perdiendo ese control.

El problema de velocidad de despliegue

Los equipos de IA ahora despliegan 1,000 veces por mes, requiriendo nueva infraestructura de pipeline que las herramientas nativas de los hiperescaladores no fueron construidas para manejar. El cambio de despliegues de IA piloto a producción no es solo sobre el costo de inferencia—es sobre gobernanza, observabilidad y orquestación a una escala que las herramientas tradicionales de DevOps no pueden manejar. Microsoft está proponiendo a las empresas migrar de Azure Repos a GitHub a pesar del historial de confiabilidad irregular de GitHub, una señal de que la empresa está priorizando la consolidación del ecosistema sobre la calidad del servicio. Microsoft posicionó Azure Foundry como la capa de confiabilidad y gobernanza, apostando a que la batalla de IA empresarial es sobre orquestación, no capacidad de inferencia bruta.

Pero la evidencia sugiere que las empresas no están comprando la historia de plataforma empaquetada. Están enrutando inferencia a través de planos de control independientes como AI Gateway de Cloudflare, usando Datadog para observabilidad de LLM, consolidando datos en MongoDB Atlas y Cortex AI de Snowflake, y transmitiendo datos en tiempo real a través de pipelines basados en Kafka de Confluent. Los hiperescaladores todavía están capturando algo de este valor a través de servicios de plataforma, pero el perfil de margen es fundamentalmente diferente: los servicios de plataforma requieren inversión continua en I+D y compiten con herramientas independientes best-of-breed, mientras que se suponía que la inferencia sería un flujo de ingresos de alto margen y bajo contacto.

Los instrumentos

Este portafolio expresa la tesis a través de tres capas estructurales: plataformas de orquestación y gobernanza que capturan valor a medida que la inferencia se commoditiza, infraestructura de fundación de datos en la que las empresas se consolidan independientemente del proveedor de inferencia, y beneficiarios de infraestructura que ganan si el volumen de inferencia explota incluso cuando los márgenes se comprimen.

Cloudflare (NET) es la exposición estructural más pura a la commoditización de inferencia. AI Gateway se sitúa entre empresas y proveedores de inferencia, capturando valor a medida que el enrutamiento multi-modelo se vuelve estándar. El crecimiento del 1,200% YoY en solicitudes de AI Gateway valida el mecanismo de tesis: las empresas ya no están dispuestas a bloquearse en Azure OpenAI o Bedrock si eso significa pagar 20–50× más por inferencia. La valuación de Cloudflare incorpora perfección—33x price-to-sales, margen operativo negativo—pero la capa de orquestación es donde se acumula el margen a medida que la inferencia se convierte en un input commodity. El upside es 50% a $330 si la monetización de AI Gateway se acelera en H2 2026 a medida que los despliegues empresariales escalan. Peso: 20%. Horizonte: 540 días.

Datadog (DDOG) es una plataforma líder de observabilidad con capacidades de monitoreo de LLM; se pronostica que el mercado de observabilidad de LLM crecerá 36% anualmente a $6.8 mil millones para 2029. A medida que las empresas enrutan entre DeepSeek, Claude y modelos on-prem, necesitan logging unificado, seguimiento de costos y aplicación de políticas—capacidades que Datadog proporciona mejor que las herramientas nativas de los hiperescaladores. La valuación es estratosférica—22x sales, 593x P/E—sin dejar margen para error, pero el mecanismo de tesis (gasto en gobernanza aumentando a medida que la inferencia se commoditiza) es directo. El upside es 50% a $340 si el gasto en observabilidad de LLM escala con la complejidad de despliegue multi-modelo. Peso: 15%. Horizonte: 540 días.

Elastic (ESTC) proporciona búsqueda, observabilidad y análisis de seguridad que se mapean a la capa de gobernanza y monitoreo de IA. Elasticsearch es el estándar de facto para agregación de logs; posicionado en observabilidad de IA sin exposición de margen de hiperescalador. La valuación es poco exigente—17x earnings para 17% de crecimiento, 5.1% de FCF yield—y la empresa se beneficia estructuralmente a medida que los despliegues multi-modelo requieren logging centralizado y detección de anomalías. El upside es 40% a $85 si el gasto en observabilidad escala con la complejidad de despliegue de IA. Peso: 12%. Horizonte: 450 días.

MongoDB (MDB) proporciona la capa de fundación de datos a través de Atlas y búsqueda vectorial, capturando gasto a medida que las empresas construyen sistemas de IA de producción independientemente del proveedor de inferencia. Atlas y búsqueda vectorial se sitúan por encima de la capa de inferencia—las empresas que ejecutan arquitecturas multi-modelo necesitan una base de datos que maneje datos no estructurados y embeddings a escala independientemente de si enrutan entre DeepSeek, Claude o GPT-4. El crecimiento de ingresos del 23% es impulsado por empresas, alineándose con la ola de despliegue de H2 2026. El upside es 25% si Atlas se convierte en la base de datos vectorial predeterminada para IA de producción. Peso: 15%. Horizonte: 540 días.

NVIDIA (NVDA) se beneficia estructuralmente a medida que los márgenes de inferencia de hiperescaladores se comprimen y las empresas se mueven a DeepSeek auto-alojado o arquitecturas híbridas para escapar de los precios de Azure/AWS—todavía necesitan GPUs, y el stack de software de NVIDIA (NIM, TensorRT-LLM, Triton) captura valor de orquestación en el edge y en nubes privadas. El catalizador de tesis es de doble filo: más despliegues on-prem favorecen el hardware de NVIDIA, pero menor intensidad de cómputo por token (eficiencia MoE de DeepSeek) favorece menos chips por rack. Dimensionado al 18% como cobertura contra la compresión de margen de nube y como exposición a la demanda de GPU on-prem si el costo se convierte en el criterio de selección empresarial dominante. Target: $260. Horizonte: 450 días.

Snowflake (SNOW) se sitúa en la capa de fundación de datos donde las empresas se consolidan antes de ejecutar cargas de trabajo de inferencia—el 15–25% del TCO de IA que la tesis identifica como no-commoditizable. Cortex AI posiciona a Snowflake como el plano de control de política y pipeline. La valuación asume expansión de margen que aún no se ha materializado (margen operativo negativo de -26%, 16.5x sales) y la posición competitiva contra Databricks y bundles de hiperescaladores está disputada. Dimensionado al 10% para reflejar alineación de tesis (gasto en gobernanza aumentando a medida que la inferencia se commoditiza) pero captura no probada de ese gasto a las tasas de quema actuales. Horizonte: 540 días.

Confluent (CFLT) captura gasto en infraestructura de streaming de datos a medida que las empresas construyen pipelines de IA en tiempo real; la fundación de datos representa el 15–25% del TCO de IA. El streaming de datos basado en Kafka para pipelines en tiempo real es la plomería de datos para arquitecturas de IA multi-modelo. A medida que las empresas enrutan inferencia a través de DeepSeek, Anthropic y modelos de código abierto, necesitan streaming de datos en tiempo real para alimentar esos modelos y orquestar outputs. La valuación ya incorpora la historia de crecimiento (9.5x P/S, FCF negativo) y la empresa todavía no es rentable. Dimensionado al 10% como exposición a infraestructura de datos de IA multi-modelo con 30–40% de upside a $40 si el gasto en datos de IA se acelera. Horizonte: 450 días.

Supuestos y falsificación

  1. DeepSeek y otros proveedores de inferencia de bajo costo escalan a volúmenes de producción empresarial con SLAs de 99.9%+ de uptime para H2 2026. Falsificado si: DeepSeek o wrappers de terceros (Together AI, Atlas Cloud, Lightning AI Hub) experimentan interrupciones sostenidas o no cumplen con umbrales de confiabilidad empresarial, causando que empresas adversas al riesgo paguen la prima de hiperescalador por Azure OpenAI o Anthropic alojado en Bedrock.

  2. La inferencia representa el 30–50% de los ingresos de infraestructura de IA de hiperescaladores, con márgenes brutos en el rango de 50–70%. Falsificado si: Los hiperescaladores revelan que la inferencia es <20% de los ingresos de IA o que los servicios de plataforma (Foundry, herramientas de Bedrock, Azure ML) ya capturan la mayoría del margen, reduciendo la magnitud de la compresión.

  3. Las empresas redirigen el 20–40% de los ahorros de costos de inferencia hacia herramientas de gobernanza, observabilidad y orquestación para 2027. Falsificado si: Las empresas se embolsan los ahorros en lugar de reinvertir, o si los hiperescaladores empaquetan exitosamente herramientas de gobernanza a costo marginal cero (p. ej., Azure Foundry se vuelve gratuito, AWS lanza una capa de gobernanza de Bedrock que es "suficientemente buena"), evitando que plataformas independientes capturen el cambio de valor.

  4. Los hiperescaladores no pueden defender los precios de inferencia a través de lock-in de ecosistema o confiabilidad superior. Falsificado si: Microsoft bloquea exitosamente a las empresas en Azure Foundry con costos de cambio lo suficientemente altos como para justificar la prima de inferencia de 20–50×, o si AWS construye una capa de gobernanza que es significativamente mejor que Cloudflare/Databricks, manteniendo a las empresas en Bedrock a pesar de la brecha de costos.

  5. La ola de despliegues de IA empresarial de H2 2026 prioriza el costo sobre la capacidad como el criterio de selección dominante. Falsificado si: Las empresas retrasan los rollouts de producción debido a condiciones económicas o incertidumbre regulatoria, empujando el catalizador 12–18 meses, o si la capacidad (calidad del modelo, latencia, ventana de contexto) permanece como el factor de decisión primario y las empresas aceptan la prima de hiperescalador por ventajas de rendimiento percibidas.

Riesgos

Los recortes de precios de hiperescaladores podrían estrechar la brecha de costos si Azure, AWS y GCP recortan los precios de inferencia agresivamente (reducciones del 50–70%) para defender cuota de mercado. Las empresas pueden percibir a los hiperescaladores como "suficientemente baratos", retrasando el cambio a DeepSeek y reduciendo la urgencia por plataformas de gobernanza independientes. Esto comprime los márgenes de hiperescaladores más rápido de lo que la tesis predice pero también retrasa el cambio de valor a las capas de orquestación.

El empaquetamiento y la competencia de costo marginal cero es el riesgo de "suficientemente bueno". Los hiperescaladores podrían empaquetar herramientas de gobernanza, observabilidad y orquestación en sus plataformas sin costo incremental (p. ej., Azure Foundry se vuelve gratuito, AWS lanza Bedrock Policy Manager), haciendo económicamente irracional que las empresas paguen a Cloudflare, Datadog o Databricks por herramientas independientes. La versión del hiperescalador no necesita ser best-in-class, solo suficiente para prevenir la deserción.

Confiabilidad de DeepSeek y riesgo geopolítico: DeepSeek es un proveedor de modelos chino; si las tensiones geopolíticas escalan o si las empresas estadounidenses enfrentan presión regulatoria para evitar infraestructura de IA china, la adopción se estanca independientemente de las ventajas de costo. Los wrappers de terceros (Together AI, Atlas Cloud) mitigan esto alojando DeepSeek en centros de datos estadounidenses, pero el riesgo permanece si la arquitectura del modelo subyacente se percibe como una vulnerabilidad de cadena de suministro.

Compresión de valuación en plays de gobernanza de múltiplo alto: Cloudflare (33x P/S), Datadog (22x P/S) y Snowflake (16.5x P/S) están valorados para hipercrecimiento sostenido. Si la adopción de AI Gateway u observabilidad de LLM es más lenta de lo esperado, o si las empresas fallan en la guía trimestral, los múltiplos se comprimen 30–50% independientemente de la validez de la tesis a largo plazo. Este es riesgo de ejecución, no riesgo de tesis, pero crea volatilidad a corto plazo.

Destrucción de demanda de NVIDIA por eficiencia MoE: La arquitectura Mixture-of-Experts de DeepSeek activa solo 37B de 671B parámetros por token, reduciendo la utilización de GPU por carga de trabajo de inferencia. Si esta ganancia de eficiencia se propaga a través de la industria (OpenAI, Anthropic adoptan arquitecturas similares), la demanda total de GPU por rack declina incluso cuando el volumen de inferencia explota, presionando el crecimiento de ventas unitarias de NVIDIA. La tasa de attach de software de la empresa (NIM, Triton) puede no compensar el viento en contra de hardware.

Riesgo de trade saturado en shorts de infraestructura de IA: Si la tesis se vuelve consenso (p. ej., múltiples hedge funds shortean márgenes de hiperescaladores o underweight MSFT/GOOGL/AMZN a favor de plays de gobernanza), cualquier sorpresa positiva (defensa de precios de hiperescalador, interrupción de DeepSeek, pausa de gasto de IA empresarial) desencadena un desenrollamiento violento. Este portafolio es solo long, pero los longs de gobernanza (NET, DDOG, ESTC) están correlacionados y podrían venderse juntos si la narrativa cambia.

Portafolio

TickerPesoTargetHorizonte
NET20%$330540d
DDOG15%$340540d
ESTC12%$85450d
MDB15%540d
NVDA18%$260450d
SNOW10%540d
CFLT10%$40450d

Sources

  1. 1.The New StackMicrosoft just made the agent runtime free — and kept everything around it
  2. 2.The New StackAI teams now deploy 1,000 times a month. Your pipeline wasn’t built for that.
  3. 3.The New StackWith Foundry, Microsoft bets the enterprise AI battle is about reliability, not capability
  4. 4.The New StackWhy Anthropic just doubled Claude Cowork limits at no charge
  5. 5.The New StackMicrosoft’s pitch to enterprises: Ditch Azure Repos for GitHub, despite its rocky reliability record
  6. 6.The New StackThis AI agent startup ditched Anthropic for DeepSeek’s — and says it’s saving millions
  7. 7.The New StackAnthropic launches Claude Mythos/Fable 5, but you better try it soon