El stack local ya tiene sentido

El stack del desarrollador está a punto de cambiar. No porque la AI se vuelva más potente, sino porque se vuelve más pequeña.

Durante los últimos tres años, la narrativa fue clara: los mejores modelos viven en la nube, los proveedores compiten en calidad, y el precio baja gradualmente. Un buen deal para todos. Pero en las últimas semanas han pasado dos cosas que juntas cambian esa ecuación, y vale la pena prestarles atención.

La ley que nadie menciona

Existe algo que los investigadores llaman la Densing Law: la densidad de capacidad de los modelos dobla aproximadamente cada 3.5 meses. Dicho de otra forma, el modelo que hoy corre en un servidor, en tres meses corre en un portátil, y en seis meses en un teléfono de gama media.

Los números ya lo muestran. Llama 3.3 con 70 mil millones de parámetros tiene hoy un rendimiento prácticamente idéntico al de Llama 3.1 con 405 mil millones, lanzado hace apenas 18 meses. El modelo más grande fue reducido a un sexto de su tamaño sin perder capacidad real. En el mundo del software empresarial, esto equivale a que tu sistema de procesamiento de pedidos pase de necesitar un rack de servidores a correr en un portátil sin cambiar los resultados.

Hace cuatro días, el 2 de abril, Google lanzó Gemma 4. El modelo E4B corre con menos de 6GB de memoria en una laptop convencional. La variante de 26 mil millones de parámetros usa una arquitectura Mixture of Experts que solo activa 3.800 millones de parámetros por inferencia, con rendimiento superior a modelos 20 veces más grandes. Es código abierto bajo licencia Apache 2.0.

El mes pasado Google publicó TurboQuant, un algoritmo de compresión que reduce la memoria de los modelos 6 veces y multiplica la velocidad por 8, con cero pérdida de precisión. Sin ajuste fino, sin cambios en el modelo base.

La dirección es clara: la frontera de lo que corre en hardware personal se mueve más rápido de lo que la mayoría anticipa.

El catalizador que faltaba

La eficiencia de los modelos era condición necesaria pero no suficiente. El otro elemento que faltaba era un motivo lo suficientemente concreto para que los equipos hicieran el cambio.

El 4 de abril, Anthropic bloqueó el acceso de sus suscripciones Pro y Max a herramientas de terceros como OpenClaw. 135.000 usuarios afectados, de la noche a la mañana, con un potencial incremento de costes de hasta 50 veces para algunos perfiles de uso. El creador de OpenClaw lo describió así: “copian las features populares a su harness cerrado, luego cierran el acceso al open source.”

No es un caso aislado. Según Forrester, el 70% de los directores de tecnología citan la impredecibilidad de costes de AI como su principal barrera de adopción en 2026. El 15% de las empresas ya están migrando a despliegues privados.

El problema no es que los precios suban. Es que no controlas cuándo ni cuánto. Un banco que construye su modelo de análisis de crédito sobre una API externa, una cadena de retail que procesa su inventario a través de un modelo en la nube, una aseguradora que automatiza la revisión de siniestros con un proveedor que controla los términos: todos están en la misma posición. Cuando el proveedor cambia las reglas, no tienes plan B.

El hardware que cierra la ecuación

Lo que hacía inviable el modelo local no era la intención, sino el hardware. Eso también está cambiando.

El MacBook Pro con M5 Max y 128GB de memoria unificada corre modelos de 70 mil millones de parámetros a velocidad conversacional, entre 18 y 25 tokens por segundo. El Framework Desktop con Ryzen AI Max+ 395, a 1.999 dólares, corre hasta 120 mil millones de parámetros con 128GB de memoria en un chasis de 4.5 litros. La ASUS ROG Flow Z13 al mismo precio hace lo mismo en formato portátil.

En el extremo más especializado, la NVIDIA DGX Spark (4.699 dólares) ofrece 128GB de memoria unificada entre CPU y GPU con un petaFLOP de capacidad de cómputo, corriendo modelos de hasta 200 mil millones de parámetros. Apunta a desarrolladores individuales.

Para casos de uso más acotados, la opción más barata es reveladora: una Beelink EQR6 por 389 dólares, con 32GB de RAM, corre modelos de 7 mil millones de parámetros de forma continua con un consumo de entre 15 y 25 vatios. Para un equipo de análisis de datos en una empresa mediana, eso ya es suficiente para automatizar buena parte del trabajo rutinario.

Los números

La pregunta práctica es cuándo sale a cuenta.

Con un consumo de 250.000 tokens al día usando Claude Sonnet, un setup local con un equipo de 2.000 dólares llega al punto de equilibrio en aproximadamente 22 meses. Con un millón de tokens diarios, en menos de 5 meses. Para un desarrollador activo o un equipo pequeño que usa AI como parte central de su flujo de trabajo, esos números ya son relevantes hoy.

A volumen alto, la infraestructura local es entre 5 y 20 veces más barata que la nube. La diferencia real no está en el coste por token, está en el coste por sorpresa.

Lo que viene

La nube no va a desaparecer. Los modelos de frontera, los casos que requieren escala masiva o el acceso a capacidades especializadas seguirán siendo territorio de los grandes proveedores.

Pero en 6 a 12 meses, muchos desarrolladores van a tener un stack que se parece más a esto: un modelo local como driver principal del día a día, nube para picos puntuales o casos que realmente lo justifiquen. La razón no es ideológica, es práctica: controlas el modelo, controlas el coste, decides cuándo actualizar y qué datos le pasan al sistema.

El cambio que se viene no es que la AI local sea mejor que la nube. Es que ya es suficientemente buena, y la diferencia de control empieza a pesar más que la diferencia de rendimiento.