La revolución silenciosa de los modelos de lenguaje pequeños

Desde que la primera ola de modelos de lenguaje grandes irrumpió en la conciencia pública, en silencio he estado más interesado en sus hermanos pequeños. Los modelos insignia — Opus, Grok, GPT — siempre me han recordado a ImageNet en su apogeo: enormes, costosos y espectaculares, pero en última instancia un hito de investigación que el campo aprendería a comprimir, destilar y miniaturizar. ImageNet eventualmente nos dio modelos que corrían en una Raspberry Pi. He estado esperando el momento equivalente en el modelado de lenguaje.

Ese momento, para mí, llegó con Bonsai de Caltech.

Lo que hace interesante a Bonsai

Estoy escribiendo un artículo más extenso y técnico sobre lo que Bonsai realmente hace por debajo del capó — en particular su esquema de codificación de 1 bit, que mi instalación actual de MLX todavía se niega a ejecutar. Pero incluso dejando de lado la arquitectura más profunda, el titular es simple: la huella del modelo es insignificante en una MacBook Pro. El tipo de huella que te hace detenerte y reconsiderar qué significa "despliegue". El tipo de huella que, con un poco más de compresión, cabe cómodamente en un iPhone.

Esa es la parte que debería hacer que la gente preste atención. No los benchmarks. La huella.

Ejecutándolo

Si quieres probarlo tú mismo, el punto de entrada es casi vergonzosamente pequeño:

from mlx_lm import load, generate

model, tokenizer = load("prism-ml/Ternary-Bonsai-8B-mlx-2bit")

response = generate(
    model,
    tokenizer,
    prompt="Explain quantum computing in simple terms.",
)
print(response)

Eso es todo. Sin clúster, sin clave de API, sin límites de tasa, sin factura por token acumulándose silenciosamente en segundo plano.

Dónde esto realmente importa

Dirijo una empresa de datos e IA, y en el momento en que empecé a tocar conjuntos de datos reales — del tipo de 100 terabytes — la economía de la IA generativa basada en modelos de frontera se vino abajo casi inmediatamente. Recuerdo haber cotizado un proyecto que implicaba consultar aproximadamente 100,000 centros de llamadas a través de un LLM alojado en la nube. La conversación sobre el costo dejó de ser una nota al pie y se convirtió en el proyecto entero.

Ahora imagina una forma diferente de ese mismo problema. Una MacBook Pro, o una Mac Studio, ejecutando más de cincuenta hilos de un modelo de la clase Bonsai en paralelo, sin un cambio significativo en el consumo de energía y sin factura por llamada. De repente, las cargas de trabajo que eran "imposibles con IA generativa" se convierten en una tarea de un martes por la tarde. El cuello de botella deja de ser tu factura de AWS y empieza a ser tu imaginación.

Esta es la parte de la historia que creo que se pierde cuando la gente discute si los modelos pequeños pueden igualar a los de frontera en los benchmarks. No tienen que hacerlo. Tienen que ser lo suficientemente buenos como para hacer trabajo útil con una estructura de costos que te permita realmente desplegarlos a través de millones de decisiones.

Lo que estoy observando a continuación

Algunas preguntas a las que les estoy dando vueltas mientras sigo explorando este modelo:

¿Cuánto más podemos comprimirlo? Bonsai ya es pequeño, pero la destilación y el ajuste fino con LoRA / QLoRA abren la puerta a versiones específicas para tareas que podrían ser aún más pequeñas — y significativamente mejores en aquello concreto que realmente te importa.

¿Dónde empieza a importar la inferencia de este tipo más allá del texto? Una vez que tienes un modelo tan barato de ejecutar, puedes empezar a poner capacidad de razonamiento real dentro de sistemas que antes tenían que conformarse con heurísticas codificadas a mano. Decisiones de trayectoria para drones. Lógica de guiado terminal para proyectiles o misiles. Dispositivos médicos en el borde. La clase de cosas en las que no puedes permitirte un viaje de ida y vuelta a una GPU en la nube, y donde unos pocos puntos extra de inteligencia dentro del bucle cambian por completo el carácter del sistema.

Aún no tengo respuestas a nada de esto. Pero estoy cada vez más convencido de que la frontera interesante en el modelado de lenguaje para los próximos años no está en la cima de la curva de parámetros — está en la base. La MacBook Pro ejecutando cincuenta hilos de Bonsai en segundo plano es, sospecho, una vista previa mucho más fiel de hacia dónde se dirige todo esto que el próximo lanzamiento de un modelo con un billón de parámetros que acapare titulares.

Más sobre las entrañas técnicas pronto.

Publicado originalmente en Substack

Leer en Substack →

La revolución silenciosa de los modelos de lenguaje pequeños: por qué Bonsai captó mi atención

Lo que hace interesante a Bonsai

Ejecutándolo

Dónde esto realmente importa

Lo que estoy observando a continuación