El hito · La Forja
Entrenamiento completadoLa Forja.
El primer iCrisol Mini se ha entrenado desde cero. Sin un clúster de miles de GPUs, sin billones de tokens, sin un ejército de investigadores. Una persona, una máquina, 24 horas y diez céntimos de luz. Este es el registro abierto y honesto de ese hito — y de lo que significa que, con tan poco, un organismo cognitivo haya llegado a respirar.
La magnitud está en la desproporción.
Los grandes modelos nacen de presupuestos de cientos de millones. iCrisol nace de la restricción — y la convierte en tesis: si esto se sostiene con tan poco, el paradigma importa.
Diseño, arquitectura, corpus, entrenamiento y producto — un único desarrollador.
vs Cientos de investigadores en los grandes laboratorios.
Una NVIDIA DGX Spark GB10 (128 GB de memoria unificada).
vs Decenas de miles de GPUs en clústeres dedicados.
Apenas el 0,87 % de una época sobre un corpus de 18,83 B tokens.
vs Billones de tokens y épocas completas.
Un único run desde cero, 5 000 pasos, en hardware de sobremesa.
vs Meses de cómputo masivo en paralelo.
51,8 W de media · 1,27 kWh · a 0,08 €/kWh.
vs Facturas eléctricas del tamaño de una ciudad.
El entrenamiento, en datos.
La curva de pérdida real y la perplejidad alcanzada — del azar al modelo. Con su vaivén y todo: así aprende un organismo desde cero.
✓ Datos reales · run forja_mini_5000 · 5 000 pasos · 24,4 h · 2026
Curva de pérdida (cross-entropy)
CE a lo largo del entrenamiento — con su vaivén real, sin retoques
Perplejidad: del azar al modelo
Menor es mejor · escala logarítmica
El razonamiento despierta solo
Geometría NAR (baja = se alinea) · Confianza causal CAG (sube)
El abismo de los datos
Tokens de entrenamiento — escala logarítmica
Lo asombroso no es lo que sabe. Es lo poco con lo que lo aprendió.
Cada experto de Crisol pesa ~105 millones de parámetros — el tamaño de un GPT-2. Para un modelo así, la teoría (la ley de Chinchilla) pide unos 42.600 millones de tokens; la industria entrena modelos de ese tamaño con cientos de miles de millones, incluso billones. El primer Crisol vio 164 millones. Menos del 1 % de una sola pasada por su biblioteca. Y aun así, respira.
El tamaño de un GPT-2 (124 M). Crisol tiene 12, uno por capa — y el conocimiento va destilado en cada uno, no diluido en un coloso.
La ley de Chinchilla recomienda ~42,6 B tokens para 2,13 B parámetros. El modelo vio 164 M: el 0,38 %.
Un modelo del tamaño de un experto (≈125 M) se entrena hoy con cientos de miles de millones de tokens. El nuestro, con 164 M — entre 600 y 1.800 veces menos.
* Modelos abiertos de tamaño comparable (2-3 B de parámetros) se entrenan hoy con entre 2 y 18 billones de tokens. La barra «Industria» del gráfico usa una cifra conservadora (2 B).
Ficha técnica del run
Configuración de la Forja.
Por qué este hito importa
Si un organismo cognitivo soberano puede nacer con esto, deja de ser una promesa de laboratorio y pasa a ser una posibilidad real.
El primer iCrisol no compite en escala. Demuestra que el paradigma — memoria viva, causalidad, soberanía, modularidad — funciona desde el primer ladrillo. Lo demás es crecer.
Leer el manifiesto