Saltar al contenido
iCrisol

El hito · La Forja

Entrenamiento completado

La Forja.

El primer iCrisol Mini se ha entrenado desde cero. Sin un clúster de miles de GPUs, sin billones de tokens, sin un ejército de investigadores. Una persona, una máquina, 24 horas y diez céntimos de luz. Este es el registro abierto y honesto de ese hito — y de lo que significa que, con tan poco, un organismo cognitivo haya llegado a respirar.

La magnitud está en la desproporción.

Los grandes modelos nacen de presupuestos de cientos de millones. iCrisol nace de la restricción — y la convierte en tesis: si esto se sostiene con tan poco, el paradigma importa.

1
una sola persona

Diseño, arquitectura, corpus, entrenamiento y producto — un único desarrollador.

vs Cientos de investigadores en los grandes laboratorios.

1
una sola máquina

Una NVIDIA DGX Spark GB10 (128 GB de memoria unificada).

vs Decenas de miles de GPUs en clústeres dedicados.

164 M
tokens vistos

Apenas el 0,87 % de una época sobre un corpus de 18,83 B tokens.

vs Billones de tokens y épocas completas.

24 h
de entrenamiento

Un único run desde cero, 5 000 pasos, en hardware de sobremesa.

vs Meses de cómputo masivo en paralelo.

0,10 €
de electricidad

51,8 W de media · 1,27 kWh · a 0,08 €/kWh.

vs Facturas eléctricas del tamaño de una ciudad.

El entrenamiento, en datos.

La curva de pérdida real y la perplejidad alcanzada — del azar al modelo. Con su vaivén y todo: así aprende un organismo desde cero.

✓ Datos reales · run forja_mini_5000 · 5 000 pasos · 24,4 h · 2026

Curva de pérdida (cross-entropy)

CE a lo largo del entrenamiento — con su vaivén real, sin retoques

Perplejidad: del azar al modelo

Menor es mejor · escala logarítmica

El razonamiento despierta solo

Geometría NAR (baja = se alinea) · Confianza causal CAG (sube)

El abismo de los datos

Tokens de entrenamiento — escala logarítmica

Lo asombroso no es lo que sabe. Es lo poco con lo que lo aprendió.

Cada experto de Crisol pesa ~105 millones de parámetros — el tamaño de un GPT-2. Para un modelo así, la teoría (la ley de Chinchilla) pide unos 42.600 millones de tokens; la industria entrena modelos de ese tamaño con cientos de miles de millones, incluso billones. El primer Crisol vio 164 millones. Menos del 1 % de una sola pasada por su biblioteca. Y aun así, respira.

105 M
parámetros por experto

El tamaño de un GPT-2 (124 M). Crisol tiene 12, uno por capa — y el conocimiento va destilado en cada uno, no diluido en un coloso.

1 / 260
de lo que pedía la teoría

La ley de Chinchilla recomienda ~42,6 B tokens para 2,13 B parámetros. El modelo vio 164 M: el 0,38 %.

100–300 B
tokens usa la industria

Un modelo del tamaño de un experto (≈125 M) se entrena hoy con cientos de miles de millones de tokens. El nuestro, con 164 M — entre 600 y 1.800 veces menos.

* Modelos abiertos de tamaño comparable (2-3 B de parámetros) se entrenan hoy con entre 2 y 18 billones de tokens. La barra «Industria» del gráfico usa una cifra conservadora (2 B).

Ficha técnica del run

Configuración de la Forja.

Parámetros ~2,13 B (1 experto por capa)
Arquitectura 12 capas · 5 ranuras universales · 1 activo
Espacio holográfico holo 4096 · NAR 2048 · NOE 2048
Experto (SwiGLU) dim 8192 · 1 por capa
Pasos 5 000 · desde cero
Contexto seq_len 1024 · batch efectivo 32
Tasa de aprendizaje 1e-4 → 5e-6 · warmup 100 · coseno
Vocabulario 64 000 (BPE multilingüe)
Precisión bfloat16
Hardware DGX Spark GB10 (ARM64, 128 GB)
Tokens vistos 163,84 M · 0,0087 épocas
Tiempo de forja 24,4 h · 51,8 W medios
Coste eléctrico ~0,10 € (1,27 kWh a 0,08 €/kWh)
Mejor / final CE 3,528 (PPL ~34) / 7,43 — con vaivén, sin retoques

Por qué este hito importa

Si un organismo cognitivo soberano puede nacer con esto, deja de ser una promesa de laboratorio y pasa a ser una posibilidad real.

El primer iCrisol no compite en escala. Demuestra que el paradigma — memoria viva, causalidad, soberanía, modularidad — funciona desde el primer ladrillo. Lo demás es crecer.

Leer el manifiesto