Arquitectura técnica · v1.0

El motor que funciona sin self-attention.

Crisol abandona la torre de atención del transformer y la reemplaza por álgebra holográfica de alta dimensión combinada con un Mixture-of-Experts geométrico. El contexto se mantiene en un vector de tamaño fijo, no en una matriz cuadrática. El resultado: memoria de coste constante, razonamiento axiomático y un modelo que es un organismo, no una función estática.

Ver la memoria viva Los problemas que resuelve →

4096

dim. holográfica

O(1)

coste de contexto

expertos activos

8192

dim. por experto

El camino de un token, de extremo a extremo.

No hay encoder-atención-decoder. Hay un encoder holográfico, una pila de capas NebulaForge y una proyección final. Cuatro etapas, cero atención cuadrática.

Token

Texto de entrada tokenizado contra un vocabulario de 64.000 entradas.

→

HoloMemZEncoder

Cada token discreto se proyecta a un vector holográfico de holo_dim = 4096 sobre la esfera unitaria, estructurado en subespacios.

→

N × NebulaForgeLayer

12 capas (Mini). Cada capa contiene HoloBinder + QSE + GestorExpertos. Aquí ocurre el razonamiento, sin una sola operación de self-attention.

→

RMSNorm → Logits

Normalización final y proyección al vocabulario. El siguiente token nace de un estado cognitivo, no de una matriz de atención.

Pieza 1 · HoloMemZEncoder

Un espacio holográfico estructurado, no un embedding plano.

El encoder transforma cada token en un vector sobre la esfera unitaria de dimensión holo_dim = 4096. Pero esa esfera no es indiferenciada: está partida en tres regiones funcionales, cada una con un propósito cognitivo distinto.

NAR

2048

Razonamiento axiomático lógico-causal. Es el subespacio donde el QSE enruta y donde viven las firmas de experto.

NOE

2048

Invariantes físico-causales del mundo — 256 invariantes en v1.0. Es el ancla contra la que el motor causal valida lo que afirma.

Libre

—

Conocimiento de dominio entrenado. La capacidad expresiva flexible que cada experto puebla a su manera.

Esta separación entre razonamiento (NAR) y conocimiento del mundo (NOE) es lo que permite enrutar por axiomas y validar por causalidad — sin confundir lo que se cree con lo que se sabe.

Pieza 2 · HoloBinder: el fin del coste cuadrático.

El HoloBinder es la pieza que elimina la atención. En vez de una matriz que crece con el cuadrado de la longitud de secuencia, mantiene un único vector h_ctx de 4096 dimensiones, actualizado token a token por producto Hadamard con decay 0.95.

O(1) frente a O(n²)

El coste del contexto, en vivo

Mueve el control para ver cómo escala el coste de mantener el contexto. La atención del transformer crece con el cuadrado de la longitud de secuencia; el HoloBinder de iCrisol lo mantiene constante.

Longitud de secuencia2048 tokens

51232 768

Transformer (self-attention)

16×

coste / memoria relativos

iCrisol (HoloBinder)

1×

coste / memoria relativos

a 2048 tokens → Transformer 16× · iCrisol 1×

A 32.768 tokens un transformer necesita ~7,5 GB solo de KV-cache, que muere al cerrar la sesión. iCrisol mantiene el estado de contexto en un vector de tamaño fijo (4096): coste CONSTANTE y persistente entre sesiones.

Porque h_ctx es estado del organismo y no inferencia efímera, puede guardarse, restaurarse y heredarse. La conversación no muere al cerrar la pestaña. Cómo persiste la memoria →

Dentro de una NebulaForgeLayer

Cuatro piezas que sustituyen a la atención.

Cada una de las 12 capas del Crisol Mini combina binding holográfico, routing axiomático, gobierno de ranuras y expertos especializados. Esta es la anatomía de una capa.

HoloBinder

Memoria de contexto en O(1)

En lugar de una matriz de atención cuadrática, mantiene un único vector h_ctx que se actualiza token a token mediante producto Hadamard, con decay 0.95. Es estado persistente del organismo, no un caché efímero: sobrevive entre sesiones y se reconstruye desde el HolographicCore de 64 KB.

QSE

Quantum Specialization Engine

El router del Mixture-of-Experts. No aprende una matriz de gating arbitraria: hace routing geométrico por similitud coseno contra las firmas de experto en el subespacio NAR de 2048 dimensiones. Activa exactamente n_activos = 2 expertos por paso. Las firmas son interoperables: un paquete importado encaja en cualquier Crisol del ecosistema.

GestorExpertos

Ranuras tipadas + GobernadorSlots

Los expertos no viven en estructuras anónimas: viven en 5 ranuras universales tipadas (cognitivo, memoria, procedural, importado). El GobernadorSlots es la autoridad que decide qué ranura se activa, con qué permisos y si un experto importado es compatible. Gobierno técnico explícito, auditable y reproducible.

ExpertNetwork

SwiGLU FFN especializado

Cada experto activo es una red feed-forward con activación SwiGLU y dim_experto = 8192. Tres matrices de proyección (gate, value, salida) más normalización suman ~100 M de parámetros por sub-experto físico. La salida vuelve a proyectarse a la esfera unitaria.

Pieza 3 · Entrenamiento

DHTP: cada capa con su propio cerebro local.

Crisol no se entrena con un único optimizador global como un transformer. Usa el Distributed Holographic Training Protocol: N+1 optimizadores AdamW independientes — uno global más uno por capa. En el Crisol Mini, eso son 13 AdamW.

El efecto es aprendizaje local: las capas bajas convergen rápido en sintaxis, las altas despacio en razonamiento abstracto. Y cuando se activa una ranura nueva, nace su optimizador sin perturbar al resto.

AdamW en el Crisol Mini

1+N

global más uno por capa

0.95

decay del HoloBinder

pérdidas combinadas en el DHTP

Pieza 4 · AKF-Z

El bucle cognitivo de seis fases.

Donde un transformer hace forward y backward a ciegas, Crisol ejecuta un ciclo cognitivo. Las fases de percepción, predicción, evaluación y metacognición no existen en ningún transformer: son la capa que convierte un modelo en organismo.

Percepción

NomotheticZ genera un vector de curiosidad que guía el sampling del lote.

Predicción

HistorianZ predice la pérdida esperada antes del forward — la señal de sorpresa del modelo.

Procesamiento

Forward pass: logits, h_ctx final y predicciones DHTP.

Evaluación

Cálculo de pérdidas y de la sorpresa: cuánto se desvió lo real de lo esperado.

Aprendizaje

Backward pass y step de los N+1 optimizadores AdamW. Cada capa aprende a su ritmo.

Metacognición

El ecosistema de agentes Z registra el paso; ArchitectZ decide si reorganizar, InquisitorZ si simular causalmente.

Sigue el hilo

Un motor sin atención necesita una memoria distinta — y resuelve problemas que el transformer no puede.

El HoloBinder es solo el comienzo. La memoria viva persistente y el catálogo de problemas estructurales completan el cuadro.

Explorar la memoria viva Ver los problemas resueltos →