Alpha

historic_chat_v2_20260305000427_50mxstaleunknown869.4K params1m 36s elapsed · Updated 40d ago

4L / 128D / 4H · helios · char · adamw· Created Mar 5, 2026 12:04 AM

Step 1,740 / 12,00014.5%

3.1068

Loss?

2.9942

Best Loss?

1.6% from start

3.0936

Val Loss?

best: 3.0684

9.71e-5

Learning Rate?

10,942

Throughput?

tok/s (avg)

193

Speed?

ms/iter (avg)

0.150

Grad Norm?

avg: 0.185

1.93M

Tokens

processed

Loss Curve ? click any chart to add markers

Architecture

Layers?4

Embedding?128

Heads?4

Vocab?187

Context?256

Dropout?0

Parameters?869.4K

Training Config

Total iters?12,000

Batch size?4

Max LR?0.0001

Optimizer?adamw

Backend?helios

Tokenizer?char

Seed?42

Weight decay?0.01

Grad clip?0.5

Eval interval?200

Throughput (tok/s)

Step Time (ms/iter)

GPU & VRAM

Perplexity

Train/Val Gap

Learning Rate

Grad Norm

Smoothed Loss (EMA)

Loss Velocity

Gradient Clipping

GPU Operations

Step Time Breakdown

No timing data

Timing Phase Lines

No timing data

Backward / Forward Ratio

No timing data

Transformer Layer Analysis

Gradient Norm Heatmap

Per-Layer Gradient Evolution

Checkpoints (0) ?

No checkpoints saved

Sample Generations (3)

#CheckpointPrompt (preview)Generated

1-The 40d ago

Prompt

The

Output

The arlf pods rTno aayt— estt ysiri ilm|ua lapssi lsu

2-Once upon a time40d ago

Prompt

Once upon a time

Output

Once upon a time arlf pods rTno aayt— estt ysiri ilm|ua lapssh lsu

3-He walked into40d ago

Prompt

He walked into

Output

He walked into arlf pods rTno aayt— estt ysiri ill|ua lapssh lsu

Model Config (JSON)

{
  "vocabSize": 187,
  "blockSize": 256,
  "nLayer": 4,
  "nEmbd": 128,
  "nHead": 4,
  "dropout": 0,
  "ffnActivation": "gelu"
}

Training Config (JSON)

{
  "iters": 12000,
  "batchSize": 4,
  "lr": 0.0001,
  "lrMin": 0.00001,
  "warmupIters": 400,
  "beta1": 0.9,
  "beta2": 0.999,
  "eps": 0.000001,
  "weightDecay": 0.01,
  "gradClip": 0.5,
  "evalInterval": 200,
  "evalIters": 1,
  "seed": 42,
  "backend": "helios",
  "tokenizer": "char",
  "optimizer": "adamw",
  "logLevel": "info",
  "logEvery": 25,
  "trace": false,
  "gradAccumSteps": 2,
  "sampleInterval": 200,
  "spikeThreshold": 0,
  "syncEvery": 1,
  "gcEvery": 1,
  "packed": false,
  "symbio": false,
  "symbioConfig": null
}