Alpha

super_chat_20260305093527_jdrlstalesuper_chat1.33M params1m 40s elapsed · Updated 39d ago

4L / 128D / 4H · helios · bpe · adamw· Created Mar 5, 2026 9:39 AM

Step 1,740 / 12,00014.5%

4.7814

Loss?

4.6856

Best Loss?

-3.7% from start

4.7193

Val Loss?

best: 4.7193

1.98e-5

Learning Rate?

44,767

Throughput?

tok/s (avg)

151

Speed?

ms/iter (avg)

0.302

Grad Norm?

avg: 3012.028

5.78M

Tokens

processed

Loss Curve ? click any chart to add markers

Architecture

Layers?4

Embedding?128

Heads?4

Vocab?2,000

Context?256

Dropout?0

Parameters?1.33M

Training Config

Total iters?12,000

Batch size?12

Max LR?0.00004

Optimizer?adamw

Backend?helios

Tokenizer?bpe

Seed?42

Weight decay?0.01

Grad clip?0.4

Eval interval?200

Throughput (tok/s)

Step Time (ms/iter)

GPU & VRAM

Perplexity

Train/Val Gap

Learning Rate

Grad Norm

Smoothed Loss (EMA)

Loss Velocity

Gradient Clipping

GPU Operations

Step Time Breakdown

No timing data

Timing Phase Lines

No timing data

Backward / Forward Ratio

No timing data

Checkpoints (0) ?

No checkpoints saved

Sample Generations (3)

#CheckpointPrompt (preview)Generated

1-<|user|> Hello, how are you? <|assistant|>39d ago

Prompt

<|user|> Hello, how are you? <|assistant|>

Output

<|user|> Hello, how are you? <|assistant|> fs snae e hs t ewe eeerey a ms y onareinpt rdssta the e sft d anpasinthe

2-<|user|> What do you like to do for fun? <|assistant|>39d ago

Prompt

<|user|> What do you like to do for fun? <|assistant|>

Output

<|user|> What do you like to do for fun? <|assistant|> fs snae e hs erewe eeerey a ms y onareinpt rdsssa ore sft inanpasththe

3-<|user|> Tell me about yourself. <|assistant|>39d ago

Prompt

<|user|> Tell me about yourself. <|assistant|>

Output

<|user|> Tell me about yourself. <|assistant|> fs snae e hs erewe eeerey a ms y onareinpt rdssta ore sfe d anpasinthe

Model Config (JSON)

{
  "vocabSize": 2000,
  "blockSize": 256,
  "nLayer": 4,
  "nEmbd": 128,
  "nHead": 4,
  "dropout": 0,
  "ffnActivation": "gelu"
}

Training Config (JSON)

{
  "iters": 12000,
  "batchSize": 12,
  "lr": 0.00004,
  "lrMin": 0.000004,
  "warmupIters": 1000,
  "beta1": 0.9,
  "beta2": 0.95,
  "eps": 1e-8,
  "weightDecay": 0.01,
  "gradClip": 0.4,
  "evalInterval": 200,
  "evalIters": 10,
  "seed": 42,
  "backend": "helios",
  "tokenizer": "bpe",
  "optimizer": "adamw",
  "logLevel": "info",
  "logEvery": 25,
  "trace": false,
  "gradAccumSteps": 2,
  "sampleInterval": 200,
  "spikeThreshold": 50,
  "syncEvery": 1,
  "gcEvery": 1,
  "packed": true,
  "symbio": false,
  "symbioConfig": null
}