Alpha

super_chat_20260305150148_iz8fcompletedsuper_chat1.86M params5m 21s elapsed · Updated 36d ago

4L / 128D / 4H · helios · bpe · adamw· Created Mar 5, 2026 3:06 PM

Step 12,000 / 12,000100.0%

4.7570

Loss?

4.6369

Best Loss?

0.1% from start

4.7255

Val Loss?

best: 4.7002

3.00e-7

Learning Rate?

44,787

Throughput?

tok/s (avg)

Speed?

ms/iter (avg)

0.000

Grad Norm?

avg: 0.000

14.75M

Tokens

processed

Loss Curve ? click any chart to add markers

Architecture

Layers?4

Embedding?128

Heads?4

Vocab?2,000

Context?256

Dropout?0

Parameters?1.86M

Training Config

Total iters?12,000

Batch size?8

Max LR?0.000003

Optimizer?adamw

Backend?helios

Tokenizer?bpe

Seed?42

Weight decay?0.01

Grad clip?0

Eval interval?200

Throughput (tok/s)

Step Time (ms/iter)

GPU & VRAM

Perplexity

Train/Val Gap

Learning Rate

Grad Norm

Smoothed Loss (EMA)

Loss Velocity

Gradient Clipping

GPU Operations

Step Time Breakdown

No timing data

Timing Phase Lines

No timing data

Backward / Forward Ratio

No timing data

Checkpoints (1) ?

StepFilenameSizeCreated

12,000checkpoint-12000.json6.6 MB39d ago

Sample Generations (5)

#CheckpointPrompt (preview)Generated

1-<|user|> Hello, how are you? <|assistant|>39d ago

Prompt

<|user|> Hello, how are you? <|assistant|>

Output

<|user|> Hello, how are you? <|assistant|> fs tobt e ithas eye eeere, is aoinon, breensersesuuis lefatgerouy sbtoure

2-<|user|> What do you like to do for fun? <|assistant|>39d ago

Prompt

<|user|> What do you like to do for fun? <|assistant|>

Output

<|user|> What do you like to do for fun? <|assistant|> fs tobt t istas eyt efereonis aoston, breousersesuurealfatgery ensbty al

3-<|user|> Tell me about yourself. <|assistant|>39d ago

Prompt

<|user|> Tell me about yourself. <|assistant|>

Output

<|user|> Tell me about yourself. <|assistant|> fs toaere iinas ewt eefre, of aoin, , breousersesuvis tifatgery ensbtouti

4-In the beginning 39d ago

Prompt

In the beginning

Output

In the beginning acmsouthe iy e acereinanouoaras sriyedy ay nnd pmon st , ew oarwbere rfa, 》tgonvere𒊩 onu , arlireeassary pe k hndaand ewtンsis altlicdtwy t g,

5-We the People of 39d ago

Prompt

We the People of

Output

We the People of dithl, ateis gd paodes ud aϱmte et anousaonane🇼t, cmodweraoregeἀhthe e𓅴aer ot the ielinre t cＯedlocweerbps dw亂alre<|user|> hltcebeᴅdes pptthl

Model Config (JSON)

{
  "vocabSize": 2000,
  "blockSize": 256,
  "nLayer": 4,
  "nEmbd": 128,
  "nHead": 4,
  "dropout": 0,
  "ffnActivation": "gelu"
}

Training Config (JSON)

{
  "iters": 12000,
  "batchSize": 8,
  "lr": 0.000003,
  "lrMin": 3e-7,
  "warmupIters": 10,
  "beta1": 0.9,
  "beta2": 0.95,
  "eps": 1e-8,
  "weightDecay": 0.01,
  "gradClip": 0,
  "evalInterval": 200,
  "evalIters": 10,
  "seed": 42,
  "backend": "helios",
  "tokenizer": "bpe",
  "optimizer": "adamw",
  "logLevel": "info",
  "logEvery": 25,
  "trace": false,
  "gradAccumSteps": 2,
  "sampleInterval": 200,
  "spikeThreshold": 0,
  "syncEvery": 1,
  "gcEvery": 1,
  "packed": true,
  "symbio": false,
  "symbioConfig": null
}