Alpha

20260225005305_rdt7completedunknown425.3K params1m 27s elapsed · Updated 36d ago

2L / 64D / 2H · cpu_ref · bpe · adamw· Created Feb 25, 2026 12:55 AM

Step 200 / 200100.0%

5.4597

Loss?

5.2026

Best Loss?

-28.3% from start

5.3722

Val Loss?

best: 5.3722

3.00e-5

Learning Rate?

300

Throughput?

tok/s (avg)

427

Speed?

ms/iter (avg)

0.994

Grad Norm?

avg: 1.046

25.6K

Tokens

processed

138ms

Forward

32% of step

267ms

Backward

62% of step

0ms

GPU Sync

0% of step

GPU Ops

per step

0.0%

MFU

model FLOPS util

1.9x

Bwd/Fwd

ratio

Loss Curve ? click any chart to add markers

Architecture

Layers?2

Embedding?64

Heads?2

Vocab?2,000

Context?64

Dropout?0.1

Parameters?425.3K

Training Config

Total iters?200

Batch size?2

Max LR?0.0003

Optimizer?adamw

Backend?cpu_ref

Tokenizer?bpe

Seed?42

Weight decay?0.1

Grad clip?1

Eval interval?50

Throughput (tok/s)

Step Time (ms/iter)

GPU & VRAM

No GPU data

Perplexity

Train/Val Gap

Learning Rate

Grad Norm

Smoothed Loss (EMA)

Loss Velocity

Gradient Clipping

No clipping data

GPU Operations

No GPU ops data

Step Time Breakdown

Forward

Backward

Grad Norm

Optimizer

GPU Sync

Data

Timing Phase Lines

Backward / Forward Ratio

Checkpoints (1) ?

StepFilenameSizeCreated

200checkpoint-200.json1.5 MB47d ago

Sample Generations (5)

#CheckpointPrompt (preview)Generated

1-The 48d ago

Prompt

The

Output

2-Once upon a time48d ago

Prompt

Once upon a time

Output

Once upon a timeue lytororin csto aeneklorsafconua hct eneba m yale enkyon cbassistant|> rt ,

3-He walked into48d ago

Prompt

He walked into

Output

4-In the beginning 48d ago

Prompt

In the beginning

Output

5-We the People of 48d ago

Prompt

We the People of

Output

Model Config (JSON)

{
  "vocabSize": 2000,
  "blockSize": 64,
  "nLayer": 2,
  "nEmbd": 64,
  "nHead": 2,
  "dropout": 0.1
}

Training Config (JSON)

{
  "iters": 200,
  "batchSize": 2,
  "lr": 0.0003,
  "lrMin": 0,
  "warmupIters": 0,
  "beta1": 0.9,
  "beta2": 0.95,
  "eps": 1e-8,
  "weightDecay": 0.1,
  "gradClip": 1,
  "evalInterval": 50,
  "evalIters": 10,
  "seed": 42,
  "backend": "cpu_ref",
  "tokenizer": "bpe",
  "optimizer": "adamw",
  "logLevel": "info",
  "trace": false,
  "gradAccumSteps": 1,
  "sampleInterval": 100,
  "spikeThreshold": 0
}