stale

super_chat_20260306212010_pj6r

3.36M parameter super_chat model — bpe-chat-4k tokenizer, 4L/192D/6H

Full run details Open in Chat

Overview

3.36M

Parameters

Final Loss

Best Val Loss

—

Perplexity

Tokens Processed

0.0

Tokens/Param

0 tok/s

Avg Throughput

Training Time

Training Progress0 / 50,000 steps (0.0%)

Dataset & Training

Domainsuper_chat

Tokenizerbpe-chat-4k

Total Iterations50,000

Batch Size12

Context Length256 tokens

Tokens per Batch3,072

Dataset Passes~0

Effective Tokens0

Training Metrics

No metrics recorded yet.

Model Architecture

Model Configuration

ArchitectureGPT (decoder-only transformer)

Parameters3.36M

Layers4

Embedding Dim192

Attention Heads6

Head Dim32

FFN Dim768

FFN Activationgelu

Vocab Size4,000

Context Length256 tokens

Dropout0

Training Configuration

Optimizeradamw

Learning Rate0.001

LR Min0.0001

LR ScheduleCosine decay

Warmup Steps500

Batch Size12

Grad Accum Steps2

Effective Batch24

Grad Clip1

Weight Decay0.1

Backendhelios

Tokenizerbpe-chat-4k

Seed42

Layer Structure

Token Embed

4,000×192

Pos Embed

256×192

Block 0

Attn+FFN

Block 1

Attn+FFN

Block 2

Attn+FFN

Block 3

Attn+FFN

LayerNorm

192

LM Head

192×4,000

Generated Samples

No samples generated yet. Samples appear at configured intervals during training.

Checkpoints

No checkpoints saved yet.

Chat with Model

Send a message to chat with this model

Generated Invalid Date Invalid Date — Alpha Training SystemConfig hash: