always_save_checkpoint: False
arg: --wandb_project=moe_gpt
attempt: moe_gpt
aux_loss_weight: 0.01
axial: False
backend: nccl
base_d_embd: 768
base_d_head: 64
base_d_model: 768
base_ffn_expansion: 1
base_n_head: -1
batch_size: 64
beta1: 0.9
beta2: 0.95
bias: False
block_size: 128
ckpt_path:
cola_flops: 280838144
cola_params: 3585408
compile: False
config_file: config/train_open_small.py
d_embd: -1
d_head: 64
d_model: 128
data_dir: /storage/data
dataset: open
decay_lr: False
device: cuda
device_type: cuda
do_qk_ln: True
dropout: 0.0
dtype: bfloat16
emb_params: 28672
eval_interval: 2500
eval_iters: 200
eval_only: False
every_n_fwds: 200
expr:
ffn_expansion: 4
grad_clip: 1.0
gradient_accumulation_steps: 8
head_btt_case_proj: (n|d|n|d)
head_btt_case_qkv: (n|d|n|d)
head_params: 12288
init_lr: 0.003
input_lr_mult: 1.0
key: wandb_project
layers: all_but_last
lm_head_rank_frac: -1.0
lm_head_struct:
lm_head_tt_rank: -1
log_interval: 100
lr_decay_iters: 100000
max_iters: 100000
min_lr: 0.00030000000000000003
n_head: -1
n_layer: 6
neurons: 0
non_emb_flops: 279265280
non_emb_params: 3544448
num_active_experts: 2
num_active_ffn_experts: 2
num_blocks: 4
num_experts: 0
num_ffn_experts: 4
opt_name: AdamW
out_dir: /chkpt/dense_e0_k2_ffe4k2_all_but_last_l6-dm128-de-1-h-1-dh64-ttr1-173051
rank_frac: 0.2
spec_penalty_weight: 0.0
split_qkv: True
struct: dense
timestamp: 2024-05-18_173051
total_tokens: 6017506009
tt_dim: 2
tt_rank: 1
use_head_btt: False
val: moe_gpt
vocab_size: 96
wandb_log: True
wandb_project: moe_gpt
wandb_run_name: dense_e0_k2_ffe4k2_all_but_last_l6-dm128-de-1-h-1-dh64-ttr1-173051
warmup_iters: 2000
weight_decay: 0.0
I 2500 | L 1.2991 | P 3.629e+00 | Lt 1.3181 | Pt 3.698e+00 | H 46.5527 | ETA 2.87h
I 5000 | L 1.2338 | P 3.401e+00 | Lt 1.2540 | Pt 3.470e+00 | H 164.7038 | ETA 2.78h
I 7500 | L 1.2085 | P 3.317e+00 | Lt 1.2307 | Pt 3.391e+00 | H 270.5817 | ETA 2.72h
I 10000 | L 1.1935 | P 3.268e+00 | Lt 1.2077 | Pt 3.315e+00 | H 368.8671 | ETA 2.66h
I 12500 | L 1.1840 | P 3.237e+00 | Lt 1.2042 | Pt 3.303e+00 | H 460.3509 | ETA 2.58h
I 15000 | L 1.1791 | P 3.222e+00 | Lt 1.1956 | Pt 3.275e+00 | H 539.2484 | ETA 2.53h
I 17500 | L 1.1725 | P 3.201e+00 | Lt 1.1941 | Pt 3.270e+00 | H 636.1137 | ETA 2.46h
I 20000 | L 1.1694 | P 3.191e+00 | Lt 1.1866 | Pt 3.246e+00 | H 721.2041 | ETA 2.39h
I 22500 | L 1.1634 | P 3.172e+00 | Lt 1.1833 | Pt 3.235e+00 | H 799.1867 | ETA 2.32h
I 25000 | L 1.1613 | P 3.165e+00 | Lt 1.1798 | Pt 3.224e+00 | H 898.1425 | ETA 2.25h
I 27500 | L 1.1563 | P 3.150e+00 | Lt 1.1737 | Pt 3.205e+00 | H 975.6841 | ETA 2.17h
I 30000 | L 1.1541 | P 3.143e+00 | Lt 1.1747 | Pt 3.208e+00 | H 1054.3844 | ETA 2.10h
I 32500 | L 1.1530 | P 3.140e+00 | Lt 1.1738 | Pt 3.205e+00 | H 1149.3884 | ETA 2.02h
I 35000 | L 1.1485 | P 3.126e+00 | Lt 1.1700 | Pt 3.193e+00 | H 1236.5198 | ETA 1.95h
I 37500 | L 1.1479 | P 3.124e+00 | Lt 1.1656 | Pt 3.179e+00 | H 1323.1255 | ETA 1.88h
I 40000 | L 1.1447 | P 3.114e+00 | Lt 1.1632 | Pt 3.171e+00 | H 1420.7828 | ETA 1.80h
I 42500 | L 1.1461 | P 3.118e+00 | Lt 1.1653 | Pt 3.178e+00 | H 1510.7239 | ETA 1.73h
I 45000 | L 1.1428 | P 3.108e+00 | Lt 1.1623 | Pt 3.169e+00 | H 1592.5026 | ETA 1.65h
I 47500 | L 1.1393 | P 3.097e+00 | Lt 1.1595 | Pt 3.160e+00 | H 1702.5023 | ETA 1.58h
I 50000 | L 1.1371 | P 3.090e+00 | Lt 1.1602 | Pt 3.162e+00 | H 1784.8339 | ETA 1.51h
I 52500 | L 1.1345 | P 3.082e+00 | Lt 1.1568 | Pt 3.151e+00 | H 1890.9060 | ETA 1.44h
I 55000 | L 1.1363 | P 3.088e+00 | Lt 1.1541 | Pt 3.143e+00 | H 2000.3421 | ETA 1.36h
I 57500 | L 1.1363 | P 3.088e+00 | Lt 1.1568 | Pt 3.151e+00 | H 2092.6464 | ETA 1.29h
I 60000 | L 1.1359 | P 3.087e+00 | Lt 1.1516 | Pt 3.135e+00 | H 2196.4607 | ETA 1.21h
I 62500 | L 1.1329 | P 3.078e+00 | Lt 1.1551 | Pt 3.146e+00 | H 2305.1012 | ETA 1.14h
I 65000 | L 1.1365 | P 3.089e+00 | Lt 1.1493 | Pt 3.128e+00 | H 2401.0296 | ETA 1.06h
I 67500 | L 1.1327 | P 3.077e+00 | Lt 1.1501 | Pt 3.130e+00 | H 2525.3803 | ETA 0.99h
I 70000 | L 1.1296 | P 3.068e+00 | Lt 1.1543 | Pt 3.144e+00 | H 2637.1245 | ETA 0.91h
I 72500 | L 1.1289 | P 3.065e+00 | Lt 1.1477 | Pt 3.123e+00 | H 2732.0884 | ETA 0.83h
I 75000 | L 1.1297 | P 3.068e+00 | Lt 1.1526 | Pt 3.138e+00 | H 2833.6764 | ETA 0.76h
I 77500 | L 1.1321 | P 3.075e+00 | Lt 1.1467 | Pt 3.120e+00 | H 2922.2261 | ETA 0.68h
I 80000 | L 1.1304 | P 3.070e+00 | Lt 1.1449 | Pt 3.115e+00 | H 3058.2217 | ETA 0.61h
I 82500 | L 1.1240 | P 3.050e+00 | Lt 1.1461 | Pt 3.118e+00 | H 3184.2983 | ETA 0.53h
I 85000 | L 1.1304 | P 3.070e+00 | Lt 1.1496 | Pt 3.129e+00 | H 3289.0259 | ETA 0.45h
I 87500 | L 1.1292 | P 3.066e+00 | Lt 1.1424 | Pt 3.107e+00 | H 3401.0151 | ETA 0.38h
I 90000 | L 1.1261 | P 3.057e+00 | Lt 1.1482 | Pt 3.125e+00 | H 3499.1516 | ETA 0.30h
I 92500 | L 1.1248 | P 3.053e+00 | Lt 1.1445 | Pt 3.113e+00 | H 3642.8715 | ETA 0.23h
I 95000 | L 1.1243 | P 3.052e+00 | Lt 1.1453 | Pt 3.116e+00 | H 3730.9053 | ETA 0.15h
I 97500 | L 1.1269 | P 3.059e+00 | Lt 1.1462 | Pt 3.118e+00 | H 3884.3624 | ETA 0.08h
I 100000 | L 1.1234 | P 3.049e+00 | Lt 1.1447 | Pt 3.114e+00 | H 3992.0105 | ETA 0.00h
I 100001 | L 1.1234 | P 3.049e+00 | Lt 1.1447 | Pt 3.114e+00
Finished training!
