always_save_checkpoint: False
arg: --wandb_project=moe_gpt
attempt: moe_gpt
aux_loss_weight: 0.01
axial: False
backend: nccl
base_d_embd: 768
base_d_head: 64
base_d_model: 768
base_ffn_expansion: 1
base_n_head: -1
batch_size: 64
beta1: 0.9
beta2: 0.95
bias: False
block_size: 128
ckpt_path:
cola_flops: 96894976.0
cola_params: 1094820
compile: False
config_file: config/train_open_small.py
d_embd: -1
d_head: 64
d_model: 256
data_dir: /storage/data
dataset: open
decay_lr: False
device: cuda
device_type: cuda
do_qk_ln: True
dropout: 0.0
dtype: bfloat16
emb_params: 57344
eval_interval: 2500
eval_iters: 200
eval_only: False
every_n_fwds: 200
expr:
ffn_expansion: 4
grad_clip: 1.0
gradient_accumulation_steps: 8
head_btt_case_proj: (n|d|n|d)
head_btt_case_qkv: (n|d|n|d)
head_params: 24576
init_lr: 0.003
input_lr_mult: 1.0
key: wandb_project
layers: all_but_last
lm_head_rank_frac: -1.0
lm_head_struct:
lm_head_tt_rank: -1
log_interval: 100
lr_decay_iters: 100000
max_iters: 100000
min_lr: 0.00030000000000000003
n_head: -1
n_layer: 3
neurons: 0
non_emb_flops: 93749248.0
non_emb_params: 1012900
num_active_experts: 2
num_active_ffn_experts: 2
num_blocks: 4
num_experts: 4
num_ffn_experts: 1
opt_name: AdamW
out_dir: /chkpt/btt_norm_moe_para_e4_k2_ffe1k2_all_but_last_l3-dm256-de-1-h-1-dh64-ttr1-234917
rank_frac: 0.2
spec_penalty_weight: 0.0
split_qkv: True
struct: btt_norm_moe_para
timestamp: 2024-05-18_234917
total_tokens: 6017506009
tt_dim: 2
tt_rank: 1
use_head_btt: False
val: moe_gpt
vocab_size: 96
wandb_log: True
wandb_project: moe_gpt
wandb_run_name: btt_norm_moe_para_e4_k2_ffe1k2_all_but_last_l3-dm256-de-1-h-1-dh64-ttr1-234917
warmup_iters: 2000
weight_decay: 0.0
I 2500 | L 1.3559 | P 3.840e+00 | Lt 1.3889 | Pt 3.968e+00 | H 5.3469 | ETA 2.26h
I 5000 | L 1.3033 | P 3.644e+00 | Lt 1.3273 | Pt 3.732e+00 | H 11.5307 | ETA 2.19h
I 7500 | L 1.2868 | P 3.585e+00 | Lt 1.3064 | Pt 3.656e+00 | H 16.4579 | ETA 2.15h
I 10000 | L 1.2712 | P 3.530e+00 | Lt 1.2990 | Pt 3.629e+00 | H 20.8662 | ETA 2.08h
I 12500 | L 1.2604 | P 3.492e+00 | Lt 1.2872 | Pt 3.587e+00 | H 24.1295 | ETA 2.02h
I 15000 | L 1.2564 | P 3.479e+00 | Lt 1.2792 | Pt 3.558e+00 | H 27.3034 | ETA 1.97h
I 17500 | L 1.2511 | P 3.461e+00 | Lt 1.2737 | Pt 3.539e+00 | H 30.8117 | ETA 1.91h
I 20000 | L 1.2431 | P 3.433e+00 | Lt 1.2663 | Pt 3.513e+00 | H 33.7650 | ETA 1.85h
I 22500 | L 1.2445 | P 3.438e+00 | Lt 1.2691 | Pt 3.523e+00 | H 36.8817 | ETA 1.80h
I 25000 | L 1.2421 | P 3.430e+00 | Lt 1.2638 | Pt 3.504e+00 | H 39.3139 | ETA 1.74h
I 27500 | L 1.2390 | P 3.419e+00 | Lt 1.2603 | Pt 3.492e+00 | H 41.1177 | ETA 1.69h
I 30000 | L 1.2315 | P 3.394e+00 | Lt 1.2610 | Pt 3.495e+00 | H 44.2207 | ETA 1.63h
I 32500 | L 1.2357 | P 3.408e+00 | Lt 1.2596 | Pt 3.490e+00 | H 46.2055 | ETA 1.58h
I 35000 | L 1.2315 | P 3.394e+00 | Lt 1.2546 | Pt 3.472e+00 | H 48.6526 | ETA 1.52h
I 37500 | L 1.2276 | P 3.381e+00 | Lt 1.2532 | Pt 3.468e+00 | H 51.4971 | ETA 1.46h
I 40000 | L 1.2300 | P 3.389e+00 | Lt 1.2526 | Pt 3.466e+00 | H 53.4976 | ETA 1.41h
I 42500 | L 1.2284 | P 3.383e+00 | Lt 1.2490 | Pt 3.453e+00 | H 56.0120 | ETA 1.35h
I 45000 | L 1.2271 | P 3.379e+00 | Lt 1.2491 | Pt 3.454e+00 | H 58.1460 | ETA 1.29h
I 47500 | L 1.2234 | P 3.367e+00 | Lt 1.2494 | Pt 3.455e+00 | H 60.5431 | ETA 1.23h
I 50000 | L 1.2261 | P 3.376e+00 | Lt 1.2498 | Pt 3.456e+00 | H 62.3294 | ETA 1.17h
I 52500 | L 1.2265 | P 3.377e+00 | Lt 1.2492 | Pt 3.454e+00 | H 65.0585 | ETA 1.11h
I 55000 | L 1.2279 | P 3.382e+00 | Lt 1.2529 | Pt 3.467e+00 | H 66.6626 | ETA 1.06h
I 57500 | L 1.2230 | P 3.365e+00 | Lt 1.2483 | Pt 3.451e+00 | H 69.2718 | ETA 1.00h
I 60000 | L 1.2202 | P 3.356e+00 | Lt 1.2455 | Pt 3.441e+00 | H 70.5431 | ETA 0.94h
I 62500 | L 1.2211 | P 3.359e+00 | Lt 1.2417 | Pt 3.428e+00 | H 72.8027 | ETA 0.88h
I 65000 | L 1.2248 | P 3.371e+00 | Lt 1.2418 | Pt 3.429e+00 | H 75.2213 | ETA 0.82h
I 67500 | L 1.2203 | P 3.356e+00 | Lt 1.2396 | Pt 3.421e+00 | H 77.8863 | ETA 0.76h
I 70000 | L 1.2266 | P 3.378e+00 | Lt 1.2430 | Pt 3.433e+00 | H 79.8804 | ETA 0.70h
I 72500 | L 1.2214 | P 3.360e+00 | Lt 1.2402 | Pt 3.423e+00 | H 83.2649 | ETA 0.64h
I 75000 | L 1.2238 | P 3.368e+00 | Lt 1.2413 | Pt 3.427e+00 | H 84.4365 | ETA 0.58h
I 77500 | L 1.2183 | P 3.350e+00 | Lt 1.2397 | Pt 3.422e+00 | H 87.7035 | ETA 0.53h
I 80000 | L 1.2193 | P 3.353e+00 | Lt 1.2397 | Pt 3.422e+00 | H 89.8011 | ETA 0.47h
I 82500 | L 1.2164 | P 3.343e+00 | Lt 1.2392 | Pt 3.420e+00 | H 91.9309 | ETA 0.41h
I 85000 | L 1.2163 | P 3.343e+00 | Lt 1.2384 | Pt 3.417e+00 | H 94.2336 | ETA 0.35h
I 87500 | L 1.2145 | P 3.337e+00 | Lt 1.2390 | Pt 3.419e+00 | H 96.1295 | ETA 0.29h
I 90000 | L 1.2147 | P 3.338e+00 | Lt 1.2361 | Pt 3.409e+00 | H 98.3482 | ETA 0.23h
I 92500 | L 1.2138 | P 3.335e+00 | Lt 1.2334 | Pt 3.400e+00 | H 100.9796 | ETA 0.18h
I 95000 | L 1.2080 | P 3.315e+00 | Lt 1.2374 | Pt 3.414e+00 | H 103.3212 | ETA 0.12h
I 97500 | L 1.2142 | P 3.336e+00 | Lt 1.2373 | Pt 3.413e+00 | H 105.7091 | ETA 0.06h
I 100000 | L 1.2135 | P 3.334e+00 | Lt 1.2367 | Pt 3.411e+00 | H 108.5931 | ETA 0.00h
I 100001 | L 1.2135 | P 3.334e+00 | Lt 1.2367 | Pt 3.411e+00
Finished training!
