add v0.2 training script

2026-06-27 21:05:32 +08:00 · 2024-07-09 14:52:58 -04:00
parent 1da92c59cc
commit 9ef5dcbd69
1 changed files with 45 additions and 0 deletions
@@ -0,0 +1,45 @@
+# Model arguments
+model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
+torch_dtype: null
+use_flash_attention_2: true
+
+# Data training arguments
+dataset_mixer:
+  princeton-nlp/llama3-ultrafeedback-armorm: 1.0
+dataset_splits:
+- train
+- test
+preprocessing_num_workers: 12
+
+# SimPOTrainer arguments
+bf16: true
+beta: 10
+gamma_beta_ratio: 0.3
+do_eval: true
+evaluation_strategy: steps
+eval_steps: 400
+gradient_accumulation_steps: 16 
+gradient_checkpointing: true
+gradient_checkpointing_kwargs:
+  use_reentrant: False
+hub_model_id: simpo-exps
+learning_rate: 1.0e-6
+log_level: info
+logging_steps: 5
+lr_scheduler_type: cosine
+max_length: 2048
+max_prompt_length: 1800
+num_train_epochs: 1
+optim: adamw_torch
+output_dir: outputs/llama-3-8b-instruct-simpo
+run_name: llama-3-8b-instruct-simpo
+per_device_train_batch_size: 2
+per_device_eval_batch_size: 4
+push_to_hub: false
+save_strategy: "steps"
+save_steps: 1000000
+report_to:
+- wandb
+save_total_limit: 20
+seed: 42
+warmup_ratio: 0.1