fix on-policy data order

2026-06-27 16:43:59 +08:00 · 2024-08-22 16:06:04 -04:00
parent 54545e803b
commit 2dcc4350f8
1 changed files with 1 additions and 1 deletions
@@ -30,7 +30,7 @@ tokenizer = llm.get_tokenizer()
 train_dataset= load_dataset(data_dir, split='train_prefs')
-prompts = list(set(train_dataset['prompt']))
+prompts = sorted(list(set(train_dataset['prompt'])))
 conversations = [tokenizer.apply_chat_template([{'role': 'user', 'content': prompt}], tokenize=False, add_generation_prompt=True) for prompt in prompts]