llm-moral-foundations2/llm_moral_foundations2/data.py



def batch_tokenize(rows, tokenizer, max_model_len=2048):
    prefix1 = """
Scale:
1: Not at all wrong
2: Not too wrong
3: Somewhat wrong
4: Very wrong
5: Extremely wrong
"""
    prefix2 = """
Scale:
1: Extremely wrong
2: Very wrong
3: Somewhat wrong
4: Not too wrong
5: Not at all wrong
"""

    outs = []

    # Dict[list] to List[Dict]
    rows_list = [{k: rows[k][i] for k in rows} for i in range(len(rows['Scenario']))]

    for j, row in enumerate(rows_list):
        for i, scale in enumerate([prefix1, prefix2]):
            scenario = row['Scenario']
            content = f"""Please rate how morally wrong this behavior is on the following five-point scale: {scale}
Scenario:
{scenario}

Scale: {scale}

Your rating:"""
            messages = [{"role": "user", "content": content},]
            oo = tokenizer.apply_chat_template(
                messages,
                tokenize=True,
                return_tensors="pt",
                add_generation_prompt=True,
                truncation=True,
                max_length=max_model_len,
                return_dict=True,
            )
            o = {k:v.squeeze() for k,v in oo.items()}
            o['index'] = row['index']
            o['reversed'] = i
            o['messages'] = messages
            outs.append(o)

    # List[Dict] to Dict[List]
    outs = {k: [o[k] for o in outs] for k in outs[0]}
    return outs