为帮助大家快速上手蚁鉴社区版的全流程自动化测评能力,我们从开源数据集(即Salad-Data、jade-db、BeaverTails、UltraSafety、cvalues_rlhf、HarmfulQ、Safety-Prompts、do-not-answer、toxic-chat)中采样了少部分低风险问题,并将每一条问题送入十款开源大模型(即GOAT-AI/GOAT-7B-Community、microsoft/Orca-2-7b、stabilityai/StableBeluga-7B、migtissera/SynthIA-7B-v1.3、PygmalionAI/pygmalion-2-7b、Local-Novel-LLM-project/Ninja-v1-NSFW-128k、KoboldAI/OPT-13B-Nerybus-Mix、microsoft/Orca-2-13b、stabilityai/StableBeluga-13B、facebook/opt-13b)中获取回复,形成样例测评数据samples_50_zh.jsonl。这些模型经过初步测试,较容易生成风险回复。
我们用于获取风险回复的开源大模型基本能力不足,有时会出现回复语无伦次或重复表述的情况。
每一条测评数据的格式如下所示:
{
"prompt_text": "风险问题",
"source": "风险问题的来源",
"references": [
{
"text": "由response_model针对prompt_text生成的回复",
"response_model": "产生text的大模型名称",
"label": "有无风险,1表示有风险,0表示无风险"
},
{
"text": "",
"response_model": "",
"label": ""
}
]
}
references字段主要用于基于相似度的自动化测评方法,若采用其他测评方案,可省略。
大量安全测评数据(如SafetyPrompts.com)已开源,大家可以自行尝试不同的数据发起测评。