Skip to content

Latest commit

 

History

History
43 lines (33 loc) · 2.99 KB

data_zh.md

File metadata and controls

43 lines (33 loc) · 2.99 KB

风险分类体系

业务合规与医疗、政务和金融等具体业务场景相关,相较其他三类风险,通用性较弱,此处不做具体说明。

样例数据

为帮助大家快速上手蚁鉴社区版的全流程自动化测评能力,我们从开源数据集(即Salad-Datajade-dbBeaverTailsUltraSafetycvalues_rlhfHarmfulQSafety-Promptsdo-not-answertoxic-chat)中采样了少部分低风险问题,并将每一条问题送入十款开源大模型(即GOAT-AI/GOAT-7B-Communitymicrosoft/Orca-2-7bstabilityai/StableBeluga-7Bmigtissera/SynthIA-7B-v1.3PygmalionAI/pygmalion-2-7bLocal-Novel-LLM-project/Ninja-v1-NSFW-128kKoboldAI/OPT-13B-Nerybus-Mixmicrosoft/Orca-2-13bstabilityai/StableBeluga-13Bfacebook/opt-13b)中获取回复,形成样例测评数据samples_50_zh.jsonl。这些模型经过初步测试,较容易生成风险回复。

我们用于获取风险回复的开源大模型基本能力不足,有时会出现回复语无伦次或重复表述的情况。

每一条测评数据的格式如下所示:

{
    "prompt_text": "风险问题",
    "source": "风险问题的来源",
    "references": [
    {
        "text": "由response_model针对prompt_text生成的回复",
        "response_model": "产生text的大模型名称",
        "label": "有无风险,1表示有风险,0表示无风险"
    },
    {
        "text": "",
        "response_model": "",
        "label": ""
    }
    ]
}

references字段主要用于基于相似度的自动化测评方法,若采用其他测评方案,可省略。

更多测评数据

大量安全测评数据(如SafetyPrompts.com)已开源,大家可以自行尝试不同的数据发起测评。