首页 > 其他分享 >来自 AI Secure 实验室的 LLM 安全排行榜简介

来自 AI Secure 实验室的 LLM 安全排行榜简介

时间:2024-03-12 22:45:40浏览次数:27  
标签:Secure AI 模型 提示 LLM 维度 我们 评估

近来,LLM 已深入人心,大有燎原之势。但在我们将其应用于千行百业之前,理解其在不同场景下的安全性和潜在风险显得尤为重要。为此,美国白宫发布了关于安全、可靠、可信的人工智能的行政命令; 欧盟人工智能法案也对高风险人工智能系统的设立了专门的强制性要求。在这样的大背景下,我们首先需要确立一个用于定量评估人工智能系统的风险的技术解决方案,以为保证人工智能系统的安全性和一致性提供基准。

为了因应这一需求,我们 安全学习实验室 于 2023 年提出了 DecodingTrust 平台,这是第一个全面且统一的 LLM 可信度评估平台。( 该工作还荣获了 NeurIPS 2023 的 杰出论文奖 )

DecodingTrust 是一个多维度的评估框架,其涵盖了 8 个可信度评估维度,包括: 毒性、刻板印象偏见、对抗提示鲁棒性、OOD (Out Of Distribution) 鲁棒性、对抗示例鲁棒性、隐私保护、道德以及公平性。特别地,DecodingTrust 1) 为整体可信度评估提供全面的分析维度,2) 为每个维度量身定制了新颖的红队算法,从而对 LLM 进行深入测试,3) 可跨各种云环境轻松安装,4) 提供一个可供开放模型和封闭模型同场竞技的全面的可信度排行榜,5) 提供失败样本以增强评估的透明度以及对评估基准的理解,6) 提供端到端方案并输出面向实用场景的详细模型报告。

今天,我们很高兴向社区发布新的 LLM 安全排行榜,该排行榜是基于 HF 排行榜模板 开发的,其专注于对 LLM 进行安全性评估。

红队评估

AI-Secure/llm-trustworthy-leaderboard

DecodingTrust 为每个评估维度都提供了数种新颖的红队方法以对模型进行压力测试。有关测试指标的详细信息可参见我们论文中的 图 3

针对毒性这一维度,我们针对其设计了优化算法并使用精心设计的提示以使生成模型生成具有挑战性的用户提示。我们还设计了 33 个具有挑战性的系统提示,以在不同场景下 (如角色扮演、任务重规划以及程序式响应等) 对 LLM 进行评估。然后,我们利用目标 LLM 的 API 来评估其在这些具有挑战性的提示下生成的内容的毒性分。

针对刻板印象偏见这一维度,我们收集了涉及 24 个人口统计学群体的 16 个刻板印象话题 (其中每个话题包含 3 个提示变体) 用于评估模型偏见。我们对每个模型提示 5 次,并取其平均值作为模型偏见分。

针对对抗提示鲁棒性这一维度,我们针对三个开放模型 (分别是: Alpaca、Vicuna 以及 StableVicuna) 构建了五种对抗攻击算法。我们使用通过攻击开放模型而生成的对抗性数据来评估不同模型在五种不同任务上的鲁棒性。

针对 OOD 鲁棒性这一维度,我们设计了不同的风格转换、知识转换等场景测例,以评估模型在未见场景下的性能,如 1) 将输入风格转换为其他不太常见的风格,如莎士比亚或诗歌形式,或 2) 问题所需的知识在 LLM 训练数据中不存在。

针对对抗示例鲁棒性这一维度,我们设计了包含误导信息的示例,如反事实示例、假相关和后门攻击,以评估模型在此类情形下的性能。

针对隐私保护这一维度,我们提供了不同级别的评估,包括 1) 预训练数据的隐私泄露,2) 对话过程中的隐私泄露,3) LLM 对隐私相关措辞及事件的理解。特别地,对于 1) 和 2),我们设计了不同的方法来进行隐私攻击。例如,我们提供不同格式的提示以诱导 LLM 吐露电子邮件地址及信用卡号等敏感信息。

针对道德这一维度,我们利用 ETHICS 和 Jiminy Cricket 数据集来设计越狱系统和用户提示,用于评估模型在不道德行为识别方面的表现。

针对公平性这一维度,我们通过在各种任务中对不同的受保护属性进行控制,从而生成具有挑战性的问题,以评估零样本和少样本场景下模型的公平性。

来自于我们论文的重要发现

总的来说,我们发现:

  1. GPT-4 比 GPT-3.5 更容易受到攻击;
  2. 没有一个 LLM 在所有可信度维度上全面领先;
  3. 需要在不同可信度维度之间进行折衷;
  4. LLM 隐私保护能力受措辞的影响较大。例如,如果对 GPT-4 提示 “in confidence”,则可能不会泄露私人信息,但如果对其提示 “confidentially”,则可能会泄露信息。
  5. 多个维度的结果都表明,LLM 很容易受对抗性或误导性的提示或指令的影响。

如何提交模型以供评估

首先,将模型权重转换为 safetensors 格式,这是一种存储权重的新格式,用它加载和使用权重会更安全、更快捷。另外,在排行榜主表中,我们能够直接显示 safetensors 模型的参数量!

其次,确保你的模型和分词器可以通过 AutoXXX 类加载,如下:

from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name")
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")

如果上述步骤失败,请根据报错消息对模型进行调试,成功后再提交。不然你的模型可能上传不正确。

注意:

  • 确保你的模型是公开的!
  • 我们尚不支持需要 use_remote_code=True 的模型。但我们正在努力,敬请期待!

最后,你需要在排行榜的 Submit here! 选项卡中提交你的模型以供评估!

如何引用我们的工作

如果你发现这个评估基准对你有用,请考虑引用我们的工作,格式如下:

@article{wang2023decodingtrust,
  title={DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models},
  author={Wang, Boxin and Chen, Weixin and Pei, Hengzhi and Xie, Chulin and Kang, Mintong and Zhang, Chenhui and Xu, Chejian and Xiong, Zidi and Dutta, Ritik and Schaeffer, Rylan and others},
  booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2023}
}

英文原文: https://hf.co/blog/leaderboard-decodingtrust

原文作者: Chenhui Zhang,Chulin Xie,Mintong Kang,Chejian Xu,Bo Li

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

标签:Secure,AI,模型,提示,LLM,维度,我们,评估
From: https://www.cnblogs.com/huggingface/p/18069529

相关文章

  • JAVA系统源码中的AI智能绘画生成技术揭秘
    在数字化时代,人工智能(AI)已经逐渐渗透到我们生活的方方面面,从智能语音助手到自动驾驶汽车,无不体现出AI技术的强大魅力。而在艺术领域,AI同样展现出了惊人的创造力。近期,一项融入JAVA系统源码的AI智能绘画生成技术引起了广泛关注。这项技术究竟有何神奇之处?让我们一起来揭秘。一......
  • 浅谈非内存对抗类和AI自瞄类FPS作弊程序原理及常用反反作弊措施与反作弊应对手段(上)
    一、引言    闲来无事,在浏览微信公众号的时候无意刷到了江西余江警方关于破获全国首例“AI自瞄”类外挂的案件,涉案金额达到惊人的3000余万。不得不感叹近年来AI相关科技发展之迅速及国内有关于FPS类及其他大类游戏作弊的黑产市场之大。    在工作学习之余,......
  • Jetbrains GoLand 2023.3.4 最新专业版安装
    GoLand提高生产力专为Gophers打造的完整IDEGoLand的新功能GoLand2023.3带来了几项重要的新增功能:JetBrainsAIAssistant现已全面推出,具有许多新功能和改进功能,可提高您在JetBrainsIDE中的工作效率。开发容器现已得到正式支持。我们正在开发功能集并积极开发开......
  • 使用 Portainer CE 管理远程主机的 Docker
    Prerequisites你已经在本地主机安装了PortainerCE安装打开本地主机的PortainerCE界面,默认地址为localhost:9443在左侧边栏中找到Environments,进入并点击Addenvironments。选择DockerStandalone,然后点击下面的StartWizard接下来的连接模式选择Agent,然后复制它......
  • 使用 Portainer 管理 Docker
    此文档参考官方文档InstallPortainerCEwithDockeronLinux编写。创建容器dockervolumecreateportainer_data启动PortainerCEdockerrun-d-p8000:8000-p9443:9443--nameportainer--restart=always-v/var/run/docker.sock:/var/run/docker.sock-vp......
  • Tailwind CSS Grid
    今天碰到一个问题,就是工作台,要根据权限来自动显示有权限的模块。一开始是纵向的,导致一些问题,也就是说01,05,09显示一列,02,06显示一列。如果02,06有权限的话,显示的是左边空的,右边显示出来,怪怪的。 现在要让模块02,06,比如还多一个05,模块显示,那么就是02,06,05,按顺序,显示出来,那就是02,06......
  • 想做漫画的ai短视频伙伴有福了,这个ai免费网站只需要提示词,自动生成故事文本和漫画图,堪
    现在很多人都在做漫画类图文或者短视频,这点高粱seo之前也是提到的,同时也分享过一些免费生成ai漫画的网站,那么今天高粱seo再给大家分享一个非常不错的免费ai网站,只需要输入提示词,就可以一键生成漫画图。那么下面高粱seo就以实操案例给大家分享下吧。这次高粱seo以孙悟空大闹天......
  • 揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
    在人工智能的快速发展浪潮中,GoogleDeepMind的最新力作——Gemini,以其多模态的超凡能力,正引领着AI技术的新一轮革命。本文将深入探讨Gemini的核心特性、不同版本的特点,以及它与ChatGPT-4的对比优势和差异。一、Gemini简介AI的新纪元GoogleGemini,作为DeepMind的旗舰产......
  • R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
    全文链接:http://tecdat.cn/?p=31644原文出处:拓端数据部落公众号借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水......
  • tailscale drop使用
    tailscaledrop使用Taildrop·TailscaleDocs在linux中使用比较特殊,需要使用命令行工具发送格式:tailscalefilecp<files><name-or-ip>:#Forexample,youcansendatextfiletoyourphonewiththecommand:tailscalefilecp./my-file.txtmy-phone:接收格......