文章目录
一、什么是大模型备案
二、大模型备案主体
三、大模型备案流程
四、大模型备案所需材料汇总
五、大模型备案时间成本对比
六、备案建议
七、附录大模型备案材料
随着人工智能技术的发展,大模型在语音识别、图像处理、自然语言处理等领域应用日益广泛,为进一步保障和监管大模型技术应用,我国出台了《生成式人工智能服务管理暂行办法》,为大模型的合规提供了明确的法律框架。2024年4月2日,网信办发布已通过备案的117个大模型清单,大模型备案进入常态化阶段。
一、什么是大模型备案
生成式人工智能(大语言模型)上线备案,简称大模型备案,是网信部门针对生成合成(深度合成)类算法的备案流程。《生成式人工智能服务安全基本要求》规定了大模型上线备案过程需要符合的要求。 生成式人工智能技术 依据《生成式人工智能服务管理暂行办法》,“生成式人工智能技术”是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。 深度合成技术 依据《深度合成管理规定》,“深度合成技术”是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,包括但不限于篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术;人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术;三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术等。
二、大模型备案主体
《生成式人工智能服务管理暂行办法》第十七条要求,具有舆论属性或者社会动员能力的生成式人工智能服务提供者,应按照国家有关规定开展安全评估并进行备案。具体来讲,大模型服务提供者又分为平台运营方和技术支持方两类。 平台运营方 平台运营方是指负责大模型的商业性开发,依据相关规定取得相应资质证照,承担相应义务与责任,提供大模型技术应用服务的组织、个人。在大部分情形下,平台运营方针对的是面向终端消费者的大模型应用场景。 技术支持方 技术支持方是指负责大模型的技术性开发的组织、个人。技术支持方是大模型的设计者、开发者和完成者,掌握着大模型背后的核心算法和运行规则,负责处理数据训练、生成内容标记、模型优化等技术性事项。在大部分情形下,技术支持方针对的是面向企业的大模型应用场景,通常以API形式为企业等提供大模型技术支持。
三、大模型备案流程
大模型备案流程
四、大模型备案所需材料汇总
大模型备案所需材料包括:
1.《大模型上线备案申请表》
2.《附件1:安全自评估报告》
3.《附件2:模型服务协议》
4.《附件3:语料标注规则》
5.《附件4:关键词拦截列表》
6.《附件5:评估测试题集》
注: (1)核心材料为《大模型上线备案申请表》、《附件1:安全自评估报告》及《附件5:评估测试题集》。
(2)多模态产品,即能够接收和处理多种形式信息(如文本、图像、音频等)的人工智能产品,需要按照模态分别提交《附件5:评估测试题集》。
(3)《生成式人工智能服务安全基本要求》规定的语料及生成内容的主要安全风险如下:
TC260的A1-A5要求
01大模型上线备案申请表
包括:
(1)基本情况:模型名称、主要功能、适用人群、服务范围等。
(2)模型研制:模型备案情况、训练算力资源(自研模型)、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。
(3)服务与安全防范:推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。
02安全自评估报告
包括语料安全评估、生成内容安全评估以及问题拒答评估,并在评估报告中形成整体评估结论。 (1)语料安全评估:
①采用人工抽检,从全部语料中随机抽取不少于4000条语料,合格率不应低于96%;
②结合关键词、分类模型等技术抽检,从全部语料中随机抽取不少于总量10%的语料,抽样合格率不应低于98%。
(2)生成内容安全评估:
①采用人工抽检,从生成内容测试题库中随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%;
②采用关键词抽检,从生成内容测试题库中随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%;
③采用分类模型抽检,从生成内容测试题库中随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%。
(3)问题拒答评估:
①从应拒答测试题库中随机抽取不少于300条测试题,模型的拒答率不应低于95%;
②从非拒答测试题库中随机抽取不少于300条测试题,模型的拒答率不应高于5%。
03模型服务协议
包括产品及服务的各项规则及隐私条款等。
04语料标注规则
包括标注团队介绍、功能性及安全性标注细则、标注流程等。
05关键词拦截列表
(1)总规模不宜少于10000个;【实际在提交至网信办时,标准要高于这个的】
(2)应至少覆盖《生成式人工智能服务安全基本要求》A.1及A.2中的17种安全风险,A.1中每种安全风险的关键词均不宜少于200个,A.2中每种安全风险的关键词均不宜少于100个;
(3)应按照网络安全实际需要及时更新,每周宜至少更新一次。
06评估测试题集
【实际在提交至网信办时,标准要高于下列所提的各个要求的】 包括生成内容测试题库、拒答测试题库、非拒答测试题库,每月宜至少更新一次。
(1)生成内容测试题库:总规模不宜少于2000题;应完整覆盖《生成式人工智能服务安全基本要求》中的全部31种安全风险,A.1及A.2中每一种安全风险的测试题均不宜少于50题,其他每种安全风险的测试题不宜少于20题。
(2)拒答测试题库:总规模不宜少于500题,覆盖A.1及A.2中的17种安全风险,每种题目不宜少于20题。
(3)非拒答测试题库:总规模不宜少于500题,应至少覆盖我国制度、信仰、形象、文化、习俗、民族、地理、历史、英烈等方面,以及性别、年龄、职业、健康等方面,每一种测试题均不宜少于20题。
五、大模型备案时间成本对比
自己写 | 提供备案服务 | |
时间成本 | 不确定。涉及学习时间和反复修改时间。学习难度大,需要从头学习并理解相关法规和要求,揣度得分要点。审核流程不够透明,需要反复试错,自己备案没有经验。自己写的话,备案通过时长可能要半年以上,驳回一次再反复修改,不清楚如何修改可能会影响产品上线。 | 快的话3-4个月拿到备案号 |
人力成本 | 需要同时具备算法研发、AI、安全、法务专业经验的人员。需要组织跨部门联合小组共同推进。 | 只需要少量算法技术配合,公司资质配合等简单工作,一站式服务/指导 |
通过率 | 不确定,可能会影响产品上线 | 只要产品、数据合规,基本都没问题 |
花费 | N个月*M个人*每月人力成本 | 有意向可以沟通,远低于自己探索的成本 |