首页 > 其他分享 >大模型备案过程讲解

大模型备案过程讲解

时间:2024-08-12 13:58:08浏览次数:12  
标签:模型 安全 讲解 标注 语料 评估 备案

以下是一般情况下大模型备案的大致过程讲解(不同地区和具体要求可能存在差异和细化等情况):

一、备案前准备

了解法规和政策

  1. 熟悉《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》等相关法律法规对大模型备案的要求和规定。
  2. 明确备案的主管部门(通常是网信部门等)。

自我评估和准备材料

  1. 语料安全评估1:
    • 评估文本训练语料规模(存储大小、词元计数等)。
    • 明确各类型语料规模(不同语言文本、代码、多媒体等) 。
    • 梳理训练语料来源(开源、自采、商业等分类及来源地等)。
    • 统计语料标注数量(文本和图片标注等)。
    • 明确标注人员情况(数量、类型、培训等)。
    • 制定和检查标注规则(是否符合相关办法要求)。
    • 核验标注内容准确性。
    • 分析语料合法性(有无侵权、违法违规信息等)。
  2. 模型安全评估1:
    • 语料内容评估(人工、关键词、分类模型抽检及合格率等)。
    • 生成内容评估(类似抽检及合格率等)。
    • 涉知识产权、商业秘密等方面的评估(方法、标准、结果)。
    • 涉民族、信仰、性别等方面的评估。
    • 涉透明性、准确性、可靠性等的评估。
  3. 安全措施评估1:
    • 明确模型适用人群(如是否适用未成年人等)、场合(关键信息基础设施等相关敏感场合)、用途(限定领域与否)。
    • 梳理服务过程中收集保存个人信息情况(类型、数量、用途、保存期限)。
    • 确定收集个人信息征得个人同意情况(方式)。
    • 明确受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况(条件和途径方法)。
    • 规划好图片、视频标识情况(样式、位置、频度等)。
    • 建立接受公众或使用者投诉举报情况(途径及反馈方式)。
    • 完善服务协议(将上述多方面内容写入)。
    • 建立非法内容拦截措施(监看人员数量、预置关键词拦截列表、分类模型检测及准确性等)。
    • 统计拒答率(拒绝回答等数量占比)。
    • 规划模型更新、升级条件(如发现频繁非法等情况时)。

材料准备(以下是常见材料举例)3:

  1. 《算法备案承诺书》 。
  2. 《落实算法安全主体责任基本情况》 。
  3. 《算法安全自评估报告》(较复杂且重要,100页左右,包含附录各种证明材料等;需明确算法原理和逻辑、数据来源合规性、算法透明度和可解释性、安全漏洞检测与应对等) 。
  4. 《拟公示内容》 。
  5. 大模型上线备案表:
    • 基本情况:模型名称、主要功能、适用人群、服务范围等。
    • 模型研制:模型备案情况、训练算力资源(自研模型)、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。
    • 服务与安全防范:推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。
    • 安全评估:基本情况、评估情况。
    • 自愿承诺:承诺所填信息真实性,并签字确认。
    • 附件及备注:附件包括安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题。
  6. 安全评估报告(涵盖语料安全评估、模型安全评估以及安全措施评估,并形成整体评估结论) 。
  7. 模型服务协议(包含产品及服务的各项规则及隐私条款等,需协同法务共同制定提交) 。
  8. 语料标注规则(包括标注团队介绍、功能性及安全性标注细则,标注流程等) 。
  9. 拦截关键词列表(总规模不宜少于10000个,应至少覆盖《生成式人工智能服务安全基本要求》a.1以及a.2中17种安全风险,a.1中每一种安全风险的关键词均不宜少于200个,a.2中每一种安全风险的关键词均不宜少于100个) 。
    10.评估测试题集:
    • 包括生成内容测试题库、拒答内容测试题库、非拒答测试题库。
    • 测试题分类满足《生成式人工智能服务安全基本要求》中相关的风险类型,并有最小的数量要求。
    • 测试题建议是“问题”(包含主谓宾),不可只是短词、长文章。
    • 生成内容测试题库中建议明确标记出哪些问题是需要拒答的、哪些是需要回答的。

二、备案流程

  1. 向属地网信办提交备案申请:
    通常在官方备案平台提交备案表、安全评估报告、服务协议、标注规则、关键词库等材料(如果有线上系统的话),目前大模型备案都是线下申请。

  2. 申请通过后会给到你相关资料。拿到资料后根据自己企业的具体情况撰写资料。

  3. 再去网信办预约审核

  • 审核材料的完整性、准确性等。
  • 可能进行技术测试(如对提交的模型进行安全测试,测试内容包括敏感词检测、涉政内容的生成等 2)。

  1. 反馈和整改
    如果审核过程中发现问题,备案主体会收到反馈要求在规定时间内进行整改。整改内容可能包括补充材料、调整模型安全策略等。

  2. 审核通过

  • 若材料审核和技术测试等都通过,属地上报中央网信办3。
  • 中央网信办进行材料复审及技术评审,通过后企业获得备案号3。

三、备案后

  1. 持续管理和监控
  • 建立内容监控体系,对关键词分级管理、制定内容撤回策略等2。
  • 进行账号运营管理,如定期检查账号、制定账号违规处置策略等2。
  • 在重要节假日、重大事件期间做好内容安全保障等。

  1. 配合检查和更新备案

  • 主管部门可能会不定期检查备案后的落实情况。
  • 如果大模型有重大升级、服务范围变更等情况,可能需要重新备案或更新备案信息。

需要注意的是,整个备案过程可能需要一定时间(如大模型备案周期按批次审核通过,一般一个半月至两个月左右一批2),并且备案要求和流程处于动态调整和完善中。

标签:模型,安全,讲解,标注,语料,评估,备案
From: https://blog.csdn.net/juzhi14plus/article/details/141129410

相关文章

  • 奥特曼花园私照“惊”到AI圈创始人,引出OpenAI代号“草莓”神秘项目进展大讨论,匿名基础
    今天,SamAltman在X上晒了一张自家花园的照片,结果却把AI界的创始人们“惊”到了。图片公司高层突发的巨大变动,似乎并没有太多影响到这位当家人,奥特曼在海外媒体秀出了一张花园花盆中生长的草莓的宜人景色,并用他典型的全小写文字风格配文“我喜欢花园里的夏天”。看起来,既在......
  • 如何创建良好的数据模型?
    数据模型是构建高效和稳定系统的基础。它不仅决定了如何存储和管理数据,还直接影响系统的性能和可扩展性。本文将带你深入了解如何创建一个高效的数据模型,并以NocoBase为例,展示如何快速建立适合业务需求的数据结构。无论你是刚接触数据建模的新手,还是希望优化现有模型的经验丰......
  • node.js 使用joi来验证数据模型
    node.js使用joi来验证数据模型     joi是nodej的一个工具模块,主要用于JavaScript对象的校验。它是一种简单易用的javacript对象约束描述语言,可以轻松解决nodejs开发中的各种参数的校验。 直接上代码//导入joi模块constjoi=require('joi')//定义......
  • 如何训练一个大语言模型(LLMs)?
    前言在当今数字时代,语言模型已经成为自然语言处理任务的强大工具,从文本生成到情感分析和机器翻译等各个方面都有涉猎。然而,训练这些模型需要仔细的规划、大量的计算资源以及机器学习技术方面的专业知识。那么一个大型语言模型(LLMs)到底是如何训练出来的呢?在查阅了解之后,我......
  • 2024年畅销书单:程序员入门大模型的必读之作
    知乎上,"如何系统的入门大模型?"这一话题引爆了超过50万读者的热烈讨论。作为程序员,我们应当是最先了解大模型的人,也是率先成为了解大模型应用开发的人,到底如何入门大模型的应用开发?今天,小异精心整理了一份**2024年最畅销的大模型书单。**以大模型学习、人工智能基础为主题......
  • postman 安装使用教程---图文讲解
    一、安装postman1,安装包安装官网下载地址:https://www.getpostman.com选择好对应的版本下载,下载完后直接安装2,插件包安装可以在谷歌的应用商店里面找到,或者在网上下载。准备了一个配置完整的postman插件包http://download.csdn.net/detail/qazwsxpcm/9823420下载完成后打......
  • 无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智
    无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案1.Dify简介1.1功能情况Dify,一款引领未来的开源大语言模型(LLM)应用开发平台,革新性地融合了后端即服务(BackendasaService,BaaS)与LLMOps的精髓,为开发者铺设了一条从创意原型到高效生......
  • 大模型备案流程最详细说明【评估测试题+附件】
    2024年3月1日,我国通过了《生成式人工智能服务安全基本要求》(以下简称《AIGC安全要求》),这是目前我国第一部有关AIGC服务安全性方面的技术性指导文件,对语料安全、模型安全、安全措施、词库/题库要求、安全评估等方面提出了具体规范和要求。(一)适用主体《AIGC安全要求》的适用主......
  • Datawhale AI 夏令营第四期 大模型应用开发 学习笔记
    附上参考链接:Datawhale简单介绍下背景知识一.背景知识1.大模型的定义:为了对人类语言的内在规律进行建模,研究者们提出使用语言模型(languagemodel)来准确预测词序列中下一个词或者缺失的词的概率。目前已经有四代语言模型了1)统计语言模型(StatisticalLanguageMode......
  • 基于Java的考试信息报名系统 SpringBoot考试报名管理系统 Vue前后端分离【Java毕业设
    ⛄博主介绍:⚡全栈开发工程师,精通Web前后端技术、数据库、架构设计。专注于Java技术领域和小程序领域的开发,毕业设计、课程设计项目中主要包括定制化开发、源代码、代码讲解、文档报告辅导、安装调试等。✅文末获取联系✅目录1项目介绍 2技术选型 3系统总体设计 4......