专业角度深入讲解：大模型备案（生成式人工智能）

标签：人工智能模型生成式讲解标注语料备案

一、什么是大模型备案？
大模型备案是指大模型产品在向公众开放及商用之前，经过国家互联网信息办公室（简称“网信办”）等监管部门的备案审批过程。是为加强生成式人工智能服务的合规管理，通过备案制度，促进人工智能技术的健康发展，建立起一个既安全又可靠的人工智能服务体系，为公众提供高质量的智能服务，同时也为人工智能产业的长远发展奠定坚实的基础。

二、大模型备案与互联网算法备案（深度合成）的区别？
在了解这两个备案的区别之前，首先要对其概念要有深入的了解，目前网络文章对这两个概念也是含糊不清，唯安创远ai合规专家在此深度剖析：
1、互联网算法备案（深度合成）：
定义概念：深度合成技术，是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、等网络信息的技术
主要区别：深度合成技术本质上是根据一定的需求，对已有的数据(图片、文字等)进行组合、拼接，其并不能从无到有的生成新内容:
适用对象：具有舆论属性或者社会动员能力的深度合成服务提供者和服务技术支持者;

2、大模型备案（生成式人工智能）：
    定义概念：生成式人工智能技术，是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术
    主要区别：生成式人工智能技术的逻辑为“理解-创作”，生成内容具有新颖性，并非对已有内容的拼接，换言之，其具有对已有数据进行演绎创新的能力。
    适用对象：提供具有舆论属性或者社会动员能力的生成式人工智能服务的企业。

三、怎样区分做大模型备案还是做算法备案？

依据《生成式人工智能服务管理暂行办法》第十七条和第二十二条的要求，提供具有舆论属性或者社会动员能力的生成式人工智能服务的企业都需要做算法备案和大模型备案。唯安创远ai合规专家根据与主管部门的交流和公司合作案例，建议以下类型企业先进行大模型备案工作：
    1、 模型是属于自研、或是基于开源模型二次微调或魔改过、有较多训练数据的。
    2、 企业规模较大或模型服务应用程序规模较大的。
    3、 以生成式人工智能为经营主业、需要做商业宣传使用企业。
    4、 所在地有针对通过备案有相应补贴政策的。
    5、 地方网信办、工业和信息化局等相关部门通知或推荐的企业

四、以下情况不需要做大模型备案：
1、非从事生成式人工智能大模型相关业务的企业。
2、不具备舆论属性或社会动员能力的生成式人工智能服务（如纯自用或仅服务少数B端用户）。
3、纯调用第三方大模型API接口的情形（需要做算法备案和登记备案）。
以上情形，通常做算法备案即可

五、大模型备案材料清单

备案表案例
生成式人工智能（大语言模型）上线备案，除申请表外还需要提交五份材料（唯安创远合规专家提醒您：部分省份最终是7-8份。有隐藏剧情）：
《生成式人工智能（大语言模型）上线备案申请表》
《附件1：安全自评估报告》
《附件2：模型服务协议》
《附件3：语料标注规则》
《附件4：关键词拦截列表》
《附件5：评估测试题集》

六、大模型备案安全评估要点：

1.语料来源安全
与《暂行办法》第七条，服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据这一要求相对应，该《要求》在此基础上，从语料来源管理、语料搭配、可追溯性方面提出了细化要求：
（1）语料来源管理方面
要求使用合法来源的语料，并对语料内容质量提出了量化标准，如语料内容含违法不良信息超过5%的，不应采集或使用该来源语料。
（2）不同来源语料搭配方面
要求提高语料来源的多样性。具体来说，对于不同语言和不同类型的语料，应当结合使用多个不同的语料来源。例如，在使用境外语料时，应合理地结合境内外的不同来源的语料，以保持语料的全面性。这样做有助于提高生成内容的质量，确保内容的客观性和多样性。
（3）语料来源可追溯方面
要求服务提供者具备合法的处理依据，例如开源许可协议、相关的授权文件、交易合同或合作协议等。若涉及自采语料的使用，无论是自行生产的还是从互联网采集的，提供者都需保留详尽的采集记录。对于他人已明确表示不可采集的语料，如通过robots协议或其他限制采集技术手段明确表明不可采集的网络数据，以及个人明确表示拒绝授权采集的个人信息等，都应坚决避免采集。同时，按照我国网络安全相关法律法规及政策文件要求阻断的信息，不应作为语料。
2.语料内容安全要求
《暂行办法》第四条和第七条都对训练数据提出了“合法”的要求。为此，《要求》提出服务提供者可采取多种手段，包括但不限于关键词过滤、分类模型以及人工抽检等，识别并过滤含有违法不良信息的语料。同时，《要求》还从知识产权和个人信息两方面提出了进一步的细化要求。
（1）知识产权合规方面
《要求》围绕着建立知识产权管理策略、识别知识产权侵权风险、完善投诉举报渠道、公开摘要信息等方面提出了多项措施以避免侵权风险。对此问题，在（2024）粤0192民初113号案中，当用户输入“奥特曼”或“迪迦”等关键词时，被告经营的Tab网站中AI绘画模块产生的图像特征与原告持有的合法授权IP形象高度相似，这表明该模块的底层训练语料中包含了属于他人版权的作品。在生成图像内容的过程中，该模块利用了这些版权作品，导致产出的内容带有原版权作品中的特定元素或特征，从而侵犯了权利人的知识产权。因此，服务提供者在管理语料内容时必须严格审慎，防范潜在的知识产权风险。
（2）个人信息保护方面
要求服务提供者应确保其个人信息处理行为具有合法性基础，即取得对应个人信息主体的同意或符合法律、行政法规规定的其他情形。当涉及敏感个人信息的使用时，还必须获得个人的单独同意。
3.语料标注安全要求
《暂行办法》第八条规定，在生成式人工智能技术研发过程中进行数据标注的，提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则；开展数据标注质量评估，抽样核验标注内容的准确性；对标注人员进行必要培训，提升尊法守法意识，监督指导标注人员规范开展标注工作。该《要求》在此基础上，对标注人员、标注规则、标注内容等方面提出了更为具体的规定。
（1）标注人员
首先，在安全培训方面。要求定期对标注人员进行培训，培训内容包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等。
其次，在考核方面。要求考核合格者具备上岗资格，考核内容包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等，建立定期重新培训考核以及必要时暂停或取消标注上岗资格的机制。
最后，在职能划分方面。至少划分为数据标注和数据审核两类，同一标注任务下同一人员不得担任多项职能。
（2）标注规则
要求标注规则包括标注目标、数据格式、标注方法、质量指标等内容，覆盖数据标注以及数据审核等环节。
在功能性标注规则方面。要求应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料。
在安全性标注规则放面，要求应能指导标注人员围绕语料及生成内容的主要安全风险进行标注。
（3）标注内容准确性
对于功能性标注，对每一批标注语料采取人工抽检，内容不准确的，应重新标注；内容中包含违法不良信息的，该批次标注语料应作废。其次，对于安全性标注，每一条标注语料至少经由一名审核人员审核通过。

（二）模型安全要求
1.模型生成内容安全性
要求服务提供者应对每次使用者输入的信息进行安全性监测，引导模型生成积极正向内容，并建立常态化检测测评手段，对测评过程中发现的安全问题及时处置，通过指令微调、强化学习等方式优化模型。

2.模型生成内容准确性
要求服务提供者采用技术手段提高生成内容的实时性与精准度。例如，在用户提出法律咨询问题时，人工智能生成的回答应当引用现行有效的法律法规，而非过时失效的规定。另外，服务提供方应当通过不断优化和校正模型，以减少人工智能生成内容中出现的不准确或虚构情况。

3.模型生成内容可靠性
要求服务提供者采取技术措施提高生成内容格式框架的合理性以及有效内容的含量，提高生成内容对使用者的帮助作用。

（三）安全措施要求

1.模型适用性
服务提供者在服务范围内应用生成式人工智能服务时应充分论证模型的必要性、适用性和安全性。如生成式人工智能服务应用于关键信息基础设施领域，或者医疗信息服务、心理咨询、金融信息服务等重要场合的，应当配备与风险程度相适应的保护措施。面向未成年群体的生成式人工智能服务服务提供者，还应设立未成年人保护措施，同时需遵守《未成年人保护法》《个人信息保护法》《未成年人网络保护条例》等规定，保障未成年人身心健康安全。

2.服务透明度
服务提供者以交互界面提供生成式人工智能服务的，应在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息，并公开基础模型使用情况。以可编程接口形式提供服务的，应在说明文档中公开上述信息。

3.用户数据处理
服务提供者应当为用户提供一种便捷的途径，用以关闭其输入信息用于模型训练的功能。这可以通过多种方式实现，比如设置直观易懂的选项，或者提供简洁的语音控制指令。为了确保这种便捷性得到落实，《要求》进一步通过具体示例加以明确：当用户选择通过选项来关闭该功能时，从服务主界面开始，到达关闭选项的操作过程应控制在四次点击以内。

同时，为符合《办法》中对于“透明度”的要求，服务提供者应确保在界面设计或用户交互过程中，以显著方式向使用者告知其输入信息的收集状态，并清晰地展示关闭信息用于训练的选项或指令。

4.用户管理

根据《办法》第十条和第十四条，生成式人工智能服务提供者有义务指导使用者科学理性认识和依法使用生成式人工智能技术，并对使用者的行为进行监督。为了有效执行这些监督职责，《要求》提出了以下三项具体措施：

（1）实施监测机制
通过关键词筛查或分类模型等方式，对用户输入的信息进行实时监测，以便及时发现并处置不当行为；
（2）拒绝回答机制
对于检测到的含有明显偏激或诱导生成违法不良信息的问题，服务提供者的系统应自动拒绝回答，防止传播潜在有害内容。
（3）人工监看机制
配备专门的监看人员，及时根据监看情况提升生成内容的质量与安全性，并对第三方投诉进行收集和响应。

5.服务稳定性
为维护服务的稳定性，《要求》建议服务提供者采取多项安全措施，例如将训练环境与推理环境隔离以防止数据泄露和不当访问、持续监测模型输入内容以预防诸如DDoS、XSS和注入攻击等恶意攻击、定期进行安全审计以识别和修复潜在安全漏洞，以及建立数据、模型等备份机制和恢复策略等。
（四）安全评估要求
为促进生成式人工智能服务提供者有效履行安全评估的职责，《要求》细化了《暂行办法》中的要求，即提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并按照规定履行算法备案和变更、注销备案手续。根据《要求》服务提供者需对第5章至第8章的规定进行逐条审查，针对每一条款给出“符合”、“不符合”或“不适用”的评价，并据此形成最终的评估报告。此外，为确保评估工作的可操作性，《要求》特别针对语料安全、生成内容安全、问题拒答等方面提出了量化的评估标准。
七、大模型备案流程和时长
大模型备案目前处于一个井喷期间，陆续有许多符合申请条件的企业都在申请中，预计总耗时在4-7个月（唯安创远ai合规专家经验最快压缩至3-4个月）。个别中介型的服务商由于缺乏对大模型备案的了解，误以为与算法备案同时下备案号，这其实是错误的。在挑选服务商时，建议寻找技术服务为核心的服务商。备案流程：

八、选择服务商的注意事项
大模型备案是一个复杂又专业的工作，若企业不具备备案经验、不了解备案要求，会导致材料反复被多次打回，导致整个备案工作遥遥无期。若模型本身也存在一些问题，严重着会被直接拉黑！然而选择服务商也需要多注意，目前真正对大模型备案具有经验的少之甚少，市场上出现了一些非技术服务行业的机构宣传可以完成大模型备案也多基本都是中介形式外包给第三方，对接工作时出现冗长繁琐，导致企业付出了高额费用却也无法顺利完成备案工作，甚至引起法律纠纷。

标签：人工智能,模型,生成式,讲解,标注,语料,备案
From： https://www.cnblogs.com/wacyltd/p/18413751

专业角度深入讲解：大模型备案（生成式人工智能）

相关文章

赞助商

阅读排行