首页 > 其他分享 >中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上

中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上

时间:2023-09-25 17:33:21浏览次数:54  
标签:协议 许可 AIGC OSI 院何 开源 信通 开放

2021年,“开源”被首次写入国家“十四五”规划,开源凭借开放、协作、共享的特点,已成为全球软件开发和产业创新发展的主导协作模式,为信息技术高质量发展提供了强大助力。与此同时,新一代人工智能、大数据、云计算、工业互联网、区块链等技术领域正结合开源,呈现出技术与产业协同共进共融的态势。

如今,通过开源开放模式加速信息产业生态共建已经成为业界共识。2023年9月21日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR开源产业大会”在北京举行。会上,中国信通院云计算与大数据研究所所长何宝宏首次与业界分享对下一代开源的最新见解与观点。

中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上_OSI

开源拒绝重演“公地悲剧” 25年来取得巨大成功

25年来,开源以“违反”经济学基本原理的方式,以共享代码的方式大规模生产“数字公共品”。然而,在开源领域,经济学中的“公地悲剧”并没有出现。“公地悲剧”是一个经典的经济学问题,描述了个体在追求自身利益的过程中,导致公共资源过度使用和衰退的现象。

互联网的快速发展正是得益于开源的成功。从早期的操作系统Linux、安全通信OpenSSL、数据库My SQL、门户工具Apache、排版引擎Webkit,到近年来的手持终端Android、网络Open Daylight、云计算Open Stack、大数据Hadoop、容器Docker以及AI深度学习领域的TensorFlow和PyTorch等,这些借助开源互联网而起的开源软件,今日又成了互联网的基石。可以说,互联网与开源同根同源、相伴相生,既是Internet over Open Source,也是Open Source over Internet。

目前,开源许可协议类型有2700多种,主要差异性体现在对分发衍生软件的限制不同。在全球活跃度的前1000个开源软件中,超过60%使用MIT、Apache 2.0以及BSD宽松型许可协议。

何宝宏指出,如今开源已取得巨大成功。从生态规模看,全球开源生态成熟繁荣,全球开源软件项目高速增长,覆盖当前主流技术领域,全球开源贡献者储备规模庞大。从行业应用看,全球行业开源逐步兴起,各行业应用开源模式建立产业开放供应链,提升生产效能。此外,开源模式正在引领科技实现越来越多的突破。

开源许可协议面临新环境 从“通用开源”走向“场景化开源”

多年来,开源促进组织OSI(Open Source Initiative)维护着对开源的定义(OSD),以及其认可的开源许可协议列表,目标是促进和保护开源软件及开源社区。一切不满足OSI所规定的全部十条要求的开放许可协议,都会被开源权威机构OSI认为是“非典型性”开源。

开源许可协议从最早的GPL开始, 逐渐演进到GPLv2和v3,中间还有Apache、MPL、AGPL、LGPL等,但是近几年来有一批新的许可协议出现,引起了社区的一些激烈的讨论。这些新的许可协议包括BSL、SSPL、Elastic以及一个比较特殊的附加条款Commons Clause。

但OSI的这10大原则,诞生于20多年前,聚焦的是软件代码,更多是关于软件产品,属于通用开源范畴。近年来,开源的这一经典定义面临着新的挑战与重构,尤其是来自云计算、大数据、大模型和AIGC的挑战,让开源早已不在局限于通用领域,更多转向聚焦于数据、服务等场景化开源。

中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上_开源软件_02

如今,云计算已经催生了一批“非典型性”开源许可协议。早期的开源许可协议,未涉及到云服务场景的分发形式。市场现实是云厂商基于开源技术推出云服务,但贡献甚少。于是,一批开源项目修改了开源协议,比如限制云服务模式的SSPL许可协议。

随着大数据尤其是数据资产化,开放数据和数据流通成为一种新“开源”模式。数据通常是事实和信息的表达,而版权通常适用于原创创作的表达形式,版权通常不适用于数据资产。

AI大模型涉及的开放许可证类型更为复杂。仅Hugging Face上开源的人工智能模型就超过28万,涉及66个开源协议,大致可以分为三类。第一类是通用开源软件许可协议,比如Apache 2.0/GPL 3.0/MPL 2.0;第二类是知识共享许可协议,比如CC-BY-4.0;第三类是人工智能大模型开源许可协议,比如Llama/OpenRail等。

相对OSI经典的开源定义,开源AI大模型都会对“古典”开源的定义做成新限制,多为用途和生成内容的输出。对于AIGC,更是存在新的争议,比如:AIGC生成的代码,可否参与开源贡献?目前各方对此类问题试图进行规范,比如:

2023年3月,美国版权局发布《AI版权认定声明及登记指引》,纯AIGC作品不受版权法保护,进行版权登记时需要披露AIGC部分。Apache基金会发布《第三方许可政策》,提出“AIGC的条款与开源定义保持一致”贡献者注明创建贡献时使用的工具,例如包含“Generated-by”。

事实上,AIGC涉及的版权和开放许可,还未形成广泛共识。何宝宏指出,开放许可协议的基石可分为几个阶段:软件著作权—>著作权—>知识产权—>知识产权+。涉及到开放数据和开源大模型许可协议,更需要考虑使用场景、商业收益和科技伦理问题。

迎接下一代开源 需与现实世界适配

当软件从产品成为服务,当开放的对象从代码延展到数据和模型,当开放许可的法律基础从版权延展所有权,当代码生成主体从自然人的程序员延展到AIGC,当开源与现实中的法规制度、隐私保护和科技伦理日益密切时,下一代开源将向何处去?

开源软件促进会OSI(open source initiative)对于开源提出了十个条款,包括:自由再发布、源代码公开、允许派生作品、作者源代码完整性、不能歧视任何个人或团体、不能歧视任何领域、许可协议的发布、许可协议不能只针对某个产品、许可协议不能约束其他软件、许可协议必须独立于技术。

中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上_OSI_03

目前,OSI已启动Open Source AI的定义讨论工作,定义了开放数据和人工智能系统的基本原则,涉及数据安全、版权所属、监管要求、道德伦理、责任认定等多个方面。

总体而言,何宝宏认为,下一代开源需要从两方面进行规范:一方面,开源应该与现实社会深度融合,遵守现实治理规则,如:监测统计、自律公约、责任边界、安全防护;另一方面,开源的发展也需要跟随社会长期性和周期性的发展规律。

标签:协议,许可,AIGC,OSI,院何,开源,信通,开放
From: https://blog.51cto.com/u_16125291/7597572

相关文章

  • C#开源、功能强大、免费的Windows系统优化工具 - Optimizer
    前言今天给大家推荐一款由C#开源、功能强大、免费的Windows系统优化工具-Optimizer。工具介绍Optimizer是一款功能强大的Windows系统优化工具,可帮助用户提高计算机性能、加强隐私和安全保护。该工具支持22种语言,同时提供了许多实用的功能,如关闭不必要的Windows服务、停止Wind......
  • [开源]-OpenCASCADE-IMGUI
    [开源]-OpenCASCADE-IMGUI1IMGUIImGui是一个用于C++的用户界面库,跨平台、无依赖,支持OpenGL、DirectX等多种渲染API,是一种即时UI(ImmediateModeUserInterface)库,保留模式与即时模式的区别参考保留模式与即时模式。ImGui渲染非常快,但界面上有大量的数据集需要渲染可能会有一些......
  • Hadoop是什么? Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......
  • 开源知识付费系统源码安全性与维护策略
    开源知识付费系统源码的灵活性和高自由度大家都非常清楚,但同时也引发了安全性和维护的担忧。本文将深入探讨开源知识付费系统源码的安全性挑战。 一、开源知识付费系统简介可以提供给运营者进行知识变现。创建和销售数字内容,如在线课程、电子书、教育资源等,并为用户提供支付、订阅......
  • 微软最热门的10款前端开源项目!
    本文来盘点微软开源的十大前端项目,这些项目在Github上获得了超过45万Star!VisualStudioCodeVisualStudioCode是一款由微软开发的开源的代码编辑器。它支持多种编程语言,如C、C++、C#、Python、JavaScript和TypeScript等,并提供丰富的插件生态系统来扩展功能。VSCode......
  • 万界星空科技/免费开源MES系统/免费自动排产管理
    万界星空科技免费MES系统助力企业实现生产排程自动化,降低人力成本。生产计划排产管理是指制定一个可行的生产计划并按照该计划安排生产资源和制造活动的过程。它是制造企业管理中的一个关键过程,涉及到计划制定、资源管理、物料采购、工厂布局、生产调度等多个环节,是企业整体生产管......
  • 服务器管理BMC进入开源时代!英特尔+三星+浪潮信息专家对话OpenBMC
    随着人工智能、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,如何快速适配多种通用计算处理器、多种异构加速器和各类部件,实现服务器高效、稳定、可靠运行,对服务器管理的兼容性、精细度、定制化和快速迭代能力提出了一系列新的挑战,BMC作为服务器管理和监控的核心......
  • Hadoop是什么? Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......
  • 开源协同创新,加速云计算应用
    2023年9月21日,华为全联接大会2023“开源创新,共筑智能世界”论坛在上海前滩香格里拉酒店圆满落幕。在此次开源分论坛上,华为云开源业务总经理邓明昆进行了题为《开源协同创新,加速云计算应用》的分享。华为云开源业务总经理邓明昆邓明昆在分论坛演讲中提到:云原生技术以“分布式、松......
  • JeecgBoot v3.5.5 版本发布,性能大升级版本—开源免费的低代码开发平台
    项目介绍JeecgBoot是一款企业级的低代码平台!前后端分离架构SpringBoot2.x,SpringCloud,AntDesign&Vue3,Mybatis-plus,Shiro,JWT支持微服务。强大的代码生成器让前后端代码一键生成!JeecgBoot引领低代码开发模式(OnlineCoding->代码生成->手工MERGE),帮助解决Java项目70%的重复......