谭中意 | 百模大战方酣，AI 开源亮剑

谭中意&刘天栋.png

点击以下链接收听本期 “大咖访谈” 播客，与大咖面对面： 大咖访谈链接：谭中意 | 百模大战方酣，AI开源亮剑

++刘天栋++：访谈主持，开源雨林顾问，开源社联合创始人，Apache 软件基金会正式成员

++谭中意++：访谈嘉宾，Apache 软件基金会正式成员，LF AI & Data TAC 成员，开放原子基金会 TOC（技术监督委员会）主席，第四范式资深架构师

AI 开源是主流趋势？

您是如何看待人工智能与开源的呢？它会为我们人类社会带来什么机遇和挑战？

++谭中意++：开源是一种社会化的协作模式，而 AI 一开始就是开源的，因为 AI 起源于学术界的教授与博士，他们的主要活动就是发 Paper，需要让所研究的成果能被重现，因此那些能被重现的程序和代码，一定是开源的。因此从 AI 出现到现在，开源一直都是默认的选择，虽然也有部分不开源的项目，但相对较少，比如 OpenAI 并未开源它的 GPT-3.5 与 GPT-4，但这是少数。

从大趋势来看，AI 的许多问题与挑战都需要通过全球范围内透明的、大范围的协作来解决，而这只能通过开源进行，因此开源一定会在 AI 里成为一个重要的、或者说是主流的工作方式。

开源大模型与多模态

之前您有一篇文章：《中国开源大模型这一仗怎么打？分三步》，您能简单介绍一下大致内容吗？

++谭中意++：在这篇文章里面，我首先分析了大模型为何这么重要。大家也都能看到，ChatGPT 在去年10月份发布，至今已有半年多，它在国内非常火爆，我认为主要有两个原因：

第一次以一种 To C 应用的方式，让普罗大众能体会到 AI 的能力。

正如吴恩达所说：“AI is the new electricity。” AI 已经在众多企业内部创造了巨大的商业价值，例如百度搜索背后的广告系统、字节抖音的推荐系统，以及一些电商企业内等，我们称之为“搜广推”的场景，这些场景后面都是有千亿级参数的推荐大模型在服务，但普通用户在这方面的感知比较少。

而 ChatGPT 用一个非常自然的方式让我们与之对话，它就像一个智能管家，能回答各式各样的问题，这种方式立马显现出了 AI 的能力。回想到电力时代，真正让电力走进千家万户的是爱迪生发明的电灯，ChatGPT 就好比这电灯，迅速将这种 To C 的应用推到大众面前，让其产生了破圈和爆发的结果。
它提出了一种新的交互方式，用户交互方式的改变总是能引起一个划时代的改变。

跟计算机交互最早是通过命令行，后来 Windows 和 Mac 推出了图形化界面，直接把 PC 推进了千家万户；然后苹果用手指这个交互工具，代替了传统手机上的键盘和触控笔，从而掀起智能手机的革命；而现在，自然语言交互这种交互方式强势来袭，我们只需要用自然语言表达出来，软件就能理解并执行。我觉得在 ChatGPT 之后任何流行起来的软件一定会基于这种“Language user interface（LUI）”交互方式来做改变。

ChatGPT 同时拥有这俩个特点，也给 AI 产业打了前所未有的强心针。

其实我研究 AI 已经有很多年了，之前的 AI 场景中相对有巨大商业价值的基本都集中在“搜广推”，但总体比较单调，技术上未有大的突破，直到 ChatGPT 出现，打开另外那一扇门。之前我们所看到的场景，有商业价值的都是叫决策性 AI ——即判断是或不是、用户会不会点等情况；生成式样大模型出现之后，生成式 AI 点燃整个市场，现在在企业内部，有决策性 AI 可以服务“搜广推”场景，同时也有新的生成式 AI 来改造所有的 To B 软件来提升各个场景的效率。

我觉得大语言模型最厉害的地方在于：通过大量的模型训练，它浓缩了全世界大部分的知识。现在 GPT-3.5 大概有 1750 亿参数，再加上多模态之后，GPT-4 大概含有 2 万亿参数，而 GPT-4 还不是一个严格意义上多模态大模型。

什么是多模态对齐？为什么说现在的 GPT-4 还没有做到真正多模态对齐？

++谭中意++：多模态就是说，不仅仅能从文本数据里发现规律，还能从视频、音频等不同形态的数据里发现规律。为什么说现在的 GPT-4 还没有做到真正多模态？就在于它还未做到多模态对齐。

假设我们看视频，视频里有图片、语音、字幕等，基于同一时间线，将图片、语音、文字连在一起，共同发现其中的规律，这个我们称之为“多模态对齐”，达到这种程度的大模型，我觉得 2 万亿参数是不够的，可能还需要再乘以 100 甚至 1000，这种大模型一定能成为一个大而全的百科全书，以后的学习、教育等基本与之交互，而知识就是力量，决定产业、教育、国防等多个行业，所以我将它定义为 “下一代数字经济的核心基础设施”。

开源协作

现在正是百模大战阶段，大家在资源有限的情况下应该如何协作呢？

++谭中意++：首先中国应该建立一个开源的 Foundation Model 或者叫 Base Model，这个 Base Model 在能力上不输于 GPT-3.5 或者 GPT-4，但这个模型不会作为线上服务，而是各个企业拿过去之后，再进行 Fine-tuning，然后结合自有的私有数据再进行部署，而训练这个大模型的过程中需要的各种数据、程序等是可以通过开源进行共建的。

您觉得有可能建一个开源的 Base Model 么？

++谭中意++：当然有可能！做还有可能，不做永远就没有可能。但这件事需要由组织者进行决策，而由于技术路线上的挑战、团队管理的风险，以及道德方面等一些原因，开源基金会不能做那种急功近利的事，例如挑选一家公司来全力支持做，这是垄断。而应该做些百模大战参与者的公约数的事情，就是做一些公共的、基础的、大家都需要的活，第一步应该先从开源数据集做起，大模型需要数据集，而这些数据集也需要符合中国的法律规定。

相较于像新加披、欧洲一些国家，以及美国等，在开放数据这方面，我们还有许多需要做的，做数据集的挑战好像有点大？

++谭中意++：这个事情看着挑战挺大，其实也没有想象中那么难。其实很多中国公司或者组织已经把自己的一些数据开源了，包括百度、智源、上海人工智能学会等，因此只需要将这些数据集纳入到开放原子开源基金会的管理范围内，形成一个良好的更新机制，再搭配一些数据集合规检查工具来保证其合规，从而产生一个高质量的、大家都需要的数据集出来，而这个数据集又是一个不断累计的过程，当累计到一定程度上，就能成为这个领域内有分量的玩家，这个玩家不是来参与百模大战竞争的，而是所有人的朋友。因此第一步做开源数据集相对来说是容易的，可行的。

您说的各个企业已经开源的数据，都是原始数据还是元数据（Metadata）？

++谭中意++：都是 RawData，当然也需要清洗之后拿来做 Pretraining（预训练）。大模型训练也分为三步：

第一步：“Pre-training - 预训练”，需要大量的语料，通过非监督学习来进行，虽然对语料要求的量级比较大，但不需要进行人工标注，所以成本比较低。

第二步：“Instruction Tuning - 指令调优”，这个需要人工进行标注，是指由人类专家来写各种各样高质量的问答，其中人工标注的 GPT-3.5 序列大概有 5 万多条。

第三步：“Reinforcement Learning with Human Feedback（RLHF）- 人类反馈强化学习”，这一块也是需要进行人工标注。

这三种数据，第一步的数据集是最多的，第二步的数据在网络上也有不少，第三步的数据则特别少。

模型开发与开源许可

这些数据的隐私、数据的保护等，会不会涉及到相关法律？

++谭中意++：是的，所以我们不仅需要 raw data，还需要合规的工具，将这些都作为第一步的内容，用合规工具对 raw data 进行加工，得到 clean data，这些 clean data 用于 pre-training 或者 fine-tuning 都可以。

基金会这边是否有在跟国家在沟通相关合规的一些法令？规划如何调整这个工具，让数据能合规？

++谭中意++：这个现在已经有在进行了，例如网信办，他们制定了很多规定，网信办也有一些合作商业公司，主要做符合网信办规定的数据合规工具，其中有一家公司叫 “RealAI（瑞莱智慧）"，是由清华的张钹院士担任创始人的一家公司。

第二步将模型训练出来，训练成 Base Model，然后再不断对 Base Model 进行更新，这个则需要与国内的一些算力中心进行合作。

第三步则是定制化 Model，可能会出现一些行业类模型，也可能会出现移动端的模型，还可能会针对某些特定场景，比如像编码的这种特定的一个模型。

最近，Meta 发布了开源可商用的 Llama 2，您觉得它是怎么样来改变大模型市场的格局？

++谭中意++：事实上在 Llama 出来之后，一直被认为是最好用的基础大模型，而在 Llama 之上出来的其他 “羊驼”，都是基于 Llama 进行微调的，近期重返 Open AI 的总监 Karpathy 也曾表示过：“Llama 是我见过最好的开源大模型”。之前的版本虽然不小心泄露出来，但业界已经有很多人在使用了，而前不久出来的 Llama 2 更好用、能力更强，我觉得可以这么说，开源大模型中，目前来看，很多企业可以选择的就是 Llama 2 了，这是它质量上带来的好口碑。

很多人认为 Llama2 可商用，但并不是开源，您这边是有什么建议或者反馈？

++谭中意++：关于 License 的问题，主要有两方面：第一方面它确实不是采用传统的 OSI 认证的开源许可证，因为它对使用者用途有几个限制。但另一方面，开源的定义从 1998 年推出到现在大概有 25 年了，却未有任何更新，这是一件非常奇怪的事情，最近也有听说 OSI 会出一些关于 open AI 的 License 的新东西，我们可以拭目以待。

而从务实角度来说，我们需要与时俱进，如果 License 不能与商业模式相匹配，那 License 的生命力是有限的。当年 GPL 的发布，是针对当时的环境来制定的，当时 copyright 无处不在，而现在大家对 copyleft 已经接受良好，相反需要去平衡开源与商业化，因此我也非常期待 OSD 如何对这一块进行更新。

所以，根据现有的开源定义，Llama 2 它不是一个开源产品，但是我们不觉得将来也是这样，我们需要一些改变。

结语

对开源雨林接下来有什么建议？或者期望开源雨林做哪些事情？

++谭中意++：对于开源雨林，我认为需要坚守一个清晰的定位，以用户为中心，从理解开源、使用开源、贡献开源等几个阶段构建开源知识体系，共建开源繁荣生态。把开源雨林做成一个品牌，不断的通过各种形式来输出内容，比如大咖访谈、三人行等，吸引更多人来参与，来强化这个品牌。

开源雨林围绕开源通识、开源使用、开源贡献三大方面构建知识体系，愿把长期积累的经验系统化分享给企业，在团队、机制、项目三方面提供合作，推动各企业更高效地使用开源、贡献开源，提升全行业开源技术与应用水平。开源雨林的内容已开源，并托管在 https://github.com/opensource-rainforest/osr ，欢迎通过 Pull Request 的形式贡献内容，通过 Issue 的形式展开讨论，共同维护开源雨林的内容。 如果您有新的想法，欢迎加入开源雨林交流群，一起探讨。小助手微信：osrainforest（添加时请备注“交流群”）

标签：AI,模型,++,开源,百模,GPT,亮剑,中意
From： https://blog.51cto.com/u_15708880/7305367