首页 > 其他分享 >谭中意 | 百模大战方酣,AI 开源亮剑

谭中意 | 百模大战方酣,AI 开源亮剑

时间:2023-08-31 11:31:33浏览次数:41  
标签:AI 模型 ++ 开源 百模 GPT 亮剑 中意

谭中意&刘天栋.png

点击以下链接收听本期 “大咖访谈” 播客,与大咖面对面: 大咖访谈链接:谭中意 | 百模大战方酣,AI开源亮剑

++刘天栋++:访谈主持,开源雨林顾问,开源社联合创始人,Apache 软件基金会正式成员

++谭中意++:访谈嘉宾,Apache 软件基金会正式成员,LF AI & Data TAC 成员,开放原子基金会 TOC(技术监督委员会)主席,第四范式资深架构师

AI 开源是主流趋势?

您是如何看待人工智能与开源的呢?它会为我们人类社会带来什么机遇和挑战?

++谭中意++:开源是一种社会化的协作模式,而 AI 一开始就是开源的,因为 AI 起源于学术界的教授与博士,他们的主要活动就是发 Paper,需要让所研究的成果能被重现,因此那些能被重现的程序和代码,一定是开源的。因此从 AI 出现到现在,开源一直都是默认的选择,虽然也有部分不开源的项目,但相对较少,比如 OpenAI 并未开源它的 GPT-3.5 与 GPT-4,但这是少数。

从大趋势来看,AI 的许多问题与挑战都需要通过全球范围内透明的、大范围的协作来解决,而这只能通过开源进行,因此开源一定会在 AI 里成为一个重要的、或者说是主流的工作方式。

开源大模型与多模态

之前您有一篇文章:《中国开源大模型这一仗怎么打?分三步》,您能简单介绍一下大致内容吗?

++谭中意++:在这篇文章里面,我首先分析了大模型为何这么重要。大家也都能看到,ChatGPT 在去年10月份发布,至今已有半年多,它在国内非常火爆,我认为主要有两个原因:

  • 第一次以一种 To C 应用的方式,让普罗大众能体会到 AI 的能力。

    正如吴恩达所说:“AI is the new electricity。” AI 已经在众多企业内部创造了巨大的商业价值,例如百度搜索背后的广告系统、字节抖音的推荐系统,以及一些电商企业内等,我们称之为“搜广推”的场景,这些场景后面都是有千亿级参数的推荐大模型在服务,但普通用户在这方面的感知比较少。

    而 ChatGPT 用一个非常自然的方式让我们与之对话,它就像一个智能管家,能回答各式各样的问题,这种方式立马显现出了 AI 的能力。回想到电力时代,真正让电力走进千家万户的是爱迪生发明的电灯,ChatGPT 就好比这电灯,迅速将这种 To C 的应用推到大众面前,让其产生了破圈和爆发的结果。

  • 它提出了一种新的交互方式,用户交互方式的改变总是能引起一个划时代的改变。

    跟计算机交互最早是通过命令行,后来 Windows 和 Mac 推出了图形化界面,直接把 PC 推进了千家万户;然后苹果用手指这个交互工具,代替了传统手机上的键盘和触控笔,从而掀起智能手机的革命;而现在,自然语言交互这种交互方式强势来袭,我们只需要用自然语言表达出来,软件就能理解并执行。我觉得在 ChatGPT 之后任何流行起来的软件一定会基于这种“Language user interface(LUI)”交互方式来做改变。

ChatGPT 同时拥有这俩个特点,也给 AI 产业打了前所未有的强心针。

其实我研究 AI 已经有很多年了,之前的 AI 场景中相对有巨大商业价值的基本都集中在“搜广推”,但总体比较单调,技术上未有大的突破,直到 ChatGPT 出现,打开另外那一扇门。之前我们所看到的场景,有商业价值的都是叫决策性 AI ——即判断是或不是、用户会不会点等情况;生成式样大模型出现之后,生成式 AI 点燃整个市场,现在在企业内部,有决策性 AI 可以服务“搜广推”场景,同时也有新的生成式 AI 来改造所有的 To B 软件来提升各个场景的效率。

我觉得大语言模型最厉害的地方在于:通过大量的模型训练,它浓缩了全世界大部分的知识。现在 GPT-3.5 大概有 1750 亿参数,再加上多模态之后,GPT-4 大概含有 2 万亿参数,而 GPT-4 还不是一个严格意义上多模态大模型。

什么是多模态对齐?为什么说现在的 GPT-4 还没有做到真正多模态对齐?

++谭中意++:多模态就是说,不仅仅能从文本数据里发现规律,还能从视频、音频等不同形态的数据里发现规律。为什么说现在的 GPT-4 还没有做到真正多模态?就在于它还未做到多模态对齐。

假设我们看视频,视频里有图片、语音、字幕等,基于同一时间线,将图片、语音、文字连在一起,共同发现其中的规律,这个我们称之为“多模态对齐”,达到这种程度的大模型,我觉得 2 万亿参数是不够的,可能还需要再乘以 100 甚至 1000,这种大模型一定能成为一个大而全的百科全书,以后的学习、教育等基本与之交互,而知识就是力量,决定产业、教育、国防等多个行业,所以我将它定义为 “下一代数字经济的核心基础设施”。

开源协作

现在正是百模大战阶段,大家在资源有限的情况下应该如何协作呢?

++谭中意++:首先中国应该建立一个开源的 Foundation Model 或者叫 Base Model,这个 Base Model 在能力上不输于 GPT-3.5 或者 GPT-4,但这个模型不会作为线上服务,而是各个企业拿过去之后,再进行 Fine-tuning,然后结合自有的私有数据再进行部署,而训练这个大模型的过程中需要的各种数据、程序等是可以通过开源进行共建的。

您觉得有可能建一个开源的 Base Model 么?

++谭中意++:当然有可能!做还有可能,不做永远就没有可能。但这件事需要由组织者进行决策,而由于技术路线上的挑战、团队管理的风险,以及道德方面等一些原因,开源基金会不能做那种急功近利的事,例如挑选一家公司来全力支持做,这是垄断。而应该做些百模大战参与者的公约数的事情,就是做一些公共的、基础的、大家都需要的活,第一步应该先从开源数据集做起,大模型需要数据集,而这些数据集也需要符合中国的法律规定。

相较于像新加披、欧洲一些国家,以及美国等,在开放数据这方面,我们还有许多需要做的,做数据集的挑战好像有点大?

++谭中意++:这个事情看着挑战挺大,其实也没有想象中那么难。其实很多中国公司或者组织已经把自己的一些数据开源了,包括百度、智源、上海人工智能学会等,因此只需要将这些数据集纳入到开放原子开源基金会的管理范围内,形成一个良好的更新机制,再搭配一些数据集合规检查工具来保证其合规,从而产生一个高质量的、大家都需要的数据集出来,而这个数据集又是一个不断累计的过程,当累计到一定程度上,就能成为这个领域内有分量的玩家,这个玩家不是来参与百模大战竞争的,而是所有人的朋友。因此第一步做开源数据集相对来说是容易的,可行的。

您说的各个企业已经开源的数据,都是原始数据还是元数据(Metadata)?

++谭中意++:都是 RawData,当然也需要清洗之后拿来做 Pretraining(预训练)。大模型训练也分为三步:

第一步:“Pre-training - 预训练”,需要大量的语料,通过非监督学习来进行,虽然对语料要求的量级比较大,但不需要进行人工标注,所以成本比较低。

第二步:“Instruction Tuning - 指令调优”,这个需要人工进行标注,是指由人类专家来写各种各样高质量的问答,其中人工标注的 GPT-3.5 序列大概有 5 万多条。

第三步:“Reinforcement Learning with Human Feedback(RLHF)- 人类反馈强化学习”,这一块也是需要进行人工标注。

这三种数据,第一步的数据集是最多的,第二步的数据在网络上也有不少,第三步的数据则特别少。

模型开发与开源许可

这些数据的隐私、数据的保护等,会不会涉及到相关法律?

++谭中意++:是的,所以我们不仅需要 raw data,还需要合规的工具,将这些都作为第一步的内容,用合规工具对 raw data 进行加工,得到 clean data,这些 clean data 用于 pre-training 或者 fine-tuning 都可以。

基金会这边是否有在跟国家在沟通相关合规的一些法令?规划如何调整这个工具,让数据能合规?

++谭中意++:这个现在已经有在进行了,例如网信办,他们制定了很多规定,网信办也有一些合作商业公司,主要做符合网信办规定的数据合规工具,其中有一家公司叫 “RealAI(瑞莱智慧)",是由清华的张钹院士担任创始人的一家公司。

第二步将模型训练出来,训练成 Base Model,然后再不断对 Base Model 进行更新,这个则需要与国内的一些算力中心进行合作。

第三步则是定制化 Model,可能会出现一些行业类模型,也可能会出现移动端的模型,还可能会针对某些特定场景,比如像编码的这种特定的一个模型。

最近,Meta 发布了开源可商用的 Llama 2,您觉得它是怎么样来改变大模型市场的格局?

++谭中意++:事实上在 Llama 出来之后,一直被认为是最好用的基础大模型,而在 Llama 之上出来的其他 “羊驼”,都是基于 Llama 进行微调的,近期重返 Open AI 的总监 Karpathy 也曾表示过:“Llama 是我见过最好的开源大模型”。之前的版本虽然不小心泄露出来,但业界已经有很多人在使用了,而前不久出来的 Llama 2 更好用、能力更强,我觉得可以这么说,开源大模型中,目前来看,很多企业可以选择的就是 Llama 2 了,这是它质量上带来的好口碑。

很多人认为 Llama2 可商用,但并不是开源,您这边是有什么建议或者反馈?

++谭中意++:关于 License 的问题,主要有两方面:第一方面它确实不是采用传统的 OSI 认证的开源许可证,因为它对使用者用途有几个限制。但另一方面,开源的定义从 1998 年推出到现在大概有 25 年了,却未有任何更新,这是一件非常奇怪的事情,最近也有听说 OSI 会出一些关于 open AI 的 License 的新东西,我们可以拭目以待。

而从务实角度来说,我们需要与时俱进,如果 License 不能与商业模式相匹配,那 License 的生命力是有限的。当年 GPL 的发布,是针对当时的环境来制定的,当时 copyright 无处不在,而现在大家对 copyleft 已经接受良好,相反需要去平衡开源与商业化,因此我也非常期待 OSD 如何对这一块进行更新。

所以,根据现有的开源定义,Llama 2 它不是一个开源产品,但是我们不觉得将来也是这样,我们需要一些改变。

结语

对开源雨林接下来有什么建议?或者期望开源雨林做哪些事情?

++谭中意++:对于开源雨林,我认为需要坚守一个清晰的定位,以用户为中心,从理解开源、使用开源、贡献开源等几个阶段构建开源知识体系,共建开源繁荣生态。把开源雨林做成一个品牌,不断的通过各种形式来输出内容,比如大咖访谈、三人行等,吸引更多人来参与,来强化这个品牌。


开源雨林围绕开源通识、开源使用、开源贡献三大方面构建知识体系,愿把长期积累的经验系统化分享给企业,在团队、机制、项目三方面提供合作,推动各企业更高效地使用开源、贡献开源,提升全行业开源技术与应用水平。  开源雨林的内容已开源,并托管在 https://github.com/opensource-rainforest/osr ,欢迎通过 Pull Request 的形式贡献内容,通过 Issue 的形式展开讨论,共同维护开源雨林的内容。 如果您有新的想法,欢迎加入开源雨林交流群,一起探讨。小助手微信:osrainforest(添加时请备注“交流群”)

标签:AI,模型,++,开源,百模,GPT,亮剑,中意
From: https://blog.51cto.com/u_15708880/7305367

相关文章

  • train_set_x_orig = np.array(train_dataset["train_set_x"][:])
    这行代码的作用是将 train_dataset 字典中的 "train_set_x" 键对应的值转换为一个NumPy数组,并将其赋值给变量 train_set_x_orig。首先,train_dataset["train_set_x"] 表示从 train_dataset 字典中获取键为 "train_set_x" 的值。接下来,[:] 表示获取该值的所有元素。最......
  • covers和contains的区别?
    covers:b上的每个点都在a上(边界和内部),且所有点都不在a外部。属于相交的一种。对应九交模型参数为:T*****FF*\*T****FF*\***T**FF*\****T*FF*注意和contains的区别。参考:https://blog.csdn.net/whl0071/article/details/127127256 参考2:https://www.cnblogs.com/oloroso/p/1429......
  • 学习方法 --- ai助力学习计算机技术
    chatgpt  可以让它写代码,自己有不懂的代码也可以发给它解析。gpt3免费使用但是要过墙注册账号,步骤繁琐。而且有回答的安全限制,不能编写渗透测试程序newbing免费的chatgpt4百度ai可以读取渗透测试程序,chatgpt不行......
  • 【Azure App Service for Container】记一次拉取镜像失败的特殊情况
    问题描述使用AzureAppServiceForContainer拉取应用镜像,发现拉取失败。错误消息:“ImagepullfailedsinceInspectimagereturnednull:xxxxxxx.azurecr.cn/dataapi:20230830V2.0”CreateImageAsync()forxxxxxxx.azurecr.cn/dataapi:20230830V2.0failedwithEx:Docke......
  • 新增!视频智能分析/AI算法智能分析网关V5告警功能添加教程来咯!
    智能分析网关系列是基于边缘AI计算技术,可对前端摄像头采集的视频流进行实时检测分析,能对监控画面中的人、车、物进行识别,可实现的检测包括:人脸检测与识别、车辆检测与识别、烟火识别、安全帽/反光衣识别、区域入侵识别等,支持对检测到的异常进行实时告警、抓拍、推送。近期,智能分析......
  • MySQL 主从自动修复工具"pt-slave-repair"
    工具下载:https://github.com/hcymysql/pt-slave-repairpt-slave-repair工具简介:MySQL主从复制作为一种常见的数据同步方式,有时候会出现同步错误导致同步中断的情况。手动修复这些同步错误通常需要耗费不少时间和精力,并且对于不熟悉MySQL复制的人来说比较困难。pt-slave-rep......
  • tailwindcss -原子化 CSS 框架
    原子化CSS框架我记得很久之前有时候为了少写些css,我们通常会有如下的样板代码.block{display:block;}.flex{display:flex}.flex-center{align-items:center;justify-content:center;}.w1{width:1%;}/*1...100*/.w100{width:100%;}......
  • 生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作
    感谢大家阅读《生成式AI行业解决方案指南》系列博客,全系列分为4篇,将为大家系统地介绍生成式AI解决方案指南及其在电商、游戏、泛娱乐行业中的典型场景及应用实践。目录如下:《生成式AI行业解决方案指南与部署指南》《生成式AI在电商行业的应用场景实践–赋能营销物......
  • 智能正则表达式生成: Regex.ai助您编写更便捷的匹配规则
    正则表达式是一种强大的文本匹配工具,然而,对于许多人来说,学习和编写正则表达式却是一项相对复杂的任务。为了让正则表达式编写更加智能化和高效,Regex.ai应运而生。本文将深入介绍Regex.ai的作用以及其在正则表达式编写领域的价值。1.Regex.ai服务简介Regex.ai是一款基于人工智能......
  • windows10创建conda环境失败:CondaHTTPError: HTTP 000 CONNECTION FAILED for url <htt
    问题描述创建新环境时,报错,创建不成功Collectingpackagemetadata(current_repodata.json):doneSolvingenvironment:doneCondaHTTPError:HTTP000CONNECTIONFAILEDforurl<https://conda.anaconda.org/conda-forge/linux-64/current_repodata.json>Elapsed:-AnHTTP......