原创 | 文 BTF机器人
01 微软
(1)老牌PC 软件巨头,近年以云业务为核心,Azure 市占率不断提升
当前微软的核心业务包括智能云(Azure、Windows Server、GitHub等)、生产力与企业流程(Office365、领英、Dynamics 365)与个人计算业务(Windows、搜索广告、游戏、设备)。其中云业务是近年来公司的核心,22财年收入为752亿美元,收入占比近40%。
(2)19 年起布局 AI 领域,5 年内不断加深对 OpenAI的投资、合作
2000 年以来微软发展大致经历3 各阶段:
- 2000s:错失移动互联网发展时机,股价大幅下挫;
- 2010s 至今:推出Azure云服务快速提振业绩;
- 2019 年以来:布局人工智能领域,包括先后投资人工智能公司OpenAI、Nuance,2023年宣布追加对OpenAI的投资,且双方的合作进入到第三阶段。
(3)投资OpenAI :底层算法平台,AI 应用开发的“安卓系统”
除 22 年收购苹果“ “Siri” ”司 背后的对话式人工智能公司Nuance外,微软在生成式AI 领域最核心的布局就是对OpenAI 的投资与合作 。
OpenAI 是一家大型人工智能研究公司,15 年成立之初为非营利机构。OpenAI在2015年由马斯克等人出资10亿美元创立,研发人员包括世界著名AI专家,AI开发水平处于第一梯队;2022年6月,量子计算专家、ACM计算奖得主Scott Aaronson宣布将加盟公司,公司以实现安全的通用人工智能(AGI)为核心宗旨。
19年、21 年微软进行投资,一线风投也积极入局。19年、21年OpenAI分别接受微软10亿美元投资,由非营利机构转为以盈利为目标的公司。除微软外,投资者还包括红杉资本、老虎全球管理公司、Bedrock Capital等一线风投机构。据TheInformation,OpenAI 21年估值已达200亿美元,我们预计OpenAI当前估值或接近300亿美元。
23 年初微软表示将在未来继续对OpenAI 投资数十亿美元,并进入第三阶段合作。
当前各类生成式AI 创业公司中,OpenAI 估值最高:通用型底层算法平台,类似人工智能应用开发的 “ 安卓系统 ”。
目前,专注底层系统的公司估值更高。虽然相较应用研发商,基础设施研发商的商业模式尚未成熟,多数还在探索阶段,但因其应用场景更广,且掌握核心技术能力,在未能实现稳定盈利的情况下,估值相对更高。但同样可见,海外除底层算法开发公司以外,初创公司基于开源技术,仍可开发应用并开展To C业务,具有一定商业化潜力,因此我们预计,国内尽管头部互联网公司已积极布局,但中小型公司仍有业务开展余地。
(4)投资OpenAI:技术迭代,产品出圈,23 年 GPT4 有望发布
OpenAI 发布多款底层算法,并推出相关应用API:
GPT-3(语义)在NLP任务中实现重大突破,能够完成绝大多数NLP任务,入选《麻省理工科技评论》21年“十大突破性技术”,目前GPT-3已开源,注册人数超100万,基于该算法已经出现Jasper、Copy.ai和Copysmith等。
GPT-3.5(升级)GPT-3.5 是一系列模型,21年Q4混合使用文本和代码进行训练。近期出圈的ChatGPT 则是GPT-3.5 的微调版本 。
CLIP(跨模态)与微软合作发布,能够将图像映射到文本描述的类别中,跨越了文字语义与图像语义的鸿沟,目前已开源,Disco Diffusion、MidJourney均基于CLIP架构及生成算法实现。
Codex(文字→代码)具有将自然语言输入变成代码、代码自动补全等功能,是Github Copilot的底层支持。
DALL-E 2(文字→图片)基于CLIP和Diffusion,实现了有文本生成高质量图片,两个半月注册人数突破100万,公司今年7月正式开始出售DALL-E 2 的图像生成软件许可,目前用户超过150万,每天生成200多万张图片。
GPT-4 可能于 23 年发布:据theverge 报道,外界预期 GPT-4 会在 23 年第一季度或上半年问世 。
ChatGPT 能力强大 & 用户友好,发布短期DAU 破千万,引起更大层面关注。
ChatGPT不仅在对话、检索、创作、代码等领域展现出强大的能力,还支持直接通过网站试用该文本对话模型,而不是需要专业编程技能试用,且用户界面友好,大大降低了用户门槛,推动了其在全球范围的广泛传播,发布5天用户便突破了100万,发布40天内用户数即超过了1000万。
计划推出无限制、性能更高的专业付费版本。
1月11日,OpenAI 总裁兼联合创始人 Greg Brockman 在 Twitter 上发布 ChatGPT专业版问卷链接,目前已有早期获得访问权限用户分享专业付费版本截图,暂定价为42美元/月。
据路透社报道,OpenAI 预计今年的收入将达到 2 亿美元,到 2024 年将达到 10 亿美元。ChatGPT 的专业付费版可能是其增收的尝试之一。
(5)小结:通过OpenAI弯道超车,微软旗下各产品有望“智能升级”
微软在人工智能领域进行系统性布局的时间并不算早(2019年),但把握住对 【 生成式 AI 龙头公司】OpenAI的投资与合作,一定程度上实现了弯道超车。
通过与 OpenAI 更加深度的绑定,我们展望微软旗下各产品体验均有望 “ 智能升级 ”
企业级云计算领域:或将帮助企业级客户更加自主、安全、方便地开发AI应用;
个人生产效率方面:此前微软提到计划将ChatGPT整合进旗下搜索引擎必应(Bing,同时Chat-GPT功能引入Office,用于部分文本的生成和问答等,这些都将提升个人用户的生产效率;
娱乐交互领域:此前微软计划收购动视暴雪,叠加在云游戏的布局,若能引入生成式AI模型,有望在游戏的生产、分发与最终体验方面进一步升级。
02 谷歌
(1)搜索引擎龙头,广告为核心,AI 布局更早、更深
谷歌是全球搜索引擎龙头 , 以搜索广告为主要收入来源 , 同时也较早在AI 领域布局大规模投资
广告为核心收入:据statcounter,2022年12月,谷歌在全球搜索引擎市占率绝对领先,为92.6%,远高于第二名的微软搜索引擎必应Bing,后者仅3.0%。凭借高效的算法及海量的用户触达,谷歌搜索为公司贡献高额广告收入,2021年达1490亿美元,近5年收入占比基本在60%左右。
在 AI 方面的投入较早 、 较大:谷歌从14年就开始系统性布局人工智能。据23年1月投资者商业周刊引用美国银行的数据,自2016年谷歌在人工智能、云计算领域累计投资金额已超1200亿美元,涵盖互联网广告/搜索、云计算、医疗、服装设计、无人驾驶等领域。
(2)AI 布局最早追溯至06 年,14 年收购Deepmind
AI 技术积累深厚 ,购 收购Deepmind 加速技术突破。早在2006年,谷歌及开始AI领域布局,并在2009年开始无人驾驶的尝试,2011年成立AI部门并推出可自我学习的人脑模拟软件谷歌大脑,2015年即将AI运用到搜索中
2014 年谷歌收购关键的AI 研发机构Deepmind , 从此谷歌的AI 布局加速 。在2016宣布将发展战略由Mobile First转向AI First,同年AlphaGo击败韩国围棋冠军李世石,2018年推出蛋白质结构预测AI模型AlphaFold,2022年发布人工智能聊天机器人Sparrow,23年初测试Apprentice Bard等类ChatGPT产品。
(3)DeepMind :有底层模型Gopher/Chinchilla ,也有AlphaGo
DeepMind 为谷歌关键的AI 研发机构。Deepmind是一家英国的人工智能企业,由人工智能程序师兼神经科学家戴密斯·哈萨比斯(Demis Hassabis)等人于2010年联合创立,在2014年被Google收购。与OpenAI代表性的GPT-3/GPT 3.5类似,Deepmind也有底层的大语言模型Gopher和Chinchilla。
DeepMind 建立高性能算法 , 延伸到模拟 、 生物科研 、 游戏操作 、 聊天 等领域 。其代表算法产品如打败围棋世界冠军的AlphaGo,实现精准预测蛋白质结构的AlphaFold,战胜电竞职业玩家的AlphaStar,智能聊天机器人Sparrow等。
(4)ChatGPT来势汹汹,谷歌或蓄势待发
我们认为 ChatGPT 已经引起了谷歌的较高重视,基于此前谷歌在生成式 AI 领域的巨大投入,有望蓄势待发:
谷歌搜索业务或受影响:凭借较强的内容生成能力,23年1月中旬据ARK风险投资公司,ChatGPT在上线不到两个月内实现日活超1200万。据澎湃新闻,微软正考虑将ChatGPT引入搜索引擎必应(Bing)中,或对谷歌搜索业务产生冲击。据纽约时报,近期桑达尔邀请了谷歌创始人拉里佩奇和谢尔盖布林参会,会议标题为“一个聪明的人工智能产品,可能是几十年来对谷歌搜索业务的第一个显著威胁”。
谷歌核心广告收入或受影响:前谷歌广告团队负责人Sridhar Ramaswamy表示,ChatGPT一定程度上阻止了用户点击谷歌中带有广告的链接。据MORKETING Global统计,美国前十大互联网公司中,谷歌广告收入在2Q21/2Q22均排第一,在十家公司中占比约45%,为微软的约3-4倍。
谷歌内部已迅速反应反馈:据CNBC,谷歌首席执行官桑达尔皮查伊在22年底参加了多次围绕谷歌人工智能战略的会议,并指示公司的许多团队重新集中精力,着力解决ChatGPT对其搜索引擎业务构成的威胁。谷歌已于23年1月底开始测试Apprentice Bard等类ChatGPT产品。
(5)生成式 AI 产品矩阵丰富,其中 Sparrow 等有望对标 ChatGPT
生成式AI 产品矩阵丰富,Sparrow 、Apprentice Bard 等或有望对标ChatGPT 。目前谷歌在生成式AI领域已经推出多款产品,涵盖基于文字生成图片、视频、音乐等内容的AIGC产品,用于智能聊天的Sparrow,用于生物科研的AlphaFold,以及AlphaGo、 AlphaStar等产品。据《纽约时报》,谷歌内部会议表示,谷歌今年计划推出20多款新产品,并展示一款具有聊天机器人功能的搜索引擎。而Sparrow、Apprentice Bard等作为类似ChatGPT的智能聊天机器人模型,或将用于与搜索引擎结合,从而与ChatGPT抗衡。
(6)Sparrow:智能聊天机器人,23 年有望推出测试
Sparrow:类似于ChatGPT,Sparrow是DeepMind于22年9月提出的智能聊天机器人模型,或会在23年晚些时候进入测试阶段。
其也采取了基于人类反馈的强化学习框架,为用户的提问给出合理、有用、符合语境、合规的解答,并利用谷歌搜索出的相关信息作为支撑证据。据纽约时报,谷歌计划在今年进行的聊天机器人搜索演示中表示,正确掌握事实、确保安全和消除错误信息是首要任务,而目前,Sparrow已有一套规则模型,来训练其避免回答违反规则的问题。
Sparrow Vs ChatGPT :参数更少,但训练集更大,垂类内准确度有望更高
运作原理:基于数据和参数生成结果。Sparrow是基于谷歌自有的大型语言模型Chinchilla进行训练的聊天机器人,通过学习众多的数据让模型的参数更加确定、模型更加成熟。模型成型后,用户输入的数据与参数结合,则将生成相应的回答。
在较多语音任务中回答结果更准确:根据新智元,在几乎所有的语音任务中,Sparrow基于的Chinchilla模型所得到的结果,在准确性上优于GPT-3以及Gopher等模型,得到的结果与期望得到的结果更接近,性能更高。
参数量更小,所需算力小:模型的参数越多,消耗算力越大,输出结果所消耗的资源和时间更多。相比其他大型语言模型,Chinchilla使用的参数有700亿个,明显少于GPT-3、Gopher等模型,能降低推理成本,并促进模型在较小硬件上的下游使用。
训练数据更多:训练数据越多,有助于提升模型的性能、输出结果的质量。根据DeepMind,Chinchilla的训练数据量为1.4万亿,远多于其他模型。
Apprentice Bard VS ChatGPT:时效性或更强
Apprentice Bard 或较 ChatGPT 有更强时效性。据CNBC1月31日消息,谷歌还在开发另一款类ChatGPT产品 Apprentice Bard,是基于谷歌人工智能语言模型LaMDA的对话机器人。用户向其提问后,该产品可反馈详细的回答,用户可进一步反馈。Apprentice Bard的回答包含了近期发生的事件,相比ChatGPT或有更强的时效性,例如在回答“谷歌是否近期会有新一轮裁员”时,Apprentice Bard 的回答引用了于23年1月谷歌开展的解雇12000名员工的事件。
其他类ChatGPT 产品也在推进中。除了Apprentice Bard,据CNBC,谷歌还在测试项目,例如云计算部门下开展名为Atlas的项目以应对ChatGPT,以及一个可能使用问答形式的备用搜索页面。
(7)AlphaGo 与AlphaStar在围棋、游戏比赛中可战胜人类选手
AlphaGo:2014年发布,为DeepMind开发的人工智能围棋机器人,借助神经网络、深度学习、蒙特卡洛树搜索法,实现对围棋棋盘局面、定位的智能处理和推演。2016年3月,AlphaGo以4比1的总比分击败职业九段棋手李世石, 2017年5月以3比0的总比分击败排名世界第一的世界围棋冠军柯洁。
AlphaStar:2019年发布,为DeepMind开发的利用强化学习技术设计的一款AI代理程序,通过自我学习策略,掌握了即时战略游戏《星际争霸 2》的玩法,实现了在游戏中采用多种制胜策略、基于不完善的信息进行战略规划等。据人民日报,2019年1月, AlphaStar以5:0战胜了两位《星际争霸 2》职业选手,且在游戏中, AlphaStar展现的每分钟操作的次数(APM)与人类职业选手相近。
(8)AlphaFold实现蛋白质结构三维模型的预测
Deepmind 在2018 年发布蛋白质结构预测AI 模型AlphaFold,并在2020 年迭代至第二代 。通过在数据库中搜寻目标氨基酸的相关序列,提取学习相邻“共进化”氨基酸的信息,从而在三维空间对蛋白质结构进行预测,相较传统预测方法节约了大量时间和资金。Deepmind 2022 年 7 月 28 已发布的最新版本数据库扩展到了2 亿多个蛋白质结构,包括科学界已知的几乎所有蛋白质。AlphaFold团队因此获得了2023年生命科学突破奖(Breakthrough Prize in Life Sciences),这是迄今科研领域里奖金最高的生物学及医学奖项。
(9)Gato(通才)—— 集成百种指令响应
2022年由DeepMind推出的“通才”AI模型,能够根据指令完成注释图像、交互式聊天、玩小游戏、关节力矩控制、在现实中使用机械臂堆叠积木、在模拟 3D 环境中导航等数百种任务。相较于Adobe Sensei,Gato 不仅集成了生成式AI,而是具备了未来集成通用人工智能的虚拟人的内核 。
(
10)AIGC 产品:生成文本、音乐、图片、视频等
Text-to-Speech:文字转语音 。2017 年基于DeepMind的语音合成专业技术打造的文字转语音模型,支持40多种语言、220多种语音和参数调整,并且支持用户上传自己录制的音频来训练自定义语音模型。
AlphaCode:高效代码生成。发布于2022年,根据DeepMind官方的描述, AlphaCode定位主要是软件开发者的助手,尤其是帮助无编程基础的用户写代码。用户将代码要求以注释形式输入后,AlphaCode能够将其识别并完成代码的编写、筛选和输出。据机器之心pro,AlphaCode针对10项编程挑战进行了测试,总体排名位于前54.3%,击败了46%的人类参赛者,且首次通过率达66%。
Dramatron :剧本辅助编写。发布于2022年,是一个交互式的剧本辅助编写工具,基于大型语言模型生成长而连贯的文本,能够从一句话表述的戏剧冲突中生成剧本标题、角色、场景、对话等,主要用于合著剧本的创作场景,可以为创作者的编译与修改提供支持。据DeepMind发表的一项定量研究显示,超过65%的体验者认为Dramatron创作的剧本出人意料、有趣且独特,超过75%的体验者认为Dramatron使用体验良好,能够帮助创作者传达创造性想法,可以在创作过程中发挥重要作用。
Wordcraft: 故事生成。2021年由谷歌推出,作者和AI以对话的形式共同编辑故事,支持续写、扩写、改写、生成大纲等功能,能够极大提升写作效率,激发创作者灵感。
MusicLM:音乐生成。谷歌于23年1月发布了基于文本生成音乐的AI模型MusicLM,用户输入描述曲风、播放时长、使用乐器等的文本,或图片和标题的组合,将生成对应风格的音乐。
Imagen:图片生成。谷歌于2022年五月推出了由文本生成高清图像的模型Imagen,并在11月谷歌AI@年度会议上宣布首次开放测试,其官网宣称Imagen 生成的图像已经全线超越了OpenAI的同类模型DALL-E 2。Imagen已开放提供城市梦想家和Wobble两个功能。
城市梦想家:用户可以用文字命令创建样本建筑和地块(城市广场、公寓楼、机场等),从而建造不同主题的城市。
Wobble:用户可以创造一个小怪物,并设计其材质(粘土、毛毡、橡胶等)、衣服,并让小怪物“跳舞”。
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。
标签:蓄势待发,谷歌,微软,AI,模型,生成式,OpenAI,ChatGPT From: https://blog.51cto.com/bftrobot/6088792