国产AI模型和美国顶级AI模型的距离在哪？—— 算力？算法？数据？

时间：2024-02-04 10:36:30浏览次数：19

前段时间去了长春一汽，聊了Reinforcement Learning方面的工作，既是面试，也是谈了谈意向，最后全部OK，本打算是签合同了，结果HR说要求有三年的社保缴纳证明工作经验，最后说可以减到24个月，不过说来也是有意思，我这人还真没社保，这就尴尬了，最后说这是上面的文件，国企就这要求，后来也只能作罢，但是这一趟也和一汽那边的人聊了聊，中间也是闲聊，对方的对接人员提了一个问题，那就是“国产AI模型和美国顶级AI模型的距离在哪？”，本文也是自己突然想起了这问题，也就有了下面内容。

这个AI模型的差距，其原因无非就是：算力？算法？数据？

我国的算力或许没有美国多，但是真要认真比，那也绝对没啥大差别，弄不好还能压一头，要对我国算力的库存有一定信心，也要对中国的社会的资金要有一定信心。

那么如果不是算力，那能是算法吗？

估计也不是，算法deep learning这东西有些玄幻，有些炼丹，但是不要忘记，几乎所有的AI论文、AI模型、相关的技术都是开源的，是免费的，是公开的，即使最后的chatgpt3.5还是4.0没公开论文但是有了之前的所有公开的技术和文档，这方面也绝对不是差距。

那就只有一个原因了，那就是数据。

我们要知道，虽然中国人很多，中国的汉语文字也很多，但是你要知道全世界说的最多的语言还是英语，全世界的主要的科技文档、社会学、医学文档都是用英文撰写的，几乎所有的自然语言的语料库也都是英文的，世界上的视频、文字等等电子化的资料也都是英文为主的，虽然中文我们有14亿人，但是你要知道，除了中国以外几乎大部分的这个地球上的人可都是在用英语的，这就是现实情况。而且最愁人的还有，那就是几乎所有的NLP的研究也都是以英文为主的，那你说在这个大背景之前我们搞的AI模型的这个中文语料库怎么和美国的那些人比，而且这里面我们还要考虑到语言特性，比如英文的表达更偏向形式表达，而中文的表达更偏向于联想表达，中文的表达信息量更大也更能处理和表达，而且在这之上再加上语料库的资源的不足和质量有限的问题，所以采用了这个NLP方面的AI模型表现的差距。

说这个“对话生成的系统”可能很多人不理解这个语料和语言本身的差距，那么我们还可以看看这个copilot，要知道世界上的绝大部分代码都是保存在GitHub上的，虽然我国有gitee，但是但凡是搞IT的估计也都是知道的，这个GitHub和Gitee根本就不是一个量级，在我看来这二者之间至少差了两个数量级，不论是资金、代码资料还是代码数，还是用户数，都是两个数量级的差距，甚至还不止，弄不好能有3到4个数量级，1万倍的差距。那么在这么大的差距之前，我们又怎么可能在这种数据资源上训练出和美国AI相匹敌的算法模型呢，所以在我看来，在我们的基础数据有着这么大的差距的情况下，我们的模型还能取得和美国AI模型性能相当的表现，这并不能说明我国的AI领域不行，而是说明我们的AI领域要远远强于美国。这就相当于什么，这就相当于当年打抗美援朝战争那样，我们用低端武器把美国的那些高端武器的军队挡住了，那不是平手，那就是战胜。

标签：AI,模型,算法,差距,算力,语料库
From： https://www.cnblogs.com/devilmaycry812839668/p/18005693

倾斜单体化模型技术实现
详细介绍了倾斜单体化模型的四种实现思路。目录1概述2详论2.1切割单体化2.2矢量单体化2.3ID单体化2.4模型重建单体化3总结1概述为了改进倾斜摄影模型数据在实际GIS场景应用中诸多的缺点，一个非常热门的优化方向就是单体化。所谓单体化，是指让倾斜摄影......
[MY-013183] [InnoDB] Assertion failure: dict0dict.cc:1869:table->get_ref_count()
背景：执行altertableTABLE_NAMEdroppartitionPART_NAME;时执行过程中执行了ctrl+c导致mysql服务器崩溃自动重启。mysql错误日志内容：2024-02-02T10:30:32.424737+08:00460639464[ERROR][MY-013183][InnoDB]Assertionfailure:dict0dict.cc:1869:table->get_ref_count......
【scikit-learn基础】--『分类模型评估』之评估报告
分类模型评估时，scikit-learn提供了混淆矩阵和分类报告是两个非常实用且常用的工具。它们为我们提供了详细的信息，帮助我们了解模型的优缺点，从而进一步优化模型。这两个工具之所以单独出来介绍，是因为它们的输出内容特别适合用在模型的评估报告中。1.混淆矩阵混淆矩阵（ConfusionM......
Promise, async, await实现异步编程，代码详解
写在开头一点题外话其实最近在不断的更新Java的知识，从基础到进阶，以及计算机基础、网络、WEB、数据库、数据结构、Linux、分布式等等内容，预期写成一个既可以学习提升又可以面试找工作的《Java成长之路》！算是对自己学习的总结（笔记），也算是一种程序猿的记忆，现在大环境那么差，万一哪天......
SYCL并行编程模型介绍
SYCLSYCL（pronouncedas"sickle"）是一种用于实现异构计算的开放式标准，由KhronosGroup维护和推动。SYCL的目标是提供一种统一的、高性能的编程模型，使开发人员能够有效地利用异构系统中的多个计算设备，如CPU、GPU、FPGA等。以下是SYCL的一些关键特点和概念：异构编程：SYCL旨在支持异......
R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化
原文链接：http://tecdat.cn/?p=24973 原文出处：拓端数据部落公众号简介世界卫生组织估计全世界每年有1200万人死于心脏病。在美国和其他发达国家，一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式，从而减少并发症。本研究旨在查明心脏病最......
Python随机波动模型Stochastic volatility，SV随机变分推断SVI分析标普500指数股票价格
全文链接:https://tecdat.cn/?p=33809原文出处：拓端数据部落公众号随机波动模型（Stochasticvolatilitymodels）经常被客户用来对股票价格随时间的变动性进行建模。波动性（volatility）是随时间的对数收益的标准差。与假设波动性恒定不变不同，随机波动模型具有隐变量参数，可以在每个时刻......
R语言结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例|附代
原文链接：http://tecdat.cn/?p=25044原文出处：拓端数据部落公众号最近我们被客户要求撰写关于结构方程模型的研究报告，包括一些图形和统计输出。1简介在本文，我们将考虑观察/显示所有变量的模型，以及具有潜在变量的模型。第一种有时称为“路径分析”，而后者有时称为“测量模型”。......
Linux调度pick_next_task_fair整体框架解读
pick_next_task_fair是CFS调度类中选择next任务的主要路径，其主要功能是从当前CPU的就绪队列cfs_rq中选出一个可运行的任务作为"next任务"，并将前一个任务prev重新放到就绪队列。下面是这段代码框架流程解读。1判断rq->cfs.nr_running>0？如果不满足说明没有可运行任务则gotoidl......
为了AI不跑偏，他这一年操碎了心
这一年，李彦宏除了兴奋，还有些着急。“媒体、社会、公众主要的兴奋点还在基础模型上，没有转到AI原生应用上，我多多少少有点儿着急。”在12月16日举办的“极客公园创新大会2024”上，百度创始人、董事长兼CEO李彦宏与极客公园创始人兼总裁张鹏进行了一场50分钟的对谈，他再一次强调自己的观......

国产AI模型和美国顶级AI模型的距离在哪？—— 算力？算法？数据？

那就只有一个原因了，那就是数据。

相关文章

赞助商

阅读排行