首页 > 其他分享 >“做了一辈子机器人,深知其困难” | 一场关于机器人的深度对话

“做了一辈子机器人,深知其困难” | 一场关于机器人的深度对话

时间:2024-01-02 11:34:52浏览次数:34  
标签:模型 美团 机器人 具身 智能 对话 深知 我们


2023年12月19日,深圳市美团机器人研究院学术年会在清华大学深圳国际研究生院成功举办。会议回顾了研究院成立一年来的进展和成果,并邀请了各界专家共同讨论机器人技术的未来发展趋势。

“做了一辈子机器人,深知其困难” | 一场关于机器人的深度对话_机器人

从左至右依次为:张鹏、王田苗、张宏、张建伟、汪玉、许华哲

在圆桌论坛环节,极客公园创始人兼总裁张鹏担任主持,他与北航机器人研究所名誉所长、中关村智友研究院院长王田苗,加拿大工程院院士、南方科技大学讲席教授张宏,中国工程院外籍院士、德国国家工程院院士张建伟,清华大学电子工程系教授、系主任汪玉,清华大学交叉信息研究院助理教授、清华大学具身智能实验室负责人许华哲5位行业专家学者,围绕机器人的技术发展应用场景产业前景3个方向展开了深度的讨论。

核心观点集锦

王田苗

|「具身智能」可以比喻为一个孩子,只是它的成长速度超乎想象。通过人机交互,我们可以帮助它将宏观的任务分解为一系列思维链路和子任务,并利用自动编程并且通过实时在线感知,局部自主地来完成任务。在这个过程中,「具身智能」将逐渐学习和成长,变得越来越聪明。

在一些复杂的实践环境中,「具身智能」可以通过利用感知、视觉、触觉等功能来校准原有行为动作或控制模型的误差,从而适应环境的变化。

每个人来到这个世界都有TA自己的使命,有些人没有找到,只是环境还没有唤醒TA。

同学们在学完基本的方法和理论知识后,面临一个更重要的课题:你是否真正想要改变世界。如果怀揣这样的愿望,自驱力、冒险精神、与人交流的智慧都会随之增强,这些品质对个人成长具有不可估量的价值。

张宏

我做了一辈子机器人,深知其困难。从一定意义上讲,四十年前的机器人和前几年的机器人并无质的区别,说明这件事情真的很难。

大模型或者说大数据都是一个很好的切入点,在我们拥有了大模型之后,实际上等同于把机器人推到一个很高的位置,可以让它在一个更高的基础上进行发展。

商业成功很大程度上取决于市场,如果能够在一个成熟的市场上引入新技术,那么就容易占据一定的优势地位。

研究人员的任务是「顶天」,做产业的任务是「立地」,这就是「顶天立地」。科研工作,更多的是追求突破、创新,而做产业则是追求稳定、可靠,能够产生商业价值。如果让产学研同时成功的话,我们就需要进行科研合作,让产业界有效地能利用高校产出的这些研究结果去落地到他们的产品当中。

张建伟

人工智能指数式增长,为机器人发展提供了强大的动力,也使「具身智能」成为未来发展的一个主题。

从长期来讲,如果我们能够把全模态的数据收集起来,不仅仅是视觉、听觉,还包括触觉等等,当机器人能够像人一样收集全部的信息,然后我们将运动skill也做出对应的模型,未来的想象空间还会更大。

美团、谷歌等大公司的优势在于丰富的数据应用场景;而大学的优势在于不断推出新的理论、结构、算法,同时了解全世界技术进展。所以大学应该多与大公司密切合作,不断发现新机会。

在应用层面,协作机器人和物流配送机器人都有非常大的推进,使我们在机器人系统的应用、迭代方面,取得了非常大的进展,进一步给机器人系统应用、数据收集提供了非常好的机会。在机器人的元器件发展方面,国内进展也非常快。比如美团投资的3D点云相机已经越做越小,相信未来可在无人机上应用。还有激光雷达、电机减速器等,这一年进步都非常大。

汪玉

|  在人口老龄化的背景下,智能机器人的应用是社会进一步发展的重要途径。

|  不论机器人使用什么操作系统,底层也是硬件,而硬件传感器有无数种,所以需要有一个类似大脑的东西,来统一控制这些传感器。这个「大脑」最终的形态尚未确定;当「大脑」形态没有统一,成本是降不下去的。

人工智能提供了一种可能性,使机器人平台底层算法中绝大多数的计算方式变得更统一,或者说「更矩阵」。过去用到矩阵求逆这种复杂的操作,但现在可能都是矩阵乘向量、矩阵乘矩阵。在感知大模型、决策大模型中都是如此;在控制过程中,也可以使用强化学习等模型。

许华哲

「具身智能」更多是「智能体」基于它对世界的理解,将自身的技能进行泛化,形态只是它的一个载体。

「具身智能」之所以跟传统的机器人不一样,是因为它的泛化能力,这个泛化是通过学习算法在仿真系统中去习得的,然后可以用在各种各样的地方。

|  早期的「具身智能」不一定好用,它怎么能够用到未来的数据让自己能持续变强,是用强化学习,还是用Transformer?就像大模型一样,如何让它变得强,是值得研究的点。

以下为圆桌对话的内容整理:

“做了一辈子机器人,深知其困难” | 一场关于机器人的深度对话_数据_02

张鹏:大家好,我是极客公园的张鹏,今天非常荣幸,能够跟这么多在科研领域不断探索的老师们一起聊机器人领域的发展。这一年我相信很多人都关注到了大模型技术带来的AGI领域的新变化,同时它也对很多行业产生了比较重大的影响,比如在机器人领域,「AI+机器人」给我们带来了很多新的想象。不管是在去年我们看到的特斯拉机器人原型机,还是在今年谷歌发布的大模型新论文,都让我们对未来有了更多的期待。

今天也是希望借助这样一个机会,跟多位业界专家一起探讨下机器人领域未来的发展趋势,以及未来在科研合作层面,学术界和产业界各自面临着哪些挑战。首先,我想先请各位帮我们圈点一下,在刚刚过去的这一年里,机器人领域有哪些让各位印象深刻的、值得圈点的事件?

王田苗:我个人觉得有三件比较重要的事件,让「具身智能」走到了这个时代的窗口。第一件事情还是特斯拉的人形机器人,因为马斯克让我们看到了,未来有可能两万美元的设备就可以走进工厂替代现有的工人。虽然这个机器人仍然存在着很多质疑,但是我们很期待看到它的进展。

第二个我认为是脑机接口,我们知道如果在操作层面能够实现,可将大模型植入到人类的大脑之中,这将是一个巨大的突破,最新Nature也公布了最新的人机交互成果,现在基本上可以将脑意识和四肢的功能区定位结合起来,让人能够说话,对那些长期瘫痪或者中风的病人来说,已经是一件非常好的事情了。而且在实现层面,软体手的落地进展也非常快,这点很重要,因为如果没有操作的话,机器人进入工业或者家庭,仅仅只能实现对话的功能,其意义并不是很大。

第三个就是AI大模型了,大模型重新定义了机器人,目前已经可以跟用户进行非常深度的交互,已经能实现编程这样的子任务。

张宏:过去这一年,我认为最重要的事件之一就是我们美团机器人研究院的成立。在这里,非常感谢美团给我这个机会,我们一起完成了高校与实验室的深度合作,我个人也非常鼓励企业多进行这种合作。

请允许我先介绍一下自己的从业经历,我20岁的时候就出国了,2020年回国,在国外从事机器人研究三十多年,可以说机器人这件事我做了一辈子。我之所以回国,非常重要的一个原因就是,国内有很多像美团这样高科技公司,他们愿意跟学术界展开科研合作,而且更为重要的是,深圳是一个充满活力的城市,这里有很多世界级的高科技企业,而且企业跟学术界的科研合作氛围也非常好。很高兴看到美团搭建了机器人研究院这样一个平台,我相信在座的很多同学也是这种合作机会的获益者。

提到机器人发展,刚才王教授讲得非常好,我这里稍微补充一下。过去一年,大家都知道ChatGPT已经发展的如火如荼,实际上它对机器人的发展也是一个很好的推动作用,包括我、还有我自己的学生都开始了这方面的研究工作。我刚刚讲过,机器人这个事情我做了一辈子,我深知这是一件很难的事情,甚至从一定意义上讲,四十年前的机器人和前几年的机器人并不存在质的区别,说明这件事情很难。

而如果想要解决这个难题,关键就是如何利用现有的知识,将一个机器人从零开始做起来,如何将这些先进的知识灌注到机器人的解决方案之中,以及这些知识通过什么形式教给机器人。我目前的判断,大模型或者说大数据都是一个很好的切入点,在我们拥有了大模型之后,实际上等同于把机器人推到一个很高的位置,可以让它在一个更高的基础上进行发展。

张鹏:总结一下,张教授的观点是大模型对机器人的发展来说很重要。请问,建伟院士有什么看法?

张建伟:今天非常开心,能够跟几位三十多年的朋友相聚在这里,而且聊机器人这个话题也非常有意义。今年我跟张宏老师一样,也参加了几个世界级的机器人领域的重要大会,我们对机器人领域的发展,包括学术层面已经取得的成绩是有着普遍的了解的。另外,我目前也在负责审批一些相关的会议,每年我能够看到一百多个Conference的主题,包括他们对未来的发展趋势的判断,我这里都能够看到。

总的来说,在应用层面,写作机器人和物流配送机器人都有着非常大的推进,这使得我们在机器人系统的应用、迭代方面,取得了非常大的进展,而这些进展又给我们的机器人系统应用、数据收集提供了非常好的机会。另外,在机器人的元器件发展方面,国内现在进展也非常快,我所知道的,比如美团投资的3D点云相机现在已经做得越来越小,我相信未来在无人机上的应用也能够很快得到实现。还有我们现在的激光雷达、电机减速器等等,这一年进步都非常大。

除了上面这些高速增长的领域之外,我觉得人工智能已经开始为各行各业进行赋能,不仅仅只是机器人这一个领域。我理解的机器人赋能,实际上是通过人工智能的四个方面快速进行发展,包括算法、数据、算力以及机器人学会如何学习,通过大量的仿真,我们能快速地加快机器人在真实世界的调试。在这方面,「具身智能」今年给我们带来了几个方向的新突破,特别是在视觉领域的突破,还有对环境的语义的理解等等多个层面,我相信未来也会给我们带来了更多的惊喜。我相信张宏老师跟美团的合作项目,将会是一个非常好的范例。

在机器人的Sequence Planning方面,我们通过机器人大量的序列收集和机器人序列的具身模型,我们已经能够得到更多的解决方案,未来我们对机器人的使用方式和人交互方式会有一个革命性的改变。

另外,ChatGPT对我们机器人领域的研发者起到了非常快的加速作用。相信很多使用过的同学都知道,ChatGPT已经能够具备了Low Level Coding Skill,能够快速将我们的idea、知识很快变成一个真实的产品。从一定意义上讲,人工智能这种指数式的增长,为机器人发展提供了非常强大的动力,这也使得「具身智能」成为未来发展的一个主体。

“做了一辈子机器人,深知其困难” | 一场关于机器人的深度对话_大数据_03

张鹏:我刚刚发现,几位专家都会非常自然地通过谈到大模型的进展,延伸出「具身智能」这个很关键的话题,好像「具身智能」这两年突然就成为了业界的主旋律,不管是政府部门、业界,还有投资圈都特别关注这个新概念。我先问问看起来比较年轻的华哲老师,你怎么去定义「具身智能」?好像最早就是因为有了特斯拉的机器人,「具身智能」的概念就流行起来了,所以具身智能是双足机器人吗?我们应该怎么理解具身智能?

许华哲:在我看来,「具身智能」其实最简单的定义就是一个有身体的智能,它是一个很大的概念,可能所有非具身的东西都在具身智能的范畴内。

从一定意义上讲,「具身智能」其实是机器人学和人工智能双方结合的产物,所以我认为「具身智能」不仅仅是在于双足,就类似于我们说交通工具不仅仅只有无人机一样,无人机只是交通工具的一种形态。我觉得「具身智能」更多是「智能体」基于对它世界的理解,将自身的技能进行泛化,形态只是它的一个载体。

张鹏:我想问问汪玉老师,前面几位学者谈到大模型,谈到「具身智能」对我们未来的影响,这让大家都感到很兴奋,而之所以感到兴奋,一定是对未来有着很好的预期,您觉得未来几年有什么事情值得期待?

汪玉:这个问题挺难回答的,各位都是机器人行业的前辈,我从2018年才开始关注机器人领域。我此前主要研究的方向是芯片,芯片的突破跟底层的工艺以及上层应用都存在着很强的关系。大家都知道,在底层工艺上,我们国家现在发展也受到了供应链层面的一些影响。但上层的应用,我觉得未来的重点会是机器人,所以从2018年开始,我下定决心开始看机器人相关的领域,目前还没有正式研究「具身智能」,现阶段只是聚焦于无人车、自动驾驶这些领域。

在人口老龄化的背景下,智能机器人的应用是社会进一步发展的重要途径。目前,我们的人口下行压力比较大,国家开始鼓励三胎了。在这种背景下,如果想要增加劳动力资源应该只能靠机器了,所以这个逻辑是比较顺畅的。相信今天在座的各位也都在为这个梦想而努力。

此外,未来两三年内我觉得在交通工具层面,应该会有比较大的进展,在运力层面美团已经做得足够好了,像深圳已经开始用无人机送货了,我们了解到,还有其他的城市也想在这方面开始布局。除了无人机、自动驾驶之外,我们也看到了特斯拉的机器人已经开始进入了工厂,慢慢地做一些普通人无法做到的事情,我们相信未来机器人在很多细分的方向都会比人类做得更好。我个人对未来机器人行业的发展,还是非常有信心的。

张鹏:也就是说,不管咱们从技术上怎么看,我们对应用层面的期待还是有着非常明确的方向。因为「具身智能」这件事情,如果要去看它的发展,也是要从应用场景出发,它不只是单一的技术。我想请建伟老师来帮忙预测下,「具身智能」未来最可能会在哪个领域实现批量的应用?是会在生产制造领域,还是会进入家庭,例如:提供养老服务?它大概会是一个什么样的发展路径?

张建伟:我想「具身智能」的应用可能会发生在我们生活中的方方面面,包括我们现在的物流,未来的养老和工厂。这个问题就是对机器人的几个垂直领域在近一两年内谁可以实现批量突破的一个预测。

我认为物流现在是一个非常快的增长点,这个方向也包括工厂的运输,我们目前应该处在2B到2C中间的过渡阶段。未来物流应该还会在现有的基础上进一步深化,将机器人部署到更多的实际场景中,然后在物流领域做出更加精密的模型,在更多的业务场景中真正实现自动化。比如我们现在的物流行业,还是需要有人帮忙打包,然后贴上物流单,以及最后的配送过程,都还需要人力来实现。未来我们将逐步通过科研合作,让机器人参与到更多的物流流程之中,我们通过大量收集数据,包括紧急场景的处理数据,在垂直模型中就能够精确地、自动化地预测出来下一步应该做什么动作,我想未来应该很快就可以看到这方面的应用。

另外,从长期来讲,如果我们能够把全模态的数据收集起来,不仅仅是视觉、听觉,还包括触觉等等,当机器人能够像人一样收集全部的信息,然后我们将运动skill也做出对应的模型,未来的想象空间还将会更大。

张鹏:也就是说,我们与其去预测哪个场景先出来,不如先看一下哪些产业存在着共同成长的机会。当然,具体到某个特定的领域,可能还是要靠一些真正的推动者,他们把产品做到位了,可能这个场景就率先(被突破)出来了。这里我还有一个问题,要想实现「具身智能」是需要像 AI 和机器人这样复合技术能力的共同发展,请问张宏教授,您怎么看「具身智能」的概念对这两个技术领域发展的影响?

张宏:我想先补充一下对「具身智能」的知识,「具身智能」这个概念实际上是由做人工智能的人提出来的。「具身智能」简单来说就是要「落地」,机器人不能只生活在电脑里。

我从事机器人研究做了很多年,有比较深的体会,最早的时候,我们开各种国际会议、学术会议,机器人行业有自己的大会,人工智能行业也有自己的大会,其实对老百姓来讲的话,两个会应该在一起开。可是在那个年代,机器人行业的终极目标可能只是人工智能的起点,我们关心如何把一个瓶子可靠地抓起来,而做人工智能研究的同学想的是,假设我已经可以抓起这个瓶子了,还可以做什么事情,当时是非常不健康的。

经过大家多年的努力,实际上已经让这两者距离慢慢在缩短,特别是「具身智能」这个概念提出以后,进一步推动了这两个领域健康共同发展。大家都知道,技术的发展一般有两个不同维度的发展,一个是走商业模式,实现商业上的成功,一个是科技发展。这两件事情的评估标准是不一样的,要求是不一样的,当然挑战也是不一样的。

我们做学术研究的总是希望做一些创新的东西出来,但是如何在商业层面取得成功,实际上我们是不太懂的,是外行。而且很多机会其实是我们预想不到的,甚至是偶然的。回想一下这些年我观察到的一些非常成功的商业案例,比如很多年前我们做扫地机器人,当初产品刚出来的时候,我们在美国卖这个扫地机器人,没想到市场反应还是比较好的。但是我们早期看待这个产品的时候,就觉得它是一个玩具,因为它扫地其实并不是很干净。不过,我们对比了现在能够看到的商业机器人,我们发现扫地机器人是最成功的例子之一。

所以说,商业成功很大程度上取决于市场,比如像美团,已经拥有了比较成熟的市场,就很容易通过客户端推广自家的技术(比如无人机配送)。如果能够在一个成熟的市场上引入新技术,那么就容易占据一定的优势地位。

张鹏:我能理解张宏老师的意思,他是在说我们不能只盯着技术,因为技术的发展速率往往跟市场的需求,还有具体的应用场景存在着非常大的关系,只要市场和场景解决了,技术就会加速,否则只会在「象牙塔」中缓慢地成长。我知道,王老师已经孵化了很多的创业项目,而且多数是机器人相关的,您这边有什么补充吗?

王田苗:前面几位专家说的都特别有道理,我主要在思考「具身智能」是怎么从人工智能和机器人延伸出来的。其实「具身智能」很早的概念,在50年代就被提到了,只是后来,人工智能走「人工智能」的路线,机器人走「机器人」的路线,然后走到了今天,当我们打通了底层的算力,大家觉得「具身智能」这件事情已经变成可行了。

我查找了一些资料,发现「具身智能」跟我们传统的机器人不一样的地方在于它强化了两个概念。传统的机器人是基于感知能够决策,并且能够执行行动来替代人类去完成各种动作(包括人类做不到的动作),这是机器人常规的一个定义。

而大模型出现以后,「具身智能」可以比喻为一个孩子,只是它的成长速度超乎想象。通过人机交互,我们可以帮助它将宏观的任务分解为一系列思维链路和子任务,并利用自动编程,局部自主来完成任务。在这个过程中,「具身智能」将逐渐学习和成长,变得越来越聪明,这是第一方面的概念;第二个方面,「具身智能」在复杂环境下可以利用感知、视觉和触觉等功能来校准行为动作或控制模型的误差,以适应环境变化。基于这两个方面,现在又延伸出了垂直大模型和文本大模型。

如果这个定义是正确的,那么「具身智能」第一条发展主线就是服务性的。我这里举一个例子,比如在一个人为创造的环境下,现在的机械手臂,可以拿起物品并完成装箱。如果换一个环境,机器人是够能够理解我们的意图,继续复制之前的操作。

我认为服务型「具身智能」应该会率先进入到社会,特别是公共服务领域,比如我们刚刚提到的物流、陪伴、聊天服务等等,它需要具备感知大模型。还有一种我们可以称之为劳动型「具身智能」机器人,这种类型机器人最大的特点就是需要劳动,需要具备一定的操作技能,可能就不需要具备情感能力了。

在工业层面,目前小批量多品种已经变成了一个趋势,比如打磨、更换一个器件等等,这个成本可能需要几千元,这需要工程师进入机器中进行标定,然后再完成编程等工作。如果「具身智能」发展到一定的阶段,它就可以通过不同的方式或者工艺,用更短的时间就可以完成换件工作,包括打磨、抛光、剔除毛刺等等。因为工业目前比较依赖工程师,所以落地速度应该会晚于服务型机器人。

最近,还有一个应用场景是科学发现,包括材料的科学发现、药品的科学发现,我们都知道医药的配方非常复杂,人类研发一种新药,可能需要十几年的时间才能应用于临床。如果利用「大模型」工具,当设定好实验模型,我们就可以让机器去拿这个瓶子各种捣鼓,实现昼夜24小时工作,还可以连续工作7天,这样我们就可以用极短的时间,完成一个博士生10年的工作量。

张鹏:王老师说的是AI for Science,所以,未来科研方面工作的效率就会明显提高了。

王田苗:这是我个人的理解。另外,我再讲一下,刚刚我们讲到了项目孵化,在我看来「具身智能」属于产业链的中游,而身处中游的「具身智能」就是一个非常大的赛道,可能只要真正的互联网大厂才能做,只有大厂才有实力打造一个「具身智能」的通用平台,一般的创业公司是做不了的,这个门槛非常高,而且需要极强的组织能力。而「具身智能」的上游就涉及到了高性能电机、3D触觉以及感知器件了,下游就需要依靠大模型了。

张鹏:我想继续问问华哲,就之前提到的问题,可以说「具身智能」是因为「双足」机器人的出现才引发了业界的关注。在你看来,「双足」未来会成为「标地」吗?你会比较期待什么,或者说,你从事的这些研究,想要推进什么?

许华哲:就像我刚刚说的,「双足」本身只是形态之一,且「双足」一定会有。但是,我们可以想象「具身智能」不是想要创造一种机器人,而是创作一个大的物种,这个物种里面包括人、狗、飞机、车等等,它们都是「具身智能」大类别中的一个形态。

我个人比较期待的第一个研究方向是「生成式仿真」,在我看来,「具身智能」之所以跟传统的机器人不一样,是因为它的泛化能力,这个泛化是通过学习算法在仿真系统中去习得的,然后可以用在各种各样的地方。相信做过机器人的都知道,「仿真」需要大量的人力、物力,而且跟现实并不是很像。而对「生成式仿真」系统来说,能够自动长出一个「仿真」,就像这个屋子一样,「具身智能」可以直接在这个屋子里利用「强化学习」算法去学习,去模仿,自然就可以学到很多有用的技能。

第二个比较感兴趣的方向,我觉得是在线学习的能力。当机器人已经完成了部署,比如说像我们的无人机每天都在飞,那我们采集到更多新的数据,能不能一直让它迭代变强。因为早期的「具身智能」不一定好用,它怎么能够用到未来的数据让自己能持续变强,是用强化学习,还是用Transform?就像大模型一样,如何让它变得强,这也是我比较感兴趣的点。

第三个比较感兴趣的方向,应该是硬件层面,比如像触觉,这是以前大家没有重视或者使用比较小众的模态,如果解决了这个问题,我们就可以跟世界更好的进行交互。

张鹏:感谢华哲老师的分享,我们继续聊「具身智能」的话题,现在投资人也非常关注这个赛道。我想问问汪玉老师,技术的发展往往需要一些东西来进行推动,我们目前看到技术和场景也是在「双螺旋」发展,我们需要更多优秀的公司和优秀的应用场景,如何让这种双螺旋发展得更快?您觉得从产业层面,我们应该怎么去推动技术的发展?

汪玉:这也是一个比较大的问题,我先谈一谈个人的看法。刚刚讲到我是偏硬件方向,应该处于机器人和人工智能的边界,既要看机器人的论文也要看人工智能的发展,当然如果想让机器飞起来,还要看一下底层的平台。

刚刚各位专家谈的都是能力,是感知、决策、控制一体的能力,其实平台也需要具备这样的能力。而人工智能提供了一种可能性,使机器人平台底层算法中绝大多数的计算方式变得更统一,或者说「更矩阵」。过去用到矩阵求逆这种复杂的操作,但现在可能都是矩阵乘向量、矩阵乘矩阵。在感知大模型、决策大模型中都是如此;在控制过程中,也可以使用强化学习等模型。

在这个过程中我们发现,控制算法还是需要做,去把边界定义清楚的理论还要继续研究,感觉、控制需要一体化,我们需要把人工智能和传统硬件集成到一起,做成一个平台。为什么要做这个事情?刚才我们也提到机器人统一的操作系统,但不管是什么操作系统,底层也得是硬件,而这类硬件传感器有无数种,所以我们还是需要有一个类似大脑的东西,来统一控制这些传感器。那这个「大脑」最终的形态是什么?如果这个没有统一,我觉得成本是降不下去的。

我们再从量的层面来看,这里应该谈到产业界,我们在其中看到上千万的扫地机器人和自动驾驶汽车,当然还有很多规模没有突破千万的机器人。这些机器人有点像昆虫纲,每个品类都非常优秀,但是规模都比较有限。但是,有可能背后的平台未来会是统一的。所以,从我们角度来看,学术界希望能把这样的平台慢慢推广下去,让每个垂类能够用更低成本地去做迭代,才有希望真正能够成功。

“做了一辈子机器人,深知其困难” | 一场关于机器人的深度对话_无人机_04

张鹏:我想再听听建伟院士的看法,我觉得这个问题本质还是说产学研要一起往前走,接下来我们应该加强什么?我们身处具身智能这样一个节点,AI和机器人终要手拉手一起向前,这个时候我们怎么看产学研的结合?

张建伟:这是一个Million Dollars Question,这里可以补充一下,不仅仅是我们国家,包括欧盟等国家也在思考着如何把产学研有机融在一起。我们曾经做了很多种计划,都是围绕怎么填补技术和产业界之间存在的鸿沟。其实,通过ChatGPT取代现有白领们的工作,这不是我们想要的。我们面临真正的问题是,现在父母年龄大了没有人照顾,富士康工厂组装iPhone的工人已经招不到了,负责打扫卫生、收拾家务的保姆也没有人做了,所以我们这两年应该如何从技术层面进行突破,不断解决劳动力短缺的问题,才是目前最为重要的事情。

近期,我们看到了国内相关的一些报道,一方面,是我们软硬件成本整体的下降;另一方面,我们发现了一些新的需求。这里举两个例子,一个例子是利用大模型、智能视觉来识别除草,明年欧盟就要禁止使用除草剂了,对从事农业机器人的公司来说,未来的农业除草只能靠物理方法来实现,这里就需要思考如何把草的类型做成大模型,然后来利用视觉进行高速、准确的识别,不管是人工处理还是激光铲除,都是一个非常大的产业,如果科研机构跟企业能够组合在一起,就是一个很好的突破。

另一个例子是在制造业方面,我们现在可以看到中国百分之七八十的工厂仍然需要大量的人力,我老家的组装iPhone的富士康工厂,最高的时候雇佣了30万人,现在也是十几万人的规模,这些需要用手灵巧操作的任务的工厂,未来会因为视觉技术以及「具身智能」的发展,就有望在灵巧操作机器人方面实现突破。

张鹏:感谢各位专家学者的精彩分享,这里总结一下,机器人技术如果想在商业层面持续地走下去,核心还是需要看一些具体的应用场景,同时也需要更多的科研人员和企业加入进来。就像美团正在低空经济领域做的很多工作以及创新成果,我们也很欣慰地看到有这么多的高校和人才都在为建设该领域「增砖添瓦」。

之前,机器人领域属于一个专精的领域,绝大多数人都不敢碰,而现在我们观察到,即便不是机器人领域的人才,他们也可以把交互设计做得很好,能将外观设计的很好。当越来越多的人参与其中,机器人产业就跟市场走得越来越近了。这也是时代赋予我们这代人的机遇,也是因为有这么多优秀的新鲜血液进来,有更多好的应用场景,机器人行业才会如此蓬勃发展。

今天也有很多年轻的同学们在现场,这里给大家留一个提问的时间。

现场同学提问:各位老师好,我之前也参与过一些校企合作的项目,在合作的过程当中,我也发现企业和学校有各自的优势,并且双方关注的角度也不一样。我想问的是,在推进产学研合作过程中,企业和高校各自的角色定位应该是什么?在合作的过程中存在了哪些挑战?

张宏:我这里可以简单回答这个问题,可以说研究人员的任务是「顶天」,做产业的任务是「立地」,这就是「顶天立地」。科研工作,更多的是追求突破、创新,而做产业则是追求稳定、可靠,能够产生商业价值。如果让产学研同时成功的话,我们就需要进行科研合作,让产业界有效地能利用高校产出的这些研究结果去落地到他们的产品当中。

张鹏:我想问一下王老师,从您的视角来看,在今天这样一个技术时代,是鼓励大家多写论文出成果,还是鼓励大家孵化项目呢?特别是对于年轻同学来说,您觉得哪个更适合?

王田苗:我个人觉得应该「因材施教」,每个人来到这个世界都有TA自己的使命,有些人没有找到,只是环境还没有唤醒TA。如果你想成为一个科学家,就应该将自己的研究成果写到书本上;如果你的使命是想做一款与众不同的产品,那你可能更适合做工程,将自己的产品放到货架上去售卖。这是在「产学研」这个方面,我自己的一些思考。

我觉得美团这方面做得很好,这里先从产业方面来说,其实美团今天也创造了两个场景,一个场景是,你真的有本事,就来美团举办的大赛,让大家看看你的工程动手能力、想象力;另一个场景,大家是可以通过参与美团的科研项目,如果你有重大的原理性突破,比如在某些算法领域实现了效率的提升,也可以更好地成就自己。

对于大学生来说,我认为同学们在学完基本的方法和理论知识后,面临一个更重要的课题:你是否真正认识或找到自己追求或是想要改变世界。如果怀揣这样的愿望,自驱力、冒险精神、与人交流的智慧都会随之增强,这些品质对个人成长具有不可估量的价值。

如果大学期间,能够能将这些特质训练好,无论做什么都会有所成就。就像清华电子系一样「百花齐放」,我们培养出了很多的企业家、音乐家、教育家,甚至还有政治家。所以我说要「因材施教」,而大学自身也需要在这方面对自己重新进行「定位」。

张建伟:我也稍微补充一下。在今天的这种商业环境下,公司应该怎么定位?大学怎么定位?对各自来说都是一个非常重要的问题。像美团、谷歌等这些公司,他们的优势在于有着丰富的数据应用场景,而对大学来说,我们的优势在于不断推出新的理论、新的结构、新的算法,大学也能够了解全世界技术方面的进展,所以大学应该多跟大公司进行密切合作,从而不断发现新机会。另外,大学在人才培养和交叉学科方面有着丰富的资源,我们通过跨学科的人才培养,可以长期为企业提供一些比较优秀、全面的技术人才。

张鹏:好的,因为时间关系,我们不得不结束这一场访谈了,非常不舍,因为特别难得能跟几位优秀的专家学者一起聊机器人、具身智能这些热门的话题。

我们今天刚好是在美团机器人研究院的年会上,几位老师在各自领域都是比较资深的科研带头人,如果说科研是站在人类已知和未知的边界上不断地向前突破,那像美团这样优秀企业就是将我们已知的知识变成产品,然后去创造更幸福的生活方式来服务更多的人。从这个意义上讲,大家本质上都是在一个更宏大的目标下各有分工,我们属于同一个更大的团队,我觉得这也是产学研一起往前推进的最重要使命。我们也特别期待美团机器人研究院未来能不断取得新的突破和进展,在更多技术领域成为产学研一体化的「标杆」。

感谢各位专家学者们的参与,也感谢现场各位同学的聆听,感谢大家!

----------  END  ----------

深圳市美团机器人研究院

深圳市美团机器人研究院(Meituan Academy of Robotics Shenzhen,MARS)于2022年7月正式挂牌,于2022年11月正式对外宣布成立。研究院将依托美团生活服务丰富的业务场景与数据积累,结合国内外学术界与产业界的科研优势,开展面向机器人领域的关键技术的研发,引领机器人学科前沿和技术创新方向,加快科研成果的落地转化,推动机器人相关技术的示范应用,在大湾区打造机器人技术「产学研用」全方位结合的开放协同创新平台。


标签:模型,美团,机器人,具身,智能,对话,深知,我们
From: https://blog.51cto.com/u_15197658/9065822

相关文章

  • 不需要本地部署大模型,modelscope-agent加qwen-max免费搭建自己的定制机器人
    最近阿里开源了通用大模型qwen-72b,正在为怎么本地化部署发愁,转眼看到提供了qwen-max相关接口的免费试用(据说就是基于qwen-72b大模型),这就来体验一番。1.前期准备开通阿里云灵积平台,并创建api-key2.环境搭建python:3.10+;pydantic2.0以上,老版本pydantic会报一个tool_sche......
  • [Winform]在Form里显示模态对话框ModalDialog
    在Form里显示模态Dialog问题如何在WinForm的一个Form里面弹出一个模态Dialog?背景程序的框架是Winform,只有一个窗口MainForm。MainForm里面是一个TabControl,每个TabPage是一个Form,每个TabPage的Form相互独立,互不干扰,TabPage间可以随时切换。由于有某些需求,TabPage需要接受用户......
  • Windows系统中Run对话框输入URL和IP地址的区别
    Windows系统中Run对话框输入URL和IP地址的区别在Windows系统中,我们可以通过Run对话框快速执行一些命令或者打开一些应用程序。当我们在Run对话框中输入URL(比如//www.baidu.com)和IP地址(比如\192.168.3.194)时,两者有一些区别。本篇博客将详细探讨这些区别。1.URL和IP地址的基本概......
  • 人工智能与机器人:技术的应用与创新
    1.背景介绍人工智能(ArtificialIntelligence,AI)是一门研究如何让计算机模拟人类智能的科学。人工智能的目标是让计算机能够理解自然语言、学习从经验中得到的知识、解决问题、执行任务以及进行自主决策。机器人(Robot)是一种自主行动的物理或虚拟实体,它可以执行复杂的任务,包括移动、感......
  • 医疗机器人软件的开发与应用:AI技术在医疗行业的未来趋势
    1.背景介绍随着科技的不断发展,人工智能(AI)技术在医疗行业的应用也逐渐增多。医疗机器人软件是一种利用AI技术为医疗行业提供智能化解决方案的软件。这篇文章将讨论医疗机器人软件的开发与应用,以及AI技术在医疗行业的未来趋势。2.核心概念与联系2.1.医疗机器人软件的定义医疗机器人软......
  • 语音合成技术在语音对话系统中的应用与创新
    1.背景介绍语音合成技术,也被称为朗读机技术或者文本到语音转换技术,是指将文本转换为人类听觉系统能够理解的声音。语音合成技术在语音对话系统中的应用非常广泛,包括语音助手、导航系统、电子书阅读器等。语音合成技术的发展历程可以分为以下几个阶段:1960年代至1970年代:早期的语音合......
  • 自然语言处理与机器人交互:挑战与解决方案
    1.背景介绍自然语言处理(NLP)是人工智能领域的一个重要分支,它涉及到计算机对自然语言(如英语、中文等)进行理解、处理和生成的研究。机器人交互(HRI,Human-RobotInteraction)是人机交互(HCI,Human-ComputerInteraction)的一个子领域,它研究人与机器人之间的交互过程。自然语言处理与机器人交......
  • 【Python微信机器人】第六七篇: 封装32位和64位Python hook框架实战打印微信日志
    目录修整目前的系列目录(后面会根据实际情况变动):在windows11上编译python将python注入到其他进程并运行注入Python并使用ctypes主动调用进程内的函数和读取内存结构体调用汇编引擎实战发送文本和图片消息(支持32位和64位微信)允许Python加载运行py脚本且支持热加载利用......
  • 抖音直播机器人浏览器插件
    这是我开发的一款浏览器插件,可以实现在直播间定时发送话术,以及监听直播间评论,对接AI客服系统进行自动回复。实现效果可以实时监听评论区内容,包括用户来了和点赞,以及用户发送的评论文本。调用我客服系统的接口,获取AI回复结果,再自动回复发送。 监听到的评论: 插件的配置......
  • AIKit v4.11.0 – WordPress AI 自动编写器、聊天机器人、写作助手和内容重定向器 / O
    AIKitv4.11.0:WordPress的AI革命一、引言AIKitv4.11.0是一款为WordPress用户精心设计的强大插件,该插件集成了OpenAI的GPT-3技术,为用户提供了前所未有的AI写作和聊天机器人功能。此版本的推出,将WordPress的功能扩展到了全新的领域,利用人工智能技术,让网站内容创作变得更加简单......