首页 > 其他分享 >【新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!】

【新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!】

时间:2024-07-08 11:57:40浏览次数:14  
标签:助力 看大 LLMs 模型 驾驶 学习 Token 自动 LLM

文末有福利!

引言

本文主要介绍大模型(LLMs)如何助力汽车自动驾驶,简单来说,作者首先带大家了解大模型的工作模式,然后介绍了自动驾驶大模型的3大应用场景,最后指出自动驾驶大模型将会是未来的发展趋势,只要坚持,国内新能源造车新势力还是很有机会的。本文没有深入讲解算法架构,而是化繁为简,能够让您很快的对自动驾驶大模型有个较为全面的理解。

背景介绍

青霉素发现之前,科学家们的研究方向是在无菌实验室中不断的试错,旨在希望通过传统的医学方法来解决复杂的问题。然而,一个偶然的事件却改变了事件的发展,苏格兰医生弗莱明忘记关闭培养皿,导致培养皿被霉菌污染。这时,弗莱明注意到了一些奇怪的事情:所有靠近水分的细菌都死了,而其他细菌则幸存下来。

那么,汽车的自动驾驶是否也有可能出现类似的事情呢?前几年的汽车自动驾驶大多都是基于所谓的“模块化”构建,其主要包括感知模块、定位模块、规划模块、控制模块等,这里的控制模块会根据其他模块的信息来实现汽车的转向、变道等功能。如下图所示:

随着模型框架的发展,研究人员提出了端到端学习,核心思想是用预测转向和加速度的单个神经网络替换每个模块,这同样会引入黑盒问题,尽管如此仍然无法解决自动驾驶问题。那么近两年快速发展的大语言模型能否成为实现自动驾驶的答案呢?为此,本文将探讨大模型如何助力汽车自动驾驶
在这里插入图片描述

LLM概述

简单来说,大模型主要包含Token化Transformer文本生成三大概念。其中:

「Token化」:给大模型输入一个文本,返回也是一个文本。但实际上是需要将输入文本转换成Token。那么什么是Token呢?简单来说一个Token可对应一个单词、一个字符、一个短句等。神经网络的输入始终是数字,因此您需要将文本转换为数字;这就是Token化。如下图所示:

「Transformer」:将输入文本转换成一个个的Token之后,就要将其输入到神经网络中,目前大部分的模型的基础网络架构都是Transformer,如下图所示。下图展示的是Encode-Decode架构的模型,不过现在大多数大模型都是Decode架构,例如GPT、LIaMA、ChatGLM等。不管怎样,它们都共享核心 Transformer 模块:多头注意力、层归一化、加法和串联、块、交叉注意力等…

「文本生成」 当上述Token进入Transformer网络中,文本是如何一个一个的生成的呢?如上图,编码器主要是学习输入文本特征并理解上下文,解码器主要是试图生成一个一个的单词,当然在一个一个单词生成的过程中主要依赖概率来进行判断输出。如下图所示:

LLM赋能自动驾驶

以上变道只不过是LLMs任务中的一种,除此之外LLM还能解决哪些自动驾驶任务呢?结合目前国内新能源汽车最新发展趋势,主要涉及这几个方面:

「环境感知」:在此情况下,输入通常是一系列的图像,例如最新的特斯拉取消的激光雷达采用全视觉感知,输出通常是一组对象,例如显示屏中模拟的车道、行人、障碍物等。就大模型而言,其主要有3个核心任务:检测、预测和跟踪。如下图所示,将车辆行驶图像输入到ChatGPT中,可以要求其描述发生的状况:

不单单是ChatGPT,其他的模型同样可以做到,例如 HiLM-D 、MTD-GPT ,有的模型(例如PromptTrack)甚至可以为目标分配唯一的ID标识。

在上图PromptTrack模型中,多个传感器图像会被发送到Encoder-Decoder网络中,通过该网络可以预测对象注释(如3D边界框和注意图),然后结合LLM提示“找到正在右转的车辆”,接着下一个块会找到 3D 边界框定位,并使用二分图匹配算法分配 ID。

「决策规划」 如果大模型在图像中发现了目标,那么它会告诉你面对该种情况该如何操作。这就是任务规划,即根据当前感知来规划从A到B的路径,当前在这块做的较好模型为Talk2BEV。除此之外,为了方便驾驶人更好的理解周围的环境,模型会结合多个视图生成鸟瞰视图。

如上图所示,这并不是纯粹基于“提示”,因为核心目标检测模型仍然是鸟瞰感知,但是LLM被用来“增强”输出,通过建议一些区域,查看特定的地方,并预测路径。

其他模型(例如 DriveGPT)经过训练,将 Perception 的输出发送到 Chat-GPT 并对其进行微调,以直接输出驾驶轨迹。如下图所示:

总结一下,结合上面我们对大模型的理解,这里的大模型(LLMs)输入是Token化的图像或者是感知算法的输出,然后将现有模型(BEV 感知、二分匹配……)与语言提示融合在一起,让大模型来寻找正在移动的车辆,最后,根据不同场景任务,根据输入数据对大模型进行细致的微调即可。

「图像生成」 您听说过 Wayve 的 GAIA-1 模型吗?该架构将图像、动作和文本提示作为输入,然后使用世界模型(对世界及其交互的理解)来生成视频,其模型架构如下所示:

类似地,您可以看到 MagicDrive,它将 Perception 的输出作为输入并使用它来生成场景:

还有一些模型能够根据当前的图像,生成未来可能的场景,例如:Driving Into the Future 、Driving Diffusion。根据这类模型,可以生成很多的汽车应用场景数据,进而可以训练出更好的模型,形成模型都迭代优化闭环

自动驾驶LLM可信吗?

不过现在对自动驾驶LLM下定论也为时过早!因为,ChatGPT出现才不到一年半的时间,现在的大模型已经可以实现视频生成(例如Sora)、音乐生成(例如:Stable Audio 2.0、Prompt-Singer等),且效果惊人,未来的自动驾驶大模型也将会乘风破浪,成为自动驾驶的主流核心技术。紧跟技术迭代更新,只要坚持,国内新能源造车新势力还是很有机会的。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~ , 【保证100%免费

在这里插入图片描述

篇幅有限,部分资料如下:

标签:助力,看大,LLMs,模型,驾驶,学习,Token,自动,LLM
From: https://blog.csdn.net/2401_85375298/article/details/140264848

相关文章

  • 轻松获客,精准出击!神秘工具助力业务飞升!
    在这个信息爆炸的时代,如何轻松又精准地获取目标客户?别担心,有一款神秘工具来帮你解决问题!它就像一把魔法钥匙,能打开通往潜在客户的大门。这款工具具备强大的搜索功能,能根据你的需求筛选出最符合条件的潜在客户。无论是行业、地域还是其他任何关键词,它都能帮你一网打尽,让你不......
  • 触想工业显示器助力3C全自动生产线可视化升级
    一、行业发展背景一台智能手机大约由21项主零件构成,包括主板、屏幕、外框、摄像头,指纹、扬声器等模块,而构成这些结构的零部件可达数百个。手机组装过程中,大量辅料(如各类泡棉、导电布、背胶、麦拉片、保护膜等)参与其中,用以实现固定、防尘、防振保护等作用。可以说,......
  • 陪玩系统源码,为守护系统安全增添更多助力
    陪玩系统源码,为守护系统安全增添更多助力在开发陪玩系统源码时,可以通过加密、解密算法来提升系统的安全性,比较常见的加密、解密算法类型有:1、对称加密:速度快,可逆,常见DES,AES等2、非对称加密:速度慢,可逆,常见RSA等3、签名算法:唯一,不可逆,常见MD5,SHA,SHA256等安全数据传输方案......
  • 从“钓”到“管”:EasyCVR一体化视频解决方案助力水域安全管理
    一、背景随着城市化进程的加快,越来越多的市民热衷于钓鱼活动。钓鱼活动在带来乐趣的同时,也伴随着一定的安全隐患。尤其是在一些危险水域,也经常出现垂钓者的身影,非法垂钓,这给城市管理带来了不小的阻力。传统的人员巡逻监管效率低并且存在时间差,很难及时发现这些违规行为。为了提高......
  • 智慧矿山EasyCVR视频汇聚系统,助力矿井视频多业务融合及视频转发服务平台建设
    一、方案背景随着矿井安全生产要求的不断提高,视频监控、数据传输、通讯联络等业务的需求日益增长。为满足矿井生产管理的多元化需求,提高矿井作业的安全性和效率,TSINGSEE青犀EasyCVR视频汇聚/安防监控综合管理平台,旨在构建一个矿井视频多业务融合及视频流媒体转发服务平台。该平台......
  • 669分,武汉市第四十九中传来喜讯,璞公英「教师增值评价系统」助力学业提升!
    星光熠熠,梦想启航武汉第四十九中学传来喜讯!高三(5)班物理类考生潘俊安同学以总分669分的优异成绩脱颖而出!潘俊安同学不仅实现了自我超越,更为学校的高考历史增添了浓墨重彩的一笔。三年磨一剑,今朝试锋芒学霸秘诀就是它!学霸风采:潘俊安潘俊安:高考总分669分其中,语文128分,数学......
  • 园区管理新篇章:免费数字孪生平台助力高效运营
    在日新月异的数字化浪潮中,如何在新时代背景下实现园区的高效、绿色、可持续管理,成为了每一个园区管理者亟待解决的课题。 数字孪生作为物理世界与数字世界深度融合的桥梁,将园区的每一个角落、每一台设备、每一项数据精准映射到虚拟空间中。山海鲸可视化这款免费的数字孪生平台,......
  • 智能视频监控如何助力体育场馆安全管理:安防监控EasyCVR视频综合管理方案
    近期有新闻报道,6月30日,17岁的中国国家羽毛球运动员在亚洲青年羽毛球锦标赛中,突然晕倒并抽搐,尽管被送往医院抢救,该运动员仍在当晚不幸离世。运动猝死不仅发生于职业运动员身上,在普通健身者中也时有发生,公众在参与体育活动时,应注意避免过度运动或在不适当的环境下进行锻炼。一、项......
  • 阿里云 SAE 助力修正商城 3 周内提升系统承载能力 20 倍,轻松应对春晚流量
    作者:赵世振、刘松伟、朱坪"从了解阿里云SAE到使用SAE进行应用架构升级共经历3周,这 3周我们系统能承载的QPS从 5000增强到 10万,提升20倍,轻松应对了春晚大促流量洪波。并且,SAE还帮助我们降低了20%的使用成本,研发效率提升40%,应用上线周期缩短40%。———修......
  • 阿里巴巴中国站拍立淘API返回值分析:图像识别技术助力电商用户体验升级
    阿里巴巴中国站拍立淘API的返回值分析,以及图像识别技术如何助力电商用户体验升级,可以从以下几个方面进行详细阐述:一、拍立淘API返回值分析拍立淘API是阿里巴巴中国站提供的一项基于图片搜索的商品搜索服务,它允许用户通过上传商品图片,系统自动识别图片中的商品信息,并返回与之......