特斯拉神经网络初探

时间：2024-01-05 15:13:17浏览次数：27

标签：特斯拉检测物体 Occupancy 神经网络初探视觉 3D

先递上特斯拉的AI 模型HydraNets（2020）

2022年，特斯拉宣布将在其自动驾驶车辆中发布一种全新的算法：Occupancy Networks，主要用来解决以下两个问题：

问题1：检测到的物体不是数据集中训练的对象；

问题2：在基于LiDAR的系统中，可以根据检测到的物体确定对象的存在但在计算机视觉系统中，必须首先使用神经网络检测对象。而神经网络模型不一定会检测出物体的存在，若系统判断失误，必然导致汽车事故；

传统CNN视觉以下5大问题：

1、地平线的深度极其不一致，只有2个或多于2个的像素决定了一个大区域底面的深度；

2、无法看到遮挡物前面的物体与开过去的车辆。

3、计算机视觉系统提供的是2D影像，但世界是3D 的，自动驾驶汽车需要3D的影像。

4、对于路面上放置的障碍物，计算机视觉系统里一般设置成固定的矩形。而很多物体的形状都不是完整的矩形，其异性部分很难得以体现。

5、不属于数据集的对象，毕竟路面上面出现的物体千奇百怪，数据集很难涵盖到所有的对象。

a.可变形的障碍物，如两节的挂车，不适合用3D bounding box来表示；

b.异形障碍物，如翻倒的车辆，3D姿态估计会失效；

c.不在已知类别中的障碍物，如路上的石子、垃圾等，无法进行分类;

Occupancy Networks 是特斯拉开发的新算法，基于名为 occupancy grid mapping 的机器人思想；包括将3维世界划分为一个网格单元，然后定义哪个单元被占用，哪个单元是空闲的。

Occupancy Network 的想法是获得体积占用率。它使用“占用”而不是检测来实时显示道路信息。网络模型可以超过 100 FPS 的速度运行，这就大大提高了其模型的检测速度

第一个改善问题：是特斯拉一直提到的Bird Eye View（鸟瞰图），在 2020 年特斯拉 AI 日上，Andrej Karpathy 介绍了特斯拉的鸟瞰网络。该网络展示了如何将检测到的物体、可驾驶空间和其他物体放入 2D 鸟瞰视图中。但是很多时候我们需要一个3D的界面来呈现到自动驾驶系统，毕竟我们的世界是3维的。2D图像在道路上或多或少的会出现相应的问题，对比鸟瞰图，Occupancy Networks网络呈现出来的是一个3D场景，这样系统就可以看到真实物体的3D体积

另一个问题：在计算机视觉领域，我们输出的检测模型都是使用一个标准的方方正正的矩形来表示，无论是汽车，人物，信号灯等，当计算机视觉系统检测完成后，总是按照一个矩形框来实时显示画面。但是当汽车顶上有杂物，或者卡车旁边有挂钩等，计算机视觉系统一般会屏蔽掉此部分的特性，但是在道路上面，这样的物体确实存在，若被忽略，肯定会出现车祸等问题。

22年CVPR上的网络架构Occupancy network

在左侧，特斯拉8个摄像头拍摄到的8个画面图片会被发送到由Regnet和BiFPN组成的主干网络；
然后，注意力模块采用位置图像编码并使用QKV矩阵来计算注意力机制，这里Q是固定的数据（比如汽车，人物，交通灯，路标等等）。

经过注意力机制后，会产生一个占用体积特征，然后模型会将其之前时间的的体积特征（t-1、t-2 等）融合，以获得4D 占用特征网络。

最后，我们获得两个输出：Occupancy Volume, Occupancy Flow。特斯拉在这里实际上做的是预测光流。在计算机视觉中，光流是像素从一帧到另一帧的移动量,在自动驾驶系统中，我们除了要进行对象检测外，还需要时间方面的信息

生成 3D 体积后，使用 NeRF将输出与经过训练的 3D 重建场景进行比较。

NeRF是一个3D重建模型，可以把输入的图片生成一个3D场景

标签：特斯拉,检测,物体,Occupancy,神经网络,初探,视觉,3D
From： https://www.cnblogs.com/jimchen1218/p/17947283

卷积神经网络在图像分割与段落中的应用
1.背景介绍卷积神经网络（ConvolutionalNeuralNetworks,CNNs）是一种深度学习算法，它在图像处理领域取得了显著的成功。在这篇文章中，我们将探讨卷积神经网络在图像分割和段落检测领域的应用。图像分割是将图像划分为多个部分，以表示图像中的各个对象或区域。段落检测是识别图像中的段......
深度学习的基础知识：从线性回归到卷积神经网络
1.背景介绍深度学习是人工智能领域的一个重要分支，它旨在模仿人类大脑中的学习和认知过程，以解决复杂的问题。深度学习的核心思想是通过多层次的神经网络来学习数据的复杂结构，从而实现自主地对输入数据进行抽象、表示和理解。深度学习的发展历程可以分为以下几个阶段：1980年代：深度学习......
深度学习的基础：从线性回归到卷积神经网络
1.背景介绍深度学习是一种人工智能技术，它旨在模仿人类大脑中的学习过程，以解决复杂的问题。深度学习的核心是神经网络，这些网络由多层节点组成，每一层节点都可以进行数据处理和学习。深度学习已经应用于多个领域，包括图像识别、自然语言处理、语音识别和游戏等。在本文中，我们将从线性回......
特斯拉机器人袭击工程师？马斯克最新回应
12月28日，#特斯拉工厂被曝机器人袭击工程师#登上百度热搜第一。据英国《每日邮报》网站12月26日报道，在特斯拉汽车公司位于美国得克萨斯州首府奥斯汀附近的工厂，曾发生一起残暴血腥的事故，有一名工程师遭到机器人袭击。英国《每日邮报》报道截图据最新消息，马斯克在X平台对该事件做出回......
PyTorch 神经网络基础
模型构造在代码里任何一个层或者神经网络都应该是Module的子类通过继承nn.Module可以更灵活的去自定义我们的操作参数管理自定义层带参数的层需要给出输入的维度和输出的维度读写文件......
线性分析与卷积神经网络的数值稳定性
1.背景介绍卷积神经网络（ConvolutionalNeuralNetworks,CNNs）是一种深度学习模型，广泛应用于图像处理、语音识别和自然语言处理等领域。线性分析是研究线性方程组的稳定性和收敛性的方法之一。在这篇文章中，我们将讨论线性分析与卷积神经网络的数值稳定性，以及如何提高其性能。卷积神......
循环神经网络在推荐系统中的应用与挑战
1.背景介绍推荐系统是现代互联网企业的核心业务，其主要目标是根据用户的历史行为、兴趣和需求，为其推荐相关的商品、服务或内容。随着数据量的增加，传统的推荐算法已经不能满足现实中复杂的需求，因此，人工智能技术逐渐成为推荐系统的核心驱动力之一。循环神经网络（RNN）是一种深度学习技术，......
神经网络中的分位数回归和分位数损失
在使用机器学习构建预测模型时，我们不只是想知道“预测值(点预测)”，而是想知道“预测值落在某个范围内的可能性有多大(区间预测)”。例如当需要进行需求预测时，如果只储备最可能的需求预测量，那么缺货的概率非常的大。但是如果库存处于预测的第95个百分位数(需求有95%的可能性小于或......
【Python机器学习课程设计】基于卷积神经网络的动物图像分类+数据分析
一、选题背景在现代社会中，图像分类是计算机视觉领域的一个重要任务。动物图像分类具有广泛的应用，例如生态学研究、动物保护、农业监测等。通过对动物图像进行自动分类，可以帮助人们更好地了解动物种类、数量和分布情况，从而支持相关领域的决策和研究。本研究的目标是使用卷积神......
【Python机器学习课程设计】基于卷积神经网络的动物图像分类
------------恢复内容开始------------一、选题背景在现代社会中，图像分类是计算机视觉领域的一个重要任务。动物图像分类具有广泛的应用，例如生态学研究、动物保护、农业监测等。通过对动物图像进行自动分类，可以帮助人们更好地了解动物种类、数量和分布情况，从而支持相关领域......

特斯拉神经网络初探

相关文章

赞助商

阅读排行