首页 > 其他分享 >AI与自动驾驶-数据

AI与自动驾驶-数据

时间:2025-01-09 13:59:23浏览次数:1  
标签:存储 训练 AI 模型 驾驶 智能 自动 数据

2024年12月理想汽车CEO李想

 现状:
 理想的AI产品包括
    两个C端产品,即智能驾驶和理想同学;
    两个B端产品,即智能商业和智能工业
 关于人工智能完整的技术与产品观

汽车

  汽车将从工业时代的交通工具,进化成为人工智能时代的空间机器人。汽车是物理世界人工智能最大的应用
  人工智能包含自动驾驶  本身看成一个数据和软件的集成。
  把方向盘摘掉的产品 一个前面的激光雷达,是为了安全 激光雷达相当于“安全带”
    基于这个场景解决这个corner case,场景一变化,又出现新的corner case-端到端最后体现出来的是能力,而不是去解决功能、解决corner case。
  自动驾驶的最好的核心,是驾驶DT的数据	

人工智能

  人工智能5个阶段
     聊天机器人/Chatbots  推理者/Reasoners  智能体/Agents  创新者/Innovators  组织者/Organizations
  
  基座大模型+个人超级助手
     基座模型所构建出的人工智能超级产品,会是新一代入口
	 记忆系统会把用户的记忆转成token
	 语言智能+行为智能
	 智能体,你必须得很好地理解物理世界 构建三维向量空间的能力  三维向量token
    对技术有效使用

背景概念

    BT,是流程
	      福特 建立了流水线和生产线
		  丰田 流程
            过程质量管理,是对于相关的人、机、料检测等相关因素进行管理
    IT,就是软件,而且是以控制为目的的软件出现
	    如果从汽车行业最佳实践看,是什么样的?
		互联网公司构建的软件能力不一样,
		银行上IT系统,包括制造体系、销售体系上软件系统,都是为了控制。最主要目的是控制。
    DT 指Data Technology(数据技术)。细粒度和全过程以及整体
                 所有的起因、过程和结果 要把财务放进去 有看全貌的能力,就有使用整体数据的能力。
                把所有“最佳实践”沉淀在数据系统里。有效反馈机制
        数据里的“最佳实践”是人工智能后训练的全部
    AI:

未来之路

 看到三类最重要的人才:
     第一类做预训练,我们内部称为“AI的教授”。它相当于把人类知识,任何形式表达的知识,汇集在一起,
            相当于我读了好多专业,拿了好多学位,后边变成MoE以后,更类似这样一个状况。
      第二类做后训练,我们称为“AI的教练”。我们怎么把这些“最佳实践”变成能力?它要有非常强的BT、IT、DT能力,才能用AI的能力。
             他得了解业务,才能知道怎么做好数据收集,后面的训练,什么是高质量数据。
    		 这类角色包含原来写代码的,企业产品经理,还有业务专家,如何通过自己学习变成AI教练。
    第三类是怎么为AI提供计算。这是今天AI的研发,它又跟过去数据方式不一样。

驾驶DT的数据

  如果我们想把AI产品做得更好,我们进入做自动驾驶的最好的核心,是驾驶DT的数据;
      如果是我们想做一个to C产品,最重要的是人类对话记忆DT的数据。这本身也是AI教练必须要做好的一部分。
        这是我们看到的全新三大工种。今天各种专业的人,要往这三个工种找自己的未来之路。
            含整个工作方式也不一样。当我们做人工智能,研发方式会发生根本性变化。
     AI 时代,某某工程师的价值在哪里?
      一是最新论文,
	  二是不同团队关于AI的最佳实践

模型

 模型的最终性能主要与计算量 C(Flops),模型参数量 N 和数据大小 D(token 数) 
    计算量的单位是FLOPS,float point operations 	 
    预训练 Scaling Law(规模效应),
         不断扩大模型和数据规模(Scaling Law  数据质量的作用
    	  训练代码、配比数据   pretrain 阶段到底喂了什么数据。各种数据的精确配比  需要多大的数据
    后训练 Scaling Law
         不断增加数学、逻辑、代码这种能够提升大模型理性能力的数据配比比例
        已经预训练的模型基础上,进一步在特定领域的数据上进行训练??
  数据规模和多样性		

应用层

 四种能力模式:反思(Reflection)、使用工具(Tool use)、规划(Planning),以及多智能体协同(Multi-agent collaboration)	
 经过专项训练、能完成特定具体任务的任职者
    如果模型规模较小,直接将其集成到手机等设备中--本地数据库加上本地推理
 在智能体系统中,
     “存储”更多对应的是持久化数据的保存,
	 而“记忆”则对应智能体对过去交互的“理解”与“回忆”。
 存储和检索-存储和搜索-存储和过滤
    检索的过程包含了 包含了初步的理解和加工
	
	技术上的存储和计算中间,缺了一环节,通信--数据传输 以及对存储的加工
存储和记忆--是终端智能
    情景记忆
    记忆的更新是智能体记忆系统中的关键部分
      热路径更新 是指在智能体生成响应之前直接更新记忆
      后台更新   则是在交互结束后,由后台进程在不影响用户体验的情况下自动更新记忆		  

中间是推理和训练的架构

预训练   这涉及到两个核心方面:数据质量和训练算法。产出物是基础模型(base model)
   pretrain 最重要的几个东西:数据,学习率,优化器!	
     典型的数据预处理流程,包括质量过滤、敏感内容过滤、数据去重等步骤。
	 数据调度-训练框架中处理-数据调度(Data Scheduling)主要关注两个方面:各个数据源的混合比例以及各数据源用于训练的顺序
     高知识密度的训练数据 
     数据清洗 :用启发式的规则过滤数据并不丢人,洗不干净数据才丢人。但同时,必须注意到,用规则清洗或者过滤数据的时候,一定不要把数据搞成分布有偏的数据。	
     数据脱敏 : 工作的一部分。这个工作好像没任何奇淫巧技,老老实实的写正则匹配吧	
     数据去重: 对 T 级别的数据进行去重	 要先确定需要多少训练数据,再确定去重的粒度	 
	 数据配比 和 数据顺序: “知识 + 代码 + 逻辑”三个大类目
	 数据流水线:pretrain 模型一定是动态加载数据的
  工程实践,如何处理海量数据、如何快速训练、如何管理大规模集群等
    在预训练方面,一个共有的特征似乎是所有方法都使用了多阶段预训练流程,其中一般的核心预训练之后是上下文延长,有时还有高质量的退火步骤
后训练:已经预训练的模型基础上,进一步在特定领域的数据上进行训练
    微调(包括指令微调与人机对齐)监督微调(Supervised Fine-Tuning, SFT)
	  指令微调首先收集或构建自然语言形式的指令实例,然后通过有监督的方式对大语言模型的参数进行微调,
	    因此又被称为有监督微调(Supervised Fine-tuning, SFT)或多任务提示训练(Multitask Prompted Training)
	    指令格式化的数据实例一般包括
		    任务描述(也称为指令)、任务输入-任务输出以及可选的示例
	  轻量化微调(Lightweight Fine-tuning

	  The Alignment Problem》人机对齐 
	      基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF
		    RLHF 的完整工作流程可以分为监督微调、奖励模型训练、强化学习微调三个阶段

最底层是芯片

 AI Infra 团队的主要作用是提升模型效率、降低推理成本,其目标是尽可能地挖掘GPU的算力,把GPU的算力尽可能榨干
      GPU计算单元的高效利用 缓存与存储优化 数据搬移与计算不平衡	
      相关的训练或推理经验	
数据
 所有的技术选型都离不开当年的大背景以及目标
数据存储 
    HDFS 的存算耦合设计扩展性差 难以适配云原生化 all-in-one 的套装
        层级命名空间和平坦命名空间相比,扩展性要差很多:这里主要就是因为层级命名空间需要维护父子关系
    	平坦命名空间里的每个对象天然没有任何关联,可以作为独立的个体对待,关联性的打破让扩展性更容易做
    Object 对象存储 
         对象存储没有树形结构的 搜索的性能相比树形结构的查找弱很多
         rename 处理 rename 操作是一个模拟过程,会包含大量系统内部的数据拷贝,会耗时很多,而且没有事务保证
         并发 对象存储数据最终一致性的机制		 
	   目录是一个“伪目录”概念,是文件名的一部分,统一作为Key而存在
    JuiceFS 对接对象存储,通过应用层的服务,全部以 POSIX 的方式挂载上去,大家就可以无感地去请求 JuiceFS 里的文件   
       
    数据湖已经进入 3.0 时代。在存储上,以对象存储为中心,实现了多协议全兼容、统一元数据管理
	  致数据湖到加速层的数据同步成为一个高频、核心的需求
	     加速层的存储系统内置数据同步的能力才是解决这一关键问题的正确思路


存算分离
    存储离计算的距离越来越远。这就导致去做一个云原生的 AI 训练,会经历一个很长的流程
     空间和时间-- 快速处理-海量数据 == 大容量存储 + 高性能存储
       每一轮 epoch  shuffle  batch  checkpoint
        有的机器都没有办法保证在训练的过程百分之百没有故障发生,故障发生后,用户不会想从头开始计算,能恢复到一个较近时间点, 
    	
    由所谓的 Data Loader 模块来完成,它的思路是让读的过程和计算本身并行起来。这对 GPU 训练的效果更明显一些。	
    	 整个过程呈现出一种流水线的感觉
    	 open -> stat -> read -> close” 这样的流程,其中 open、stat、close 是元数据操作,read 是数据操作
    	一个是并行文件系统,一个是缓存 
	NAS
      为了去兼容标准的协议,需要在处理路径上引入专门的协议处理节点,这些节点负责将请求转化为存储节点可以理解的内部格式		
		
数据 
    统计训练的样本集的情况
	    平均一个图片大小仅为一百多 KB
		平均一帧点云大小 6M
    很多 AI 训练都面临海量小文件的问	 
	 
Alpaca的语料形式
    “text”部分是一个prompt模板,将instruction, input及output进行格式化	
   依赖高精地图,转向无图方案,随后进化到端到端	
       小鹏汽车端到端大模型训练数据量已经达到 2000万clips。
	       数据方面,互联网优质数据大概600-700T之后就会有瓶颈。数据采集、模型训练、模型部署,模型调试
		    智驾大部分企业2024年才逐步转向端到端,自动驾驶大量优质驾驶数据积累还没有到尽头。
	   理想也公开过其端到端的训练数据大约在    800万clips	   

参考

 https://transformers.run/
 AI 应用的全流程存储加速方案技术解析和实践分享 https://mp.weixin.qq.com/s/OaedQqa7Pl16XWA8kS6Vkw 

标签:存储,训练,AI,模型,驾驶,智能,自动,数据
From: https://www.cnblogs.com/ytwang/p/18661987

相关文章

  • Window上使用Ollama和MaxKB部署本地AI
    前导Ollama是一个本地部署大语言模型并运行的开源项目MaxKB是一个用于管理本地大语言模型且能前端显示的开源项目需要使用到Docker一:下载OllamaOllama官网:https://ollama.com/cmd下输入ollama验证是否部署成功二:在ollama网站上搜索想部署的模型并部署这里以通义千问(qwen......
  • Kubernetes 提供了多种 Pod 自动扩展的方法
    Kubernetes提供了多种Pod自动扩展的方法,主要包括以下几种:水平自动扩缩容(HPA)基本原理:通过监测Pod的资源使用情况(如CPU、内存等),根据预设的阈值自动增加或减少Pod副本数量。适用场景:适用于负载波动较大且可以通过增加Pod副本来缓解压力的应用。配置示例:yaml复制......
  • 2025年百科荣创Android -- AI视觉检测模型集成--
    文章目录文章目录前言AndroidOCR文字识别简介PyddleOCR实现方法Android智能交通灯检测简介智能交通灯检测实现方法Android手势识别简介手势识别实现方法Android车牌矫正识别简介车牌矫正与识别方法Android口罩识别简介口罩识别实现方法结语文章目录......
  • 一个个顺序挨着来 - 责任链模式(Chain of Responsibility Pattern)
    责任链模式(ChainofResponsibilityPattern)责任链模式(ChainofResponsibilityPattern)责任链模式(ChainofResponsibilityPattern)概述责任链结构图责任链模式概述责任链模式涉及的角色talkischeap,showyoumycode总结责任链模式(ChainofResponsibilityPatt......
  • 【Apache Paimon】-- 14 -- Spark 集成 Paimon 之 Filesystem Catalog 与 Hive Catalo
    目录1.背景介绍2.环境准备2.1、技术栈说明2.2、环境依赖2.3、硬件与软件环境2.4、主要工具清单2.5、Maven项目结构2.6、mavenpom.xml依赖3.Spark与Paimon FilesystemCatalog集成3.1、HDFSFileSystemcatalog3.1.1、代码内容3.1.2、运行输出结果3.1.2.......
  • 基于 Admission Webhook 实现 Pod DNSConfig 自动注入
    本文主要分享如何使用基于AdmissionWebhook实现自动修改PodDNSConfig,使其优先使用NodeLocalDNS。1.背景上一篇部署好NodeLocalDNSCache,但是还差了很重要的一步,配置pod使用NodeLocalDNSCache作为优先的DNS服务器。有以下几种方式:方式一:修改kubelet中的dn......
  • 十天速成:打造你的AI低代码系统(五、无代码-审批流)
    前言第一部分:AI辅助开发和AI辅助测试(基于IDEA插件开发)第二部分:无代码-动态列表第三部分:无代码-拖拽表单第四部分:无代码-任务流 第五部分:无代码-审批流第六部分:无代码-分布式任务调度(编写中...)第七部分:附录:百度千帆大模型接入使用方法第八部分:附录:QQ邮箱授权码生成......
  • AI与药学:生成式人工智能如何帮助构建患者药品说明书?
    今天我们一起来研读下一篇AI药学论文《生成式人工智能构建患者药品说明书的方法研究》,详细探讨了如何通过生成式人工智能(GenAI)来构建适合患者的药品说明书,旨在提升患者对药品使用的理解和依从性,并促进合理用药。(关注公众号“赛文AI药学”,获取更多AI与药学内容)1.研究背景药......
  • 普通的maven项目将main函数打包实现java -jar来运行
    一、创建一个maven项目假设groupId为org.example则在src\main\java目录下创建一个org包,在其下创建一个example包,然后创建我们打包后要执行java类MyThread.java二、在pom文件中添加以下build插件声明在<project>标签内添加<build><plugins><plugin><g......
  • 2025最强AI软件教程来了!教你如何使用stable diffusion快速出景观建筑效果图
    <StableDiffusion效果图教程>要说哪款AI软件最适合建筑设计类?那必然是midjourney和StableDiffusion!之前我们也看到了他们生成的图虽然很漂亮,但现有阶段md生成图对我们建筑景观类把控不是很友好,而且md属于收费软件,所以今天我们主要介绍StableDiffusion(后简称SD)的一些......