AIGC数据标注的影响与应用等

时间：2023-11-22 10:12:28浏览次数：44

标签：场景 AI 模型 AIGC 应用 GPT 数据标注

数据标注是将原始数据进⾏加⼯处理，⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。

国内数据标注⼚商，⼴义称之为基础数据服务提供商，通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作，为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。

数据标注一般流程：

数据标注中的⼆⼋定律

通常在一个AI项目中，数据准备工作需要80%时长，模型训练和部署仅占20%

根据原始数据类型以及训练任务划分：

【⽂本】：词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等；

【图像】：图像分类、语义分割、实例分割、拉框、OCR转写等；

【⾳频】语⾳识别、声纹识别、语⾳转写等；

【视频】⽬标跟踪、⾏为识别等；

【3D点云】

大模型时代下的数据标注

以SAM模型为代表的图像分割模型开源；GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性，并衍⽣出专⻔做数据标注的⼤模型，⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发，部分产品已经发布：
• 海天瑞声：数据⽣产垂直⼤模型（研发阶段）
• 曼孚科技：⾃动驾驶数据标注视觉⼤模型（已完成研发）
• ⻰猫数据：⾃动驾驶⼤模型AutopilotGPT（发布）
• 商汤：明眸SenseAnnotation⾃动化数据标注平台（发布）
• 标⻉科技：烘焙师⼤模型Baker-GPT（发布）

需求变化：与⾏业场景强相关，高质量数据需求长期且持续

数据处理流程设计涉及⼤模型Know-how，直接决定⼤模型性能好坏。尤其后两个阶段需要专业⼈⼠⽣成数据或对数据进⾏改写或排序，最终形成符合⼈类标准（⽐如专业逻辑、核⼼价值观等）⾼质量数据；

⼴泛认知⾥，⼤模型是以数据为中⼼的产物。数据数量和质量很⼤程度决定着⼤模型能⼒的上限。
n 以模型为中⼼：迭代模型，数据相对固定。
n 以数据为中⼼：关注数据本⾝，模型成为了数据的「容器」。

⽽后随着⼤模型持续地实时更新迭代、朝着多垂直领域落地，尤其通⽤智能、具⾝智能等相关探索，如何快速扩展到更多真实边缘场景，⾼质量场景数据也将成为刚需。

数据标注从劳动密集朝着知识密集型转变

三⼤影响因素：以技术+场景聚合的⻜轮效应

⼀、看技术能⼒

数据标注作为AI底层服务，最本质是为客⼾降本增效。持续迭代技术能⼒的企业
将有机会脱颖⽽出，包括不限于以下⼏点：
1、数据闭环⼯具链的智能化⽔平
2、对⼤模型/算法Know-how的理解
3、数据⼯程化能⼒、数据基础设施建设
……

⼆、看场景资源

三、看飞轮效应

1、数据标注仍具备⻜轮效应；
2、新创业公司⼊局⻔槛进⼀步提⾼；
3、专业数据服务商更多机会将在垂类场景，帮助企业完成私有化部署；
4、对外输出数据服务的⼤模型公司/AI企业也存在竞争优势。

市场竞争格局

数据标注⾏业传统依靠渠道、⼈⼒等形成的低成本竞争优势将被重塑，数据需求⽅将更看重数据质量、场景多样性和可扩展性。

标签：场景,AI,模型,AIGC,应用,GPT,数据,标注
From： https://www.cnblogs.com/syw20170419/p/17847174.html

实验2 C语言分支与循环基础应用编程
实验任务11#include<stdio.h>2#include<stdlib.h>3#include<time.h>45#defineN56#defineN13747#defineN24658intmain(){9intnumber;10inti;11srand(time(0));12for(i=0;i<N;++i){13nu......
11.17双向循环链表应用
#include<bits/stdc++.h>usingnamespacestd;typedefstructf{intdata;f*prior;f*next;}node,*Node;voidbuild(Nodep){intn;cin>>n;while(n--){intx;cin>>x;Nodenow=newnode()......
算法的奥秘：种类、特性及应用详解（算法导论笔记1）
原文链接算法，是计算机科学领域的灵魂，是解决问题的重要工具。在算法的世界里，有着各种各样的种类和特性。今天，我将带各位踏上一段探索算法种类的旅程，分享一些常见的算法种类，并给出相应的实践和案例分析。希望通过本文的介绍，能够帮助您更好地理解和应用这些算法，提高解决问题的能力。......
多线程的应用
应用之异步调用以调用方角度来讲，如果需要等待结果返回，才能继续运行就是同步不需要等待结果返回，就能继续运行就是异步1)设计多线程可以让方法执行变为异步的（即不要巴巴干等着）比如说读取磁盘文件时，假设读取操作花费了5秒钟，如果没有线程调度机制，这5秒cpu什么都做不了，其它代......
现代计算机网络的演变与应用
引言：计算机网络已经成为我们日常生活中不可或缺的一部分。无论是在家庭、学校还是工作场所，我们都离不开与他人和外部世界的连接。随着科技的发展，计算机网络也在不断演变和进步，为我们带来了更多便利和机遇。本文将介绍计算机网络的发展历程、重要应用以及未来趋势。正文：一、计算机网......
5.3 Windows驱动开发：内核取应用层模块基址
在上一篇文章《内核取ntoskrnl模块基地址》中我们通过调用内核API函数获取到了内核进程ntoskrnl.exe的基址，当在某些场景中，我们不仅需要得到内核的基地址，也需要得到特定进程内某个模块的基地址，显然上篇文章中的方法是做不到的，本篇文章将实现内核层读取32位应用层中特定进程模块基址......
Lab6：面向功能程序构造方法及创新应用 (创新)
1.在C++中通过递归方法实现单链表倒置将代码分为几个部分，顺便把之前的链表建立重新写一遍初始化列表structListNode{ intval; LiseNode*next; ListNode(intx):val(x),next(NULL){}};遍历voidquery_node(){ node*p=head; while(p!=NULL){ cout<<p->data<<''......
实时监控、智能控制：智慧芯片可视化大屏的应用前景展望
随着科技的不断发展，智能芯片作为一种新型的电子元件，被广泛应用于各个领域，其中智慧芯片可视化大屏是一种重要的应用形式。一、智慧芯片可视化大屏的优势智慧芯片可视化大屏是一种将智能芯片与大屏幕显示技术相结合的产品，山海鲸智慧芯片可视化大屏运用了指标卡、分组柱状图、百......
React 应用构建（环境）
可以少去理解一些不必要的概念，而多去思考为什么会有这样的东西，它解决了什么问题，或者它的运行机制是什么？一.环境搭建工作编辑器：VisualStudioCode。Javascript解析器、运行环境Node.js的安装。npm安装：npm是Node.js的软件包管理器。二.项目构建1.脚手架构建项......
适用于广泛的物联网应用RM500QAEAA-M20-SGASA、EG25GGB-MINIPCIE、EM06ELA-512-SGAS网
1、RM500QAEAA-M20-SGASA是一款5Gsub-6GHzM.2模块，尺寸为52.0mm×30.0mm×2.3mm，符合3GPPRelease15规范，针对工业和商业物联网及eMBB应用进行了优化。它支持独立（SA）和非独立（NSA）模式，最大下行链路速率为2.5Gbps，最大上行链路速率为900Mbps。RM500QAEAA-M20-SGASA支持Q......