首页 > 其他分享 >大模型加持后,数字人“更像人”了吗?

大模型加持后,数字人“更像人”了吗?

时间:2024-07-11 10:56:40浏览次数:19  
标签:加持 数字 模型 技术 学习 成本 真人

数字人的规模化落地面临着许多挑战,比如人才、成本等等方面。而现在,大模型的出现似乎给数字人的发展带去了新的机遇。一起来看看本文的分享和解读。

img

北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤……当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。

面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。

毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最关键的是技术瓶颈,如何让数字人摆脱“空有一副好皮囊”的市场评价是一大难题。

然而,随着大模型的出现,数字人的发展似乎正在迎来新的机遇。

一、大模型赋能数字人

对于产业界而言,数字人本身并不新鲜。在过去很长一段时间内,为了又力求数字人视觉外形上的高保真呈现,生产成本不亚于制作一部专业级电影。

瑞银发布的数字人研究报告指出,高级虚拟人物的先期投入成本平均为3000万元,后期又需要真人团队完成拍摄、配音、剪辑。以乐华娱乐的虚拟女团A-SOUL为例,其一支单曲制作成本约200万元,一场线下演唱会成本约2000万元。

img跳槽做B端产品经理准备大干一场,发现把问题想简单了近年来,B端业务大力发展,也让很多相关岗位的人(C端产品经理、交互、测试、研发、运营、项目经理等)纷纷转型做B端产品。但是大多数人刚开始会对B端 …查看详情 >

但即便是如此高昂的成本,也解决不了数字人的互动效果问题。由于智能水平不足,与其说它是数字人,更像是一个没有灵魂的数字皮套。

高成本,再加上互动效果不佳,使得数字人的使用被限制在厂商内部或大企业客户的试验项目。

因此,当具有学习能力的生成式大模型颠覆了内容制作范式后,面向更广范围的中小型企业用户、优先规模化落地使用的廉价数字人成为了可行方案。

据一名人工智能研究人员介绍,大模型对数字人的重塑与赋能主要体现为降本增效。

从技术角度来说,搭建一个数字人主要分为建模、驱动、渲染几个环节。传统的数字人主要依托计算机图形学技术+真人动作捕捉,需要采集大量的真人数据,深度建模,耗时长,效率低,成本高。

如今在大模型的加持下,通过AI算法,基于深度学习模型、动作模拟、情感模拟等技术,只需要几分钟的真人视频,用大模型训练若干个小时,就可以生成逼真的数字人,制作成本大大降低。

不仅如此,数字人在成本降低的同时,效能也大大提升。

在大模型出现以前,数字人在外形上差异度较小,而且只能根据输入的统一脚本,“照本宣科”地回答问题。

在大模型的赋能下,数字人拥有了“灵魂”,不仅外貌特征可以自定义设计,智能化、交互性也有了很大提升。比如在一些直播带货场景中,数字人已经可以与受众进行基础互动。

比如,百度智能云发布的曦灵数字人,大模型的加持下,可以15分钟快速完成直播间搭建,自动生成匹配产品特色的讲品话术,开启智能互动问答。

在某餐饮品牌的直播间,曦灵数字人主播自动生成直播话术,包含开场破冰、福利放送、暖场话术、催单话术等。在这场真人与曦灵数字人的接力直播中,用户竟然没有丝毫察觉。

更令人惊讶的事,在真实6小时的直播比对中,数字人主播仅需真人主播15%的成本,就可获得真人主播85%GMV。

除了直播带货,百度智能云曦灵作为国内首个大模型全面重构的数字人平台,还可为企业提供2D真人、3D写实、3D超写实的人像,实现视频制作、数字员工、数字人代言人等多种应用。

比如,在曦灵平台,只需5分钟的真人视频,半小时即可训练人像,录制100句话语,24小时生成专属音色库,相比真人授课成本只需过去的30%,录制效率提升20倍。

不难发现,经过大模型重塑与赋能的数字人,一定程度上摆脱了价格昂贵、互动性差等问题,越来越广泛地出现在短视频、直播间中。

同时,数字人开始朝着更多“身份”进军——银行理财师、律师、老师、已逝的名人……数字人正在成为任何想成为的人,也为这条日渐拥挤的赛道带来了新的机遇。

二、让数字人更像“人”

大模型的出现让数字人“脱胎换骨”,成为如今最火的创业赛道之一。

目前市场上主要的数字人厂商主要有两类:一类是以百度、腾讯、华为等为代表的科技巨头,基于自身大模型方面的优势研发推出数字人产品;另一类是以硅基智能、出门问问、相芯科技等为代表的中小厂商。

多名人工智能领域投资人表示,目前AIGC(生成式人工智能)还处于早期阶段,能落地产生利润的不多,数字人是其中比较少有的商业化路径,且已经能够盈利的项目。

但随着大量的创业者涌入,行业竞争趋于激烈和同质化,赛道逐渐变得拥挤和内卷。

内卷的一个表现是价格越降越低。目前2D数字人的价格大多数已经降到千元级别,有的甚至只需要几百元。

360集团的数字人营销服务也显示,通过智能营销云平台的配套SaaS服务推广给客户,按照会员用户每月付费的标准估算,一款数字人的价格最低几十元,最高在一、二百元上下。

随着大量低成本的数字人涌入市场,百元级别的数字分身迅速被炒成一本万利的“财富经”。

每到深夜,打开主流平台,大量的数字人坚守在直播间。随之而来的是关于数字人的质疑声渐起,诸如效果太假、市场混乱等,导致用户体验不佳。

有业内人士认为,随着越来越多的玩家涌入,一些创业者技术能力有限,生产的数字人产品质量良莠不齐,容易导致劣币驱逐良币。

一方面,数字人多用于较为简单的环境、解决较为基础的问题,在场景切换或面对多轮对话时,可能出现答非所问或陷入死循环的情况,制约用户体验。

另一方面,大模型下的数字人交互体验始终与真人存在明显差异,比如,在Sora生成内容中,无视物理学原理、人的手指时多时少等问题被广为诟病,可能进一步引发心理方面的“恐怖谷效应”。

对此,也有专家认为,需要进一步提升技术创新能力和用户体验感,在保证数字人外在拟人效果的同时,优化用户交互体验,注重实时渲染、光学捕捉、三维重建、智能人机交互等新兴技术与自然语言处理、语音识别、计算机视觉、生成式AI等技术的研究和应用。

“当前行业正在共同突破的技术目标是‘如何让数字人变得更像一个人’,像人一样去思考”,一位业内人士表示,加快企业间的技术协同,解决交互型数字人在情绪感知、语义理解等方面的技术难题是接下来的重点。

这一系列的挑战都指向技术侧。

2024年度《中国虚拟数字人影响力指数报告》指出,截至2024年2月底,国家知识产权局“专利检索”数据显示,2023年全年数字人领域专利申请数高达544个,反映出业界在核心技术研发上的强劲势头和深度创新。

从2023年数字人相关专利申请机构来看,以百度、腾讯为代表的老牌互联网巨头,以中国移动、工商银行为代表的头部通信、金融机构,以小冰公司、世优科技、黑镜科技为代表的头部数字人公司形成了技术端的多强格局。

尽管行业头部大厂在AI技术上拥有了先发优势,但在产业高速发展的过程中,每个公司在技术本身都没有绝对的壁垒,本质上技术背后是人。对于所有数字人厂商来说,AIGC带来机会的同时,也成为直面挑战的起点。

结语

数字人正处于风口,吸引了大量想分一杯羹的创业者涌入。但不可否认的是,作为一项年轻的技术,数字人还处于早期阶段,市场尚在培育之中。

对于同处一片红海中的数字人公司来说,要思考的或许不是如何“卷低价”,而是通过技术的不断进步,让数字人“更像人”,提高行业的整体水位,让数字人“活下去”,创造更多的价值。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

标签:加持,数字,模型,技术,学习,成本,真人
From: https://blog.csdn.net/2401_85373396/article/details/140346027

相关文章

  • Leetcod 1342.将数字变成0的操作次数
    题目要求:给你一个非负整数num,请你返回将它变成0所需要的步数。如果当前数字是偶数,你需要把它除以2;否则,减去1。示例1:输入:num=14输出:6解释:步骤1)14是偶数,除以2得到7。步骤2)7是奇数,减1得到6。步骤3)6是偶数,除以2得到3。步骤4)......
  • 大模型备案全网最详细流程【附附件】
    本文要点:大模型备案最详细说明,大模型备案条件有哪些,《算法安全自评估报告》模板,大模型算法备案,大模型上线备案,生成式人工智能(大语言模型)安全评估要点,网信办大模型备案。大模型备案安全评估流程详细说明,见下图:大模型安全评估流程图算法备案安全评估流程详细说明,见下图:算......
  • DCMM(数据管理能力成熟度模型)
    原文:https://mp.weixin.qq.com/s/ALhILbrzhviT0KCf5QrviADCMM(DataManagementCapabilityMaturityModel,数据管理能力成熟度模型)是一个用于评估和提升组织数据管理能力的框架。它帮助组织理解其在数据管理方面的现状,确定改进的领域,并制定相关策略以提升数据管理能力。背景DCM......
  • 互联网3.0时代的变革者:华贝甄选大模型创新之道
    在当今竞争激烈的商业世界中,华贝甄选犹如一颗璀璨的明星,闪耀着独特的光芒。 华贝甄选始终将技术创新与研发视为发展的核心驱动力。拥有先进的研发团队和一流设施,积极探索人工智能、大数据、区块链等前沿技术,为用户提供高性能、高可靠的产品和服务。其定制化的技术解决方案,精......
  • 面试官无招可施?【独家秘籍】《大模型面试通关宝典》震撼上市!免费分享
    截至目前,国内已发布的大模型数量超过200个,特别是在10亿参数规模以上的大模型,已有报道指出数量已超过100个。这些大模型主要集中在自然语言处理领域,且地域分布上以北京和广东最为突出。随着人工智能技术的迅速发展,这个数字仍在持续增长中,反映出中国在大模型研发领域的强劲势......
  • LLM大模型: 常用的数据清洗方法总结
    LLM的三大要素:算力:算力的本质是拼财力,普通人是无力改变的;算法/模型结构:目前最流行的还是transformer架构,各种LLM都是基于transformer改细节,暂时没有用新的框架替代transformer。至于后续manba会不会替代transformer架构,有待观察!数据:这块是做LLMpre-train或fine-tune最大......
  • 阿里开源语音理解和语音生成大模型FunAudioLLM
       近年来,人工智能(AI)的进步极大地改变了人类与机器的互动方式,例如GPT-4o和Gemin-1.5等。这种转变在语音处理领域尤为明显,其中高精度的语音识别、情绪识别和语音生成等能力为更直观、更类人的交互铺平了道路。阿里开源大模型FunAudioLLM,一个创新的框架,旨在促进人类与大型......
  • 数字孪生应用在医疗体系生态会发生什么变化
    数字孪生技术在医疗体系生态中的应用,将引发一系列深刻的变化。首先,它能够实现对医疗设备的实时监控和预测维护,提高设备的可靠性和利用率。其次,数字孪生技术可以优化医疗服务流程,减少患者等待时间,提高医疗服务质量。此外,通过对患者健康数据的实时分析和预测,数字孪生技术还可......
  • 代码随想录刷题day 8 | 344.反转字符串 541. 反转字符串II 卡码网:54.替换数字
    344.反转字符串classSolution{publicvoidreverseString(char[]s){intleft=0,right=s.length-1;while(left<right){chartmp=s[left];s[left]=s[right];s[right]=tmp;left+......
  • Day7(字符串)|344.反转字符串 541.反转字符串II 54.替换数字
    344.反转字符串编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组s的形式给出。不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用O(1)的额外空间解决这一问题。示例1:输入:s=["h","e","l","l","o"]输出:["o","l","l","e","h&......