首页 > 其他分享 >面壁智能发布端侧 AI 应用开发平台;快手推出肖像动画技术 LivePortrait丨 RTE 开发者日报

面壁智能发布端侧 AI 应用开发平台;快手推出肖像动画技术 LivePortrait丨 RTE 开发者日报

时间:2024-07-09 17:20:07浏览次数:17  
标签:视频 智能 快手 模型 端侧 AI 开发者

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、快手科技团队推出 AI 肖像动画技术 LivePortrait

 

快手科技团队推出 LivePortrait,这是一种基于隐式关键点框架的高效肖像动画技术。它能从单张源图像和驱动视频生成生动的视频,展现出优秀的泛化能力、可控性和效率。

 

研究者通过扩大训练数据集、采用混合训练策略、升级网络架构等方法提升了生成质量。LivePortrait 在 RTX 4090 GPU 上每帧仅需 12.8 毫秒,效果媲美扩散模型方法。该项目的推理代码和模型已开源。(@AI 科技评论)

 

2、面壁智能发布端侧 AI 应用开发平台 MobileCPM

 

借助阿里云在 WAIC 2024 期间举办的论坛,面壁智能发布了一个叫 MobileCPM 的套件平台,开发者可以通过这一平台提供的 SDK 套件「一键开发基于端侧大模型的 App」,面壁智能首席科学家刘知远在发布会中称,该平台接入了「非常多端侧通用模型」。

 

面壁智能此前已发布多款适用于小型智能设备的端侧小模型。6 月 11 日的苹果开发者大会上,苹果提出 Apple Intelligence 概念,将未来用户在端侧体验到的 AI 解决方案划分为端侧和云端两层,其中云端接入 GPT 等第三方模型,端侧主要使用苹果自研的小模型。

 

面壁智能 CEO 李大海对「新皮层」称,未来端侧模型是外部厂商提供还是设备厂商自己做是个开放性问题,目前「大家还在探索」,而作出高品质的端侧模型并不是简单的事,如果设备厂商选择自研,意味着他们也要像国内第一梯队的基础大模型初创公司那样配备「100 人起,核心至少也得大几十人」的 AI 团队。(@新皮层 NewNewThing)

 

3、支付宝推出「碰一下」支付新方式,无需展示付款码即可完成支付

 

在支付宝开放日上,支付宝宣布升级条码支付体验,推出「支付宝碰一下」,用户无需展示付款码,解锁手机碰一下商家收款设备,最快一步完成支付。

 

官方表示,相比已有的支付宝「扫一下」,「碰一下」更加简单直接。「碰一下」和「扫一下」都属于条码支付,区别在于「扫一下」使用了手机上的显示屏和摄像头,「碰一下」使用了手机上的近场通信技术,在使用上述传感器完成交互后,支付在网络端完成,两者具有同等安全性。同时支付宝依旧承诺「你敢付我敢赔」。(@爱范儿)

 

4、腾讯智影小程序上线 AI 视频功能,日漫风格功能限时免费

 

腾讯智影小程序上线了智影 AI 视频功能,可以一键生成风格化视频,目前有日漫风格可选,此功能限时免费(未公布收费价格)。视频风格化就是在原视频的基础上进行风格化处理,官方称风格化视频可以提升视频美感、增强趣味性、提升传播力。只需导入视频并一键「变身」,就能快速生成风格化视频(支持 10s 视频),智影 AI 提供了多种模板,让视频更加多样化。

 

据 IT 之家此前报道,腾讯智影上线于 2023 年 3 月,是一款集成了 AI 创作能力的智能创作工具,提供虚拟数字人、文本配音、智能去水印、文章转视频、模板创作、在线视频剪辑等功能。(@IT 之家)

 

5、苹果首款支持 Apple Intelligence 的智能家居设备将是一款桌面机器人

 

7 月 8 日消息,苹果备受期待的「Apple Intelligence」功能今年晚些时候将首先登陆 iPhone、iPad 和 Mac 设备,而包括 HomePod 智能音箱、Apple Watch 手表和 Vision Pro 头显等产品将暂时无缘这个功能,其中也包括备受关注的新版 Siri 语音助手。

 

现据彭博社记者马克・古尔曼 (Mark Gurman) 透露,苹果首款搭载 Apple Intelligence 功能的智能家居设备将是一款全新的桌面机器人。

 

古尔曼表示,期待在现有苹果智能家居设备上使用 Apple Intelligence 功能的用户可能要失望了,他们需要等待苹果推出 AI 驱动的桌面机器人产品。早在今年 4 月,古尔曼就首次曝光了苹果的机器人项目,其中桌面机器人是开发进度最快的项目之一,但仍处于早期阶段。(@IT 之家)

02 有态度的观点

1、红杉美国合伙人:AI 不会取代软件,而是带来新的商业模式和机会

 

AI 技术正处于转折点,将创造新商业模式和机会,特别是在服务行业,如法律和会计等领域,这些行业的文本处理工作流程非常适合 AI 技术应用。稳定的基础 AI 模型对整个 AI 生态系统发展至关重要,这种稳定性支持企业更有效地预测和构建应用程序,推动工程化优化和认知架构设计。尽管 AI 将带来新的服务模式,人际关系和实际执行任务将继续依赖人工,不会被 AI 完全取代。(@有新 Newin)

 

2、Anthropic 首席执行官:未来三年内,AI 大模型训练成本将上升至百亿甚至千亿美元

 

7 月 8 日消息,据外媒报道,AI 初创公司 Anthropic 的首席执行官 Dario Amodei 近期接受播客节目采访时表示,目前像 GPT-4o 这样的模型训练成本约为 1 亿美元,而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元(约 72.94 亿元人民币)。当然,10 亿美元还不是「终点」。Dario Amodei 作出预测,未来三年内,AI 大模型的训练成本将上升至 100 亿美元甚至 1000 亿美元(约 7294.28 亿元人民币)。Dario Amodei 还谈到了对通用人工智能(AGI)的看法:AGI「不会突然实现」,而是一个渐进的发展过程。新的模型建立在过去的模型的发展之上,就像人类孩童不断学习新知识。

 

报道称,若 AI 模型算力每年增长 10 倍,那么也可以据此推测训练模型所需的硬件也至少强大 10 倍。因此,硬件很可能是训练 AI 模型中最大的成本驱动因素。早在 2023 年,ChatGPT 就需要超过 30000 个 GPU,而 OpenAI 首席执行官阿尔特曼也曾证实,训练 GPT-4 的成本为 1 亿美元。(@凤凰科技)

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:视频,智能,快手,模型,端侧,AI,开发者
From: https://www.cnblogs.com/Agora/p/18292369

相关文章

  • 【融合ChatGPT等AI模型】Python-GEE遥感云大数据分析、管理与可视化
    随着航空、航天、近地空间遥感平台的持续发展,遥感技术近年来取得显著进步。遥感数据的空间、时间、光谱分辨率及数据量均大幅提升,呈现出大数据特征。这为相关研究带来了新机遇,但同时也带来巨大挑战。传统的工作站和服务器已无法满足大区域、多尺度海量遥感数据处理需求。为解......
  • hackmyvm-airbind
    环境靶机ip:未知攻击机kali:ip1:192.168.96.59ip2:192.168.56.103主机探测arp-scan-l发现了56.104这个机子应该就是我们的靶机,接下来先对其进行端口扫描端口扫描发现开放了80端口,但是22端口状态显示为filtered,不知道开放还是关闭访问80端口,发现是wallos的管理系统使用......
  • spark程序在hdfs集群执行,提示: “main“ org.apache.spark.SparkException: Failed to
    1.执行代码spark在hadoop上以集群模式执行代码bin/spark-submit\--masteryarn\--deploy-modecluster\--executor-memory1G\--total-executor-cores2\/root/word_count_cluster.py2.错误截图错误原因:找不到spark目录3.解决办法在/etc/profile文件中配置spa......
  • 探索Google AI Studio的无限可能:从设计到代码的全新体验
    探索GoogleAIStudio的无限可能:从设计到代码的全新体验在2024年的GoogleI/O开发者大会上,Google展示了一项令人兴奋的实时演示:Gemini能够将应用程序UI的线框草图转换为JetpackCompose代码,直接在AndroidStudio中进行。这一功能基于Gemini的核心能力,虽然我们仍在不断优化......
  • 将metabase中的/auth/login替换为/daip/common/toLogin
    将metabase中的/auth/login替换为/daip/common/toLoginmetabase-0.31.2\frontend\src\metabase\routes.jsx109行修改为/auth/logout181行修改为/daip/common/toLoginmetabase-0.31.2\frontend\src\metabase\auth\components\BackToLogin.jsx第6行修改为/daip/common/toL......
  • 【一步步开发AI运动小程序】十九、运动识别中如何解析RGBA帧图片?
    引言最近有不少开发者向我们咨询,像体测、赛事等应用场景中,需要保存运动过程的图像,如何将相机抽取的RGBA帧图像解析成.jpg或.png格式的图像?今天我们就为您介绍相应的解决方案。一、RGBA图像结构。RGBA图像为一维数组,每四个元素描写一个图像像素,前三元素为颜色值,第四个元素为透......
  • AI工具,如何通过 GPT-4o 提高工作效率
    文章目录引言一、理解GPT-4o及其功能二、如何利用GPT-4o提高工作效率1.代码生成与优化2.自动化测试与调试3.技术文档撰写与知识管理三、实际案例与成功应用1.GitHub协作与问题解决2.敏捷开发与迭代优化四、GPT-4o的挑战与应对策略五、未来展望与发展方向六、结论......
  • 14-45 剑和诗人19 - 一个负责任的 AI 成熟度 端到端 框架
    介绍人工智能有望改变企业和社会,但如果部署不当也会带来风险。最近围绕有偏见和不可靠的人工智能系统的争议表明,需要严格的治理来建立公众信任。这对于语言模型尤其重要——语言模型是在大量文本数据集上训练的高级人工智能模型,可以生成类似人类的写作。让我分享一个负责......
  • 使用langchain与你自己的数据对话(三):检索(Retrieval)_langchain 数据收集
    今天我们来继续讲解deepleaning.AI的在线课程“LangChain:ChatwithYourData”的第四门课:检索(Retrieval)。Langchain在实现与外部数据对话的功能时需要经历下面的5个阶段,它们分别是:DocumentLoading->Splitting->Storage->Retrieval->Output,如下图所示:在上一篇博客......
  • 新智能:巨日禄AI创作平台实现让普通人自由创作AI漫画故事视频
    巨日禄官方网站(https://ai.jurilu.com/)迎来大版本更新。船新版本,铆足马力,打开新页面即可看见两大优化:「快速入口+作品画廊」,让创作者更加方便进行操作!面向初中阶AI创作者,巨日禄AI首度为用户们发布「AI故事+AI视频+表情包推文+AI绘画」模式,同样的操作,不同的效果,等你体验!这次版......