首页 > 其他分享 >OpenAI 重大人事变动,联创加入死敌;阿里视频框架 Tora 操控物体运动轨迹丨 RTE 开发者日报

OpenAI 重大人事变动,联创加入死敌;阿里视频框架 Tora 操控物体运动轨迹丨 RTE 开发者日报

时间:2024-08-06 18:16:53浏览次数:14  
标签:RTE 视频 轨迹 Tora AI 模型 OpenAI

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@JLT,@鲍勃

01有话题的新闻

1、阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

 

 

阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。

 

Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:

 

TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。

 

MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。

 

Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高运动保真度方面表现出色,同时还能细致模拟物理世界的运动。

 

其独特设计理念融合文本、视觉和轨迹条件,精准控制视频内容,模拟物理世界运动规律,为电影特效制作、虚拟现实领域带来无限可能。(@IT 之家)

 

2、OpenAI 正在研发 ChatGPT 文本水印

 

据《华尔街日报》报道,OpenAI 已经开发了一种工具,可以用来检测用户是否使用 ChatGPT 撰写文章。报道指出,这项检测技术实际上使用到了一种文本水印。用户无法通过肉眼察觉,但可以借助 OpenAI 的检测工具来进行识别。

 

在《华尔街日报》的这篇报道发出后,OpenAI 还更新了 5 月份的一篇博客文章,更新内容主要为检测 AI 生成内容进行的研究。更新内容中指出,文本水印已被证明「非常准确,甚至对局部篡改也有效」。不过在检测全局篡改方面的能力较弱,比如使用翻译系统,用另一个生成模型改写,或者要求模型在每个单词之间插入一个特殊字符,然后删除该字符等操作。(@爱范儿)

 

3、OpenAI 又动荡,Greg Brockman 长期休假,另一联创加入死敌

 

OpenAI 经历重大人事变动,联合创始人 Greg Brockman 长期休假,John Schulman 转投竞争对手 Anthropic,产品负责人 Peter Deng 离职。Brockman 对 AI 模型和产品如 ChatGPT 转化有关键贡献,Schulman 负责改进大型语言模型和领导安全团队。

 

变动发生在公司业务发展强劲但面临潜在重大损失的时期。联合创始人 Ilya Sutskever 和 Andrej Karpathy 分别离职创办新公司。OpenAI 可能从非营利组织转变为利益公司,正在训练下一代旗舰 AI 模型,推出搜索引擎,开发 AI 代理自动执行计算机任务。Schulman 跳槽希望更深入从事 AI 对齐工作。(@硅星人Pro)

 

4、Not Diamond:自动推荐最佳的 LLM,实时学习提升体验

 

 

智能聊天机器人 Not Diamond 不仅仅是一款聊天机器人,它能自动选择最佳的人工智能模型来应对您的每一个问题,并根据您的反馈不断学习和改进。

 

【自动 AI 模型路由】:Not Diamond 会根据您的消息内容自动选择最适合的人工智能模型。

 

【实时学习】:Not Diamond 会在您使用的过程中实时学习,以确保每次交互都能带来更好的体验。

 

【竞技模式】:开启竞技模式可以比较不同模型的表现,为您提供更加个性化的建议。

 

【API 访问】:Not Diamond 还提供了 API 接口,让您可以在自己的应用中集成自动 AI 模型路由功能。

 

(@AI 产品大观)

 

5、智谱 AI 「清影」视频模型开源

 

今天凌晨,THUKEG (智谱 AI 官方账号)在 Github 上将 CogVideoX 开源。值得注意的是,该模型为前两周很火的智谱的第二世代 AI 视频清影的基模型。

 

7 月 26 日,智谱 AI 曾在官方公众号发文,宣布清影大模型上线。该模型可以让用户通过几个字到几百个文字的表述,在等待 30 秒之后,就可以获得一段 1440 x 960 清晰度的高精度视频。(@爱范儿)

 

6、马斯克重启对 OpenAI 及其 CEO 的诉讼

 

据纽约时报报道,马斯克重新启动了针对 OpenAI 的诉讼,这一举措加剧了 OpenAI 的权利斗争。在周一向法院提交的新起诉书中指出,OpenAI 及其两位创始人 Sam Altman 和 Greg Brockman 将商业利益置于公共利益之上,违反了公司的创始合同。

 

诉讼书中还提到,在 2015 年与马斯克一起创建 OpenAI ,并承诺为人类的利益谨慎开发人工智能后,Sam Altman 和 Greg Brockman 放弃了这一使命,并与 Microsoft 建立了数十亿美元的合作伙伴关系。(@爱范儿)

02有态度的观点

1、周鸿祎:大模型成本还将进一步降低

 

昨日,周鸿祎在社交平台发布视频。他认为,大模型的成本还将进一步地降低,使得科技平权,可以真正普惠给每一个人和结构,真正实现大模型的工业革命。此外,他还谈及了自己预计的大模型四大发展:

 

  • 开源模型与闭源模型并驾齐驱

  • 多个专业模型的组合工作,其能力可以超过规模更大的大模型

  • 模型并不是越大越好,要把模型的成本降下来,才能让人们更广泛地接触 AI

  • 端侧大模型将持续发力

 

(@爱范儿)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:RTE,视频,轨迹,Tora,AI,模型,OpenAI
From: https://www.cnblogs.com/Agora/p/18345773

相关文章

  • 使用OpenAI大模型与中专API进行文本生成的实战教程
    引言在人工智能技术的快速发展中,大型语言模型(LLM)如OpenAI的GPT系列,已成为处理自然语言任务的强大工具。本文将介绍如何通过中专API(http://api.wlai.vip)调用OpenAI的大模型进行文本生成。我们将展示如何编写一个简单的Python脚本,实现与API的交互,并生成高质量的文本内容。环......
  • prometheus中的node_exporter中linux系统中取磁盘使用率
    (((node_filesystem_size_bytes{job="exp-server-node",mountpoint=~".*",fstype=~"ext4|xfs|ext2|ext3|tmpfs"}-node_filesystem_free_bytes{job="exp-server-node",mountpoint=~".*",fstype=~"ext4|xfs|ext2|ext3|t......
  • Leetcode 3244. Shortest Distance After Road Addition Queries II
    Leetcode3244.ShortestDistanceAfterRoadAdditionQueriesII1.解题思路2.代码实现题目链接:3244.ShortestDistanceAfterRoadAdditionQueriesII1.解题思路这一题的话由于题目限制了road不会交叉,因此我们只需要在每次增加road之后将中间节点删除,剩余的路......
  • OpenAI Function Call大模型调用单个多个agent案例
    参考:https://platform.deepseek.com/api-docs/zh-cn/function_callinghttps://blog.csdn.net/qq_31095905/article/details/139143778https://blog.csdn.net/jacbo/article/details/136278619##官方案例https://cookbook.openai.com/examples/how_to_call_functions_wi......
  • 我可以为 OpenAI GPT 生成功能输入的 max_tokens 数量是多少?
    我尝试过使用100_000、20_000,但似乎只有10_000是可能的:fromopenaiimportOpenAIclient=OpenAI()messages={"role":"user","content":"Hello"}completion=client.chat.completions.create(model="gpt-4o-mini&q......
  • 文件存储服务系统(File Storage Service System)-00-文件服务器是什么?为什么需要?
    文件服务系列文件存储服务系统(FileStorageServiceSystem)-00-文件服务器是什么?为什么需要?文件存储服务系统(FileStorageServiceSystem)-01-常见的文件协议介绍文件系统FTPUbuntu安装入门介绍文件存储服务系统(FileStorageServiceSystem)-02-SFTP协议介绍分布式文件服......
  • 使用OpenAI API搭建AI聊天机器人
    在本文中,我们将介绍如何使用OpenAIAPI搭建一个简单的AI聊天机器人。为了便于国内用户访问,我们将使用中专API地址http://api.wlai.vip。什么是OpenAIAPIOpenAIAPI提供了一系列强大的自然语言处理(NLP)模型,这些模型可以用来执行各种任务,如文本生成、翻译、问答、摘要等。......
  • 如何使用OpenAI的大模型(LLM)进行Twitter数据读取与分析
    在这篇文章中,我们将介绍如何使用大语言模型(LLM),特别是OpenAI的工具,来读取和分析Twitter上的数据。我们会结合一个具体的示例,展示如何使用中国中转API地址(http://api.wlai.vip)进行调用。1.什么是大语言模型(LLM)?大语言模型(LLM)是一种通过大量文本数据训练得到的强大自然语言处......
  • Google 推出 Gemma 2 2B 端侧模型;Github 新服务帮助开发者选择 AI 模型 丨 RTE 开发者
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点......
  • 戴尔电脑驱动更新/(声卡驱动错误)The Waves audio driver is not supported by vour cur
    1.问题我这里的声卡驱动发生了一些问题,导致了MaxxAudioPro报错:TheWavesaudiodriverisnotsupportedbyvourcurrentaudiocodec.的报错2.解决参考:Fix-maxxaudiopronotworkingwindows11|"thewavesaudiodriverisnotsupportedbyaudiocodec"不要用驱动精......