我自己的原文哦~ https://blog.51cto.com/whaosoft/12897659
#D(R,O) Grasp
重塑跨智能体灵巧手抓取,NUS邵林团队提出全新交互式表征,斩获CoRL Workshop最佳机器人论文奖
本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为上海交通大学实习生卫振宇和新加坡国立大学博士生徐志轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为实习生郭京翔,博士生侯懿文、高崇凯,以及硕士生蔡哲豪、罗嘉宇。本文的通讯作者为新加坡国立大学助理教授邵林。
想象一下,市面上有数十种形态各异的灵巧手,每一款都被设计得精巧而独特。然而,是否有可能存在一种通用的抓取策略,无需为每款灵巧手单独优化,却能够适应各种机器人手型和多样物体形状?这一看似遥不可及的梦想,正在逐步成为现实。
灵巧抓取是机器人操作领域的一项核心挑战,它要求机器人手能够与物体实现精确且稳定的交互接触。然而,如何有效建模这种高自由度且复杂的交互关系,并生成精准、多样且高效的抓取策略,一直是该领域亟待解决的难题。
近期,新加坡国立大学计算机学院的邵林团队提出了 D(R,O) Grasp:一种面向跨智能体灵巧抓取的机器人与物体交互统一表示。该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系,成功实现了对多种机器人手型与物体几何形状的高度泛化能力,为灵巧抓取技术的未来开辟了全新的方向。该论文在 CoRL 2024 MAPoDeL Workshop 中获得了 Best Robotics Paper Award。
- 论文标题:D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
- 项目主页:https://nus-lins-lab.github.io/drograspweb/
- 论文链接:https://arxiv.org/abs/2410.01702
- 代码链接:https://github.com/zhenyuwei2003/DRO-Grasp
一、引言
灵巧抓取是机器人完成复杂操作任务的关键,但由于灵巧手的高自由度及稳定抓取所需的复杂交互,任务挑战巨大。目前基于深度学习的方法主要分为机器人中心 (robot-centric) 和物体中心 (object-centric) 两类。
机器人中心方法(如手腕姿态或关节角度表示)直接将观测映射为控制命令,推理速度快,但样本效率低,且因映射依赖特定机器人结构,难以泛化到不同手型。
物体中心方法(如接触点和接触热力图表示)通过描述物体几何与接触信息,泛化能力强,适应不同物体和手型。然而,需额外优化步骤(如指尖逆运动学求解)将预测结果转化为运动学可行的抓取姿态,计算复杂且耗时。
为克服这些局限,我们提出交互中心 (interaction-centric) 的统一表示 D(R,O)。该方法捕捉机器手运动学与物体几何的交互关系,弥补机器人中心方法的泛化不足,同时提升物体中心方法的推理效率,实现跨机器人手型与物体形状的泛化,为灵巧抓取提供高效且鲁棒的解决方案。
图 1 灵巧手抓取方法比较
二、方法
图 2 D(R,O) Grasp 整体框架
给定物体点云和机器人手的 URDF 文件,模型的目标是生成灵巧且多样化的抓取姿态,能够在不同的物体和机器人手型之间实现广泛的泛化。D(R,O) Grasp 整体框架如图 2 所示,主要有以下三个部分组成:
1. 基于对比学习的配置不变预训练
2. D(R,O)表征预测
3. 基于 D(R,O) 表征的抓取姿态生成
2.1 基于对比学习的配置不变预训练
学习灵巧抓取需要理解机器手与物体的空间关系,目标是将机器手的特定配置与物体匹配。然而,由于不同配置下机器手整体姿态变化显著,模型难以捕捉局部几何特征的一致性。为此,我们提出一种配置不变的预训练方法,通过训练神经网络对齐不同配置下的几何特征,促进匹配并提升多姿态适应能力。
我们首先采样并存储机器手各 link 的点云数据。基于前向运动学模型,可为任意配置计算对应点云,确保不同配置下点云的一致性。在预训练中,规范配置(如张开手姿态)和抓取配置的点云分别输入机器人编码器网络提取逐点特征。我们通过点间欧氏距离加权正负点对关系,进行逐点对比学习,并计算如下损失函数:
该方法通过对齐不同配置下编码器的几何特征,简化机器手与物体匹配难度,提高模型的泛化能力。
2.2 D(R,O) 表征预测
我们预测的 D(R,O) 表征是一个机器手点云和物体点云之间相对距离矩阵(Distances of Robot and Object)。首先,我们使用两个相同结构的编码器分别提取机器手点云和物体点云的几何特征:
在此过程中,机器手的编码器使用预训练网络并在训练中保持冻结。为建立两组特征的对应关系,我们引入两个 Transformer 模型嵌入点间对应信息,并使用残差连接:
为实现跨智能体抓取的多样性,我们采用条件变分自编码器(CVAE)网络捕捉机器手、物体与抓取姿态的多种组合变化。具体而言,将机器手与物体在抓取姿态下的点云拼接后输入 CVAE 编码器,利用点云特征作为条件生成隐变量。随后,将隐变量与每个点特征拼接,得到机器手和物体的综合特征。
对于机器手某点与物体某点的综合特征,我们采用结合 MLP 网络和 softplus 函数的核函数计算相对距离,确保结果具有对称性和非负性:
通过对所有点对进行上述计算,我们最终得到完整的 D(R,O) 表征如下:
2.3 基于 D(R,O) 表征的抓取姿态生成
给定预测的 D(R,O) 表征,我们获得了机器人手点云与物体点云之间的相对距离关系。由于物体点云已知,我们可利用这些距离关系通过多点定位(Multilateration)技术计算出隐式描述的机器人手点云。本质上,这是一个最小二乘优化问题:
该问题已证明具有闭式解,可快速计算机器人手点云。在三维空间中,确定一个点的位置仅需四个相对距离,而 D(R,O) 表征提供了上百个距离。相比直接预测点云,这种表征对神经网络预测误差更加鲁棒。
得到机器人手点云后,为求解相应关节值,我们将逆运动学分为两步:首先,使用 SVD 分解从点云计算出每个 link 的 6D 姿态;然后,以这些 6D 姿态为优化目标,利用雅克比矩阵迭代更新初始关节值,最终得到期望抓取姿态的关节值。
这一优化过程约束简单,即便是 ShadowHand 等高自由度灵巧手,也可在不到 1 秒内完成优化,大幅提升抓取生成速度。
三、实验结果
图 3 与 baseline 的实验结果对比
在实验中,我们评估了抓取成功率、姿态多样性及生成效率三个指标。抓取结果在 10 个全新物体上进行了测试,使用 Barrett、Allegro 和 ShadowHand 三款灵巧手进行比较。图 3 表显示,我们的方法在所有灵巧手上都显著超越了现有方法的成功率,验证了方法的有效性。此外,生成速度亦大幅优于其他方法,这对灵巧操控任务至关重要。
图 4 生成抓取与 baseline 失败抓取可视化
与基准方法相比,我们的方法生成的抓取姿态更自然且鲁棒,而基准方法易产生不自然、穿透严重且稳定性差的抓取。
图 5 不同条件下实验结果对比
从图 5 表前两行可见,跨智能体训练较单一机器人训练在成功率上略有提升,证明了跨智能体的良好泛化能力。即便输入部分点云,我们的方法也能取得优异表现,展示了其广泛适用性。
图 6 多样化的抓取姿态生成
由于训练数据中输入和抓取旋转已对齐,模型能隐式映射这些旋转,从而根据输入方向生成适宜抓取姿态。如图 6 所示,六个不同方向下模型均生成可行抓取,体现方法的可控性。同时,通过从正态分布中采样隐变量,模型在相同方向上生成多个抓取姿态,展现多样性。
图 7 预训练点云匹配可视化
图 7 展示了预训练模型捕捉到的不同配置下几何特征的对齐关系,不同机器人手间的强匹配性突显了特征的迁移能力。正如图 3 表所示,去除预训练参数直接训练编码器会导致性能显著下降,进一步证明预训练的重要性。
图 8 真机实验效果
在真实机器人实验中,算法部署到 XArm 和 LeapHand 上,并在 10 个全新物体实验中达成 89% 成功率,展现了方法在灵巧抓取中的有效性和良好泛化能力。更多实验视频请见项目主页。
四、总结
在本论文中,我们提出了一种基于相对距离矩阵 D(R,O) 的新颖表征方法,用于捕捉机器人手与物体之间的交互信息,从而提升灵巧手的抓取性能。与现有方法过于依赖特定物体或机器手表示的局限性不同,我们的方法通过引入统一框架弥合了这种差距,并在不同机器人和物体几何形状之间实现了良好的泛化能力。此外,我们设计的预训练方法有效增强了模型适应不同手部配置的能力,从而支持广泛的机器人系统应用。实验结果表明,我们的方法在抓取成功率、姿态多样性以及计算效率方面均取得了显著提升,为灵巧抓取任务提供了新的解决方案。
#DeepMind研究表明还能提升推理能力
人会逆向思维,LLM也可以?
人能逆向思维,LLM 也可以吗?北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明,LLM 确实可以,并且逆向思维还能帮助提升 LLM 的正向推理能力!
论文一作 Justin Chih-Yao Chen 的推文
简单来说,正向思维就是从问题开始,一步步地得出答案;而逆向思维则是先从一个预测答案开始,逆推到原始问题。
组合使用正向和逆向思维可让我们验证解答的正确性并找到可能的错误。
举个简单例子,如果小明有 2 个苹果,小红有 3 个苹果,那么他们一共有多少个苹果?
使用正向推理,我们可以得出 2 + 3 = 5。再使用逆向推理,我们可以从共有 5 个苹果的结论开始,然后根据小明有 2 个来逆向得知小红有 3 个。这些数值与原始问题相符,故此可以验证 5 这个答案的正确性。如果正向推理出错了,比如答案是 6 个,那么逆向推理时就会得到与原始问题不一样的数值:小红有 4 个苹果。这种矛盾可让我们重新检视自己的推理过程哪里有误。
大型语言模型(LLM)的数学能力也能通过正向 - 逆向推理得到提升,原因有二:
- 数学本身是高度结构化的,因此正向和逆向推理之间存在明确的逆反关系;
- 只需替换名称或数值等变量,就可以创建出新的数学问题。
那么问题来了:逆向思维能否应用于更广泛、结构性较差的领域?
此外,这些方法通常是测试时使用,目的是验证:给定一个解,让 LLM 逆向思考并查看正向推理是否正确。虽然它们比其它测试时方法(例如自我一致性)的表现稍微好一点,但还是存在未解的疑问:我们能否训练一个本身就能逆向思维的模型,从而提升其正向推理效果,而不是在测试时使用逆向推理进行验证?
近日,北卡罗来纳大学教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一个联合团队为上面两个问题提供了解答。他们发布的论文表明,逆向思维可以显著 LLM 的推理能力,并且不限于数学任务。他们还提出了一个名叫 RevThink 的框架,可将逆向思维「灌输」给语言模型。
- 论文标题:Reverse Thinking Makes LLMs Stronger Reasoners
- 论文地址:https://arxiv.org/pdf/2411.19865
论文发布后,吸引来不少称赞之声。
方法
RevThink 主要包含两个阶段:数据增强和全新的学习目标。
数据增强
首先,对于推理数据集,该团队使用了一个更大、能力更强的教师模型来对其进行增强。
我们知道,一般来说,推理基准数据由一个问题和一个答案构成。那么该如何增强它呢?该团队的方法是通过对教师模式使用少样本提示来(few-shot prompting)生成三种新数据:正向推理、逆向问题、逆向推理。其中正向和逆向推理都会使用思维链。
只有当数据点的正向推理准确(与 ground truth 相符)且逆向推理与原始问题一致(通过提示教师模型进行验证)时,该数据点才会被保留下来。
学习目标
完成数据集增强之后,该团队还提出了三个用于训练更小的学生模型的关键目标。
具体来说,学生模型需要学会:
- 基于问题生成正确的正向推理;
- 基于原始问题生成逆向问题;
- 基于逆向问题生成逆向推理。
之所以要设置这三个目标,该团队说明了三点原因:
- 基于问题生成正确的正向推理是知识蒸馏的标准方法;
- 生成逆向问题会促使学生模型「思考」如何逆向一个问题并确定要问的正确问题;
- 最后,解决这个逆向问题可以增强学生模型逆向推理的能力。
在测试时,首先会使用问题来询问该学生模型,而它只会生成前向推理 —— 类似于标准的零样本推理。
本质上讲,这个流程是在训练过程中内化了逆向推理的能力,同时还能保证测试时间计算与零样本方法一样高效。
如图 1 传统的监督式微调侧重于从问题到答案的单向推理。相比之下,RevThink 基于新提出的数据增强方法和目标,通过学习两个方向的推理而引入了双向思维。这能为模型带来更大的提升。
实验和评估
该团队通过实验验证了 RevThink 的有效性。具体来说,他们使用的教师模型是 Gemini-1.5-Pro-001,学生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。训练中,他们使用了 LoRA 微调,秩设为 32。所有比较方法都使用了 vllm 和贪婪解码。
他们也选择了多种任务进行评估,包括常识推理(StrategyQA、CommonsenseQA、ARCchallenge),数学推理(MATH、GSM8K),表格数据推理(TabMWP)、自然语言推理(ANLI),逻辑推理(Date Understanding)。
参与比较的方法大致可分为三类:零样本方法、知识蒸馏(包含符号知识蒸馏和逐步蒸馏)和数据增强(包含问题重新表述、问题增强、答案增强)。更多实验设置请参阅原论文。
主要结果
表 1 给出了主要结果。
首先,RevThink 的平均性能表现很好,在不同数据集和模型上都优于基线。与学生模型的零样本性能相比,RevThink 使用 Mistral 时实现了 12.68% 的平均提升,使用 Gemma 时实现了 14.37% 的平均提升。
此外,相比于符号知识蒸馏(SKD)和逐步蒸馏(Distill Step-by-Step)—— 依赖于使用来自教师模型的正确推理链来执行监督式微调,RevThink 有 6.44% 至 7.15% 的显著提升。
与基于数据增强的基线方法相比,RevThink 带来的增益也更为显著,特别是在常识推理、表格推理和日期理解方面。虽然其中一些增强方法(例如答案增强 (AnsAug))对于数学推理很有效,但它们为其它领域带来的改进较少。这表明数学是一个更结构化的领域,会随着数据的增加而更好地扩展。
相比之下,RevThink 在各种推理任务上都能带来稳定的提升。并且表 3 表明,在留存数据集上进行评估时,RevThink 在领域外数学数据集上也能带来更大的增益,表现出了更好的泛化能力。
下面还列出了 RevThink 的更多优势,相关详情请访问原论文:
- RevThink 表现出了很好的样本效率。
- 逆向问题生成可提高性能,但充分利用新的数据集可获得最佳性能。
- RevThink 的目标比使用指令调整的单独实例更有效。
- 只需稍多一点 token,RevThink 就能获得更大提升。
- RevThink 与模型大小呈正相关。
- RevThink 可泛化至 OOD 数据集。
- RevThink 可作为现有方法的补充。
- RevThink 在可逆问题和中等难度问题上表现出了更大的提升。
#Primes of the form p² + nq²
两位数学家发现素数计数新方法,原来「p²+nq²」形式的素数真有无限多个
一项新的证明,让数学家们离理解「算术原子」素数的隐藏顺序更近了一步。
素数,即「只能被它们自己和 1 整除的数」,可以说是数学中最基本的组成部分。
素数的神秘之处在于:乍一看,它们似乎随意散布在数轴上,但实际上并不是随机的,而是完全确定的。仔细观察它们,就会发现各种奇怪的模式。
数学家们花了几个世纪的时间试图解开这些模式。如果能更好地理解素数是如何分布的,就能照亮数学宇宙的广阔天地。
虽然数学家们可以凭借一些公式大致了解素数的位置,却还是无法准确地找到它们,因此不得不采取更间接的方法。
公元前 300 年左右,欧几里得证明了素数的数量是无限的。此后,数学家们以欧几里得的定理为基础,为符合其他标准的素数证明了同样的说法。
举个简单的例子:是否有无数个不包含数字 7 的素数?
随着时间的推移,数学家们把这些标准变得越来越严格。通过证明仍然有无限多的素数满足这种越来越严格的限制,他们逐渐深入地了解素数的存在环境。但问题是,这类定理很难证明。
近日,来自牛津大学的 Ben Green 和哥伦比亚大学的 Mehtaab Sawhney 证明了一个特别具有挑战性的素数类型的定理 —— 是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?
Ben Green(左)和 Mehtaab Sawhney(右)。
这两位数学家的证明在今年 10 月份以预印本的形式发布,不仅加深了数学家对素数的理解,还利用了数学中不同领域的一套工具,表明这些工具远比数学家们想象的要强大得多,并有可能成熟地应用于其他领域。
- 论文标题:Primes of the form p² + nq²
- 论文链接:https://arxiv.org/pdf/2410.04189
长期以来的尝试
数学家总是倾向于研究那些复杂到足以引起兴趣,但又简单到足以取得进展的素数族。例如,他们可能试图证明有无限多个相距 500 个单位的素数。或者,我们可以通过把其他数的平方相加,来建立无限多的素数。
最后一个约束特别有用,它引导了几个世纪的数学进步。1640 年,费马(Pierre de Fermat)猜想有无限多的素数可以通过两个整数的平方和相加来表示。例如,素数 13 可以写成 2² + 3²。欧拉(Leonhard Euler)后来证明了这一猜想。
但是,只要对问题稍作调整:比如坚持要求其中一个平方数是奇数,或者是完全平方数,问题就会变得更难。
Ben Green 表示:「对一个集合的约束越多,找到其中的素数就越难。」
在 19 世纪,对这类定理的研究促进了现代数论的发展。在 20 世纪,它激发了迄今为止最雄心勃勃的数学工程之一:朗兰兹计划。而在 21 世纪,对这类素数的研究不断产生新的技术和见解。
2018 年,罗格斯大学的 Friedlander 和 Henryk Iwaniec 提出了一个问题:是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?(例如 41 = 5² + 4 × 2².)
结果发现,处理这一约束条件特别具有挑战性。但如果数学家们能解决这个问题,他们就能成功地对素数进行新一层次的控制,而这正是他们一直希望做到的。
一次有价值的访问
Green 和 Sawhney 以前都没有玩过这种素数游戏,但他们都有研究素数产生的奇特规律的经验。
今年 7 月,两位数学家在爱丁堡的一次会议上相遇了。刚从研究生院毕业的 Sawhney 一直很崇拜 Green。
Green 20 年前证明的一个开创性结果是将他带入这个学科的原因之一。Sawhney 表示:「我当时就想天啊,你怎么能做到这一点?」
同时,格林也对这位年轻的数学家印象深刻:「Mehtaab 是一位杰出的数学家,他无所不知。」
两人决定合作。他们只需要找到合适的问题。经过一番讨论,他们最终确定了 Friedlander 和 Iwaniec 的猜想。
Green 邀请 Sawhney 到牛津大学访问一周。他们知道,要证明类似的猜想,数学家们通常要依靠一套特定的计数技术。但由于他们问题中的素数定义过于严格,二人无法找出让这套传统工具发挥作用的方法。
相反,他们希望用一种更迂回的方式来证明这一猜想 —— 走一步数学棋。但首先,他们必须证明他们是可以走这步棋的。
在 Sawhney 访问结束时,他和 Green 已经知道了如何做到这一点,从而证明了这个猜想。为此,他们与数学的另一个领域建立了惊人的联系。
尝试另一个集合
在 Green 和 Sawhney 看来,根本不可能通过计算两个素数的平方并将其相加来直接计算素数的数量。但是,如果他们稍微放松一下限制,结果会怎样?他们意识到他们可以解决一个稍微弱一些的版本 —— 其中被平方的数只需「大致粗略」是素数。
相比于素数,粗略素数(rough prime)更容易找到。假设你要统计 1 到 200 之间有多少个粗略素数。
首先,先看看最小的素数有哪些 ——2、3、5、7。然后列出所有无法被这些素数整除的数。这些数就是粗略素数。在这种情况下,你最终会得到 50 个粗略素数:其中 46 个真是素数,而另外四个不是素数(121、143、169 和 187)。由于粗略素数的分布的随机性远低于素数的分布,因此它们更容易处理。Sawhney 说:「粗略素数是我们远远更加了解的集合。」
Tamar Ziegler 在素数方面的开创性工作使研究人员能够将一种名为 Gowers 范数的数学技术移植到一个新领域。
Green 和 Sawhney 已经证明,通过对两个粗略素数求平方并将它们相加可以得到无穷多个素数。现在他们只需证明这个陈述暗示了他们实际想要解决的问题:存在无穷多个素数可以写成真实素数的平方和。
但这无法显而易见地推导出来。他们必须为该问题的每个版本都分析一个特殊的函数集 —— 称为 I 型与 II 型和(Type I and Type II sums),然后证明:不管使用何种约束条件,这些和都是等价的。只有这样,Green 和 Sawhney 才能知道他们可以将粗略素数代入他们的证明中,同时不丢失任何信息。
他们很快意识到:他们可以使用一个工具来证明这些和是等价的,并且他们各自之前都在自己的研究工作中使用过这个工具。这个工具被称为 Gowers 范数,是数学家 Timothy Gowers 几十年前开发的,原本是用于度量一个函数或数集的随机或结构化程度。从表面上看,Gowers 范数似乎属于完全不同的数学领域。Sawhney 说:「不了解它的人几乎无法看出这些东西存在关联。」
但使用数学家陶哲轩和 Tamar Ziegler 在 2018 年证明的里程碑结果,Green 和 Sawhney 发现了一种方法来建立 Gowers 范数与 I 型与 II 型和之间的联系。本质上,他们需要使用 Gowers 范数来证明他们的两组素数足够相似,即使用粗略素数构建的集合和使用实素数构建的集合。
事实证明,Sawhney 知道该怎么做。今年早些时候,为了解决一个与之无关的问题,他开发了一种使用 Gowers 范数比较集合的技术。他没想到的是,该技术足以证明这两个集合具有相同的 I 型和 II 型和。
技术在手,Green 和 Sawhney 证明了 Friedlander 和 Iwaniec 的猜想:可以写成 p² + 4q² 形式的素数有无穷多个。最后,他们还成功扩展了他们的结果,证明了:其它素数族的素数也有无穷多个。对于这类进展通常很罕见的问题而言,这着实是一个重大突破。
更重要的是,这项工作表明 Gowers 范数可以作为一个新领域的强大工具。Friedlander 说:「因为它是如此新颖,至少在数论的这个部分,它有可能做到很多其他的事情。」数学家们现在希望进一步扩大 Gowers 范数的范围 —— 尝试用它来解决数论中素数计数问题之外的其他问题。
「看到我以前想到的东西有了意想不到的新应用,我感到很有趣。」Ziegler 说,「这就像为人父母,当你放开孩子,他们长大后会做出神秘而意想不到的事情。」
原文链接:https://www.quantamagazine.org/mathematicians-uncover-a-new-way-to-count-prime-numbers-20241211/
#o3是AGI
是时候停止炒作「o3是AGI」了!背后15人安全对齐团队大盘点
我们或许可以称o3是「更高级的推理AI」,而远不是AGI。
昨天凌晨,OpenAI 连续 12 天发布会终于落下了帷幕,并甩出了最强大的推理模型 o3 系列!
当然,用户现在想要体验 o3 或者 o3-mini,需要申请并等待数周。从目前 OpenAI 官方给出的一些纸面数据来看,o3 的能力远超以往任何推理模型,并在 ARC-AGI 基准上达到了优良水平,成为首个突破该基准的 AI 模型。其中,o3 系列模型最低可达到 75.7%,最高可达到 87.5%。
o3 系列模型如此强大的能力,激起了大家对 AGI 的热烈谈论,很多人都兴奋地宣布:这就是 AGI、AGI 已经实现、AGI 比你想象的更加接近。
图源:X@MatthewBerman
图源:X@treky_x
图源:X@WesRothMoney
图源:X@FinanceLancelot
面对关于 o3 愈演愈烈、愈加失控的炒作,知名博主、AI 研究者「elvis」认为,o3 系列不是 AGI、不是奇点,人们甚至无法访问这些模型。连 OpenAI 都明确表示还有很多需要改进的地方。虽然进展的确令人兴奋,但网络上误导信息太多,基准测试结果也并没有多大意义。
图源:X@omarsar0
有人表示,每次发布新的 OpenAI 模型(这次是 o3),都会有人宣称「AGI 来了」、「不再需要程序员了」等言论。虽然 o3 看起来令人印象深刻,但它远没有在现实世界中得到检验。AGI 仍然遥遥无期。
图源:X@drjohnflackett
还有人说到,为什么我们要在一个还无法体验的演示版 AI 模型上宣布「AGI」呢?虽然 o3 系列模型看起来很棒,但并不是一个正式发布版本,也无法验证。
图源:X@mcguinnessfortx
持有这种观点的人不在少数,有人觉得,o3 系列在编码和数学领域的确很强,但 AGI 是要胜任人类能做的所有事情。我们要的是全能型人才,而非专业人才。另外,一次基准测试表现很好不能说明全部的情况,并不意味着能够迎接其他不可预测的挑战。最后,真正的 AGI 应该是适应性很强的,即使资源紧张也能运行。但 o3 的运行成本高得离谱,这显然不是 AGI 的意义所在。
图源:X@marthinusstryd1
显然 o3 离跟 AGI 画上等号还有很长的路要走,但无疑是一次巨大的进步。尤其是推理速度提升、成本降低且兼顾性能的 o3-mini,它更加经济高效,并使用全新的安全评估方法审议式对齐(deliberative alignment)。
这是一种直接教模型安全规范的新范式,训练模型在回答之前明确回忆规范并准确执行推理。OpenAI 使用这种方法来对齐包括 o3-mini 在内的 o 系列模型 ,实现对 OpenAI 安全政策的高度精确遵守,并且这个过程无需人工编写的思路或答案。
下图 1 为包括 o3-mini 在内的 o 系列模型与 GPT-4o 在关键政策领域的比较结果,比如不允许的内容、遵守响应风格指南、越狱和过度拒绝等。
接下来,机器之心对该范式相关论文的作者进行了完整的盘点。
论文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf
o3-mini 对齐范式作者盘点
Melody Y. Guan
Melody Y. Guan 本硕均就读于哈佛大学,目前是斯坦福大学计算机科学系的博士研究生。
在加入斯坦福大学之前,Melody Y. Guan 曾在谷歌担任研究员。她与 OpenAI 的关系主要体现在她的研究工作上,她与 OpenAI 的研究人员合作发表了多篇论文。
Melody Y. Guan 的研究兴趣主要集中在强化学习和神经架构搜索等领域。她与 Google Brain 团队合作,提出了著名的神经架构搜索方法 ENAS(Efficient Neural Architecture Search via Parameter Sharing)。此外,她还发表了多篇关于机器学习和人工智能的学术论文。
Manas Joglekar
Manas Joglekar 本科毕业于印度理工学院孟买分校,后于斯坦福大学读博士。
博士期间,他曾先后在微软、谷歌和 Facebook 进行实习,2016 年正式进入谷歌担任高级软件工程师,2019 年他担任 Snorkel AI 创始工程师,负责领导机器学习基础工作,2023 年 10 月加入 OpenAI。
Manas Joglekar 发表过多篇论文,主要研究方向包括计算机科学和机器学习。
Eric Wallace
Eric Wallace 是 OpenAI 的研究员,致力于使下一代大型语言模型(LLMs)更加安全、可靠和注重隐私。
他本科毕业于马里兰大学帕克分校计算机科学系,目前还在加州大学伯克利分校攻读博士学位,研究方向是增强机器学习的安全性、隐私性和鲁棒性。
在加入 OpenAI 之前,Eric Wallace 曾在 DeepMind 和 Meta 实习。
他在 OpenAI 的工作主要集中在提升大模型的安全性和隐私性,曾参与了 GPT-4o mini、o1、o1-mini 等安全和能力方面的研究。
Saachi Jain
Saachi Jain 是 OpenAI 的研究人员,她本硕毕业于斯坦福大学,目前在麻省理工学院(MIT)攻读博士学位。
她的研究主要集中在构建更鲁棒和可靠的机器学习模型,特别是理解模型如何进行泛化。
在加入 OpenAI 之前,Saachi Jain 曾在特斯拉担任计算机视觉科学家,参与自动驾驶技术的视觉模型设计和训练。她还在 Facebook 和 Google 等公司进行过实习。
在 OpenAI,她曾是 o1 项目的安全技术负责人之一,该项目旨在提高模型的推理能力和安全性。
Boaz Barak
Boaz Barak 是哈佛大学计算机科学教授。他是一位理论计算机科学家,研究领域包括计算复杂性、算法、密码学、量子计算以及机器学习的基础。Boaz Barak 曾参与了 OpenAI o1 项目的安全研究工作。
Alec Heylar
他本科毕业于弗吉尼亚理工学院暨州立大学,曾在微软度过 5 年职业生涯,2024 年 5 月进入 OpenAI 担任研究员。
Alec Heyla 的专业技能涵盖了人工智能、大语言模型等多个领域。
Rachel Dias
Rachel Dias 本科毕业于美国芝加哥大学的政治学专业,曾在 Meta 担任产品策略与运营,后来加入 TikTok 担任政策实施经理。
2024 年 1 月进入 OpenAI, 是 OpenAI o1 模型的「准备评估」团队成员之一。
Andrea Vallone
她在加州大学圣巴巴拉分校获得了英语(B.A. English)和心理学(B.A. Psychology)的双学士学位。
后来加入 Facebook 担任产品和政策传播经理、产品政策经理。2022 年 8 月加入 OpenAI 从事模型安全工作。
Hongyu Ren
Hongyu Ren 在去年 7 月加入,现在是 OpenAI 的一名研究科学家,他还是 GPT-4o 、GPT-4o mini 的核心贡献者,并致力于 GPT-Next 的研究。Hongyu Ren 本科毕业于北京大学、博士毕业于斯坦福大学。此前,他在苹果、谷歌、英伟达、微软等工作过。
Jason Wei
AI 圈的人大概都很熟悉 Jason Wei,他本科毕业就加入谷歌(2020 到 2023 年在 Google Brain 担任研究科学家),以一作身份写出了「思维链」(CoT)的开山之作。2023 年 2 月加入 OpenAI,担任 AI 研究人员。2024 年,他参与了 OpenAI o1 模型的研发。他的工作推广了 CoT 提示、指令调整和智能涌现等领域。
扩展阅读:
- 本科毕业加入谷歌,还写了「思维链」开山之作,这位 OpenAI 新秀正为本科生答疑解惑
- CoT 提出者 Jason Wei:大模型评估基准的「七宗罪」
Hyung Won Chung
Hyung Won Chung 现在是 OpenAI 的一名研究科学家。研究重点是大型语言模型。在那之前,他在谷歌大脑工作,并在 MIT 攻读博士学位。他也是 OpenAI o1 的核心贡献者之一。
他曾参与过一些重要项目的研究工作,比如 5400 亿参数的大型语言模型 PaLM 和 1760 亿参数的开放式多语言语言模型 BLOOM。机器之心也曾介绍过他为一作的论文《Scaling Instruction-Finetuned Language Models》。
扩展阅读:
OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键
Sam Toyer
Sam Toyer 本科毕业于澳大利亚国立大学,博士生就读于加州大学伯克利分校。研究领域包括计算机视觉、规划、模仿学习和奖励学习。近期,我的研究重点是如何使大规模语言模型更加安全和鲁棒,这些特性对于在高风险场景中的应用至关重要。以下是他的工作经历:
Johannes Heidecke
Johannes Heidecke 是巴塞罗那的一名人工智能硕士研究生,目前专注于探索强化学习和生成模型。
他对机器学习和人工智能的研究充满热情,并参与了许多 OpenAI 的相关工作。
他相信人工智能对人类未来具有巨大的潜力,但要让先进的人工智能系统与我们的价值观和目标保持一致,还需要大量有针对性的工作和研究。
为此,他正在探索将机器学习应用于价值学习问题的方法:通过观察人类行为,推断他们的动机是什么。
Alex Beutel
Alex Beutel 在卡内基梅隆大学获得计算机科学博士学位,此前在杜克大学主修计算机科学和物理学。
他目前是 OpenAI 安全研究团队的技术负责人。他曾在 Google Research 担任高级员工研究科学家、技术负责人和经理,联合领导了一个负责机器学习责任研究的团队(Responsible ML team),并推动了涵盖推荐系统、公平性、鲁棒性、强化学习以及数据库机器学习的研究工作。
Amelia Glaese
Amelia Glaese 本科就读于慕尼黑工业大学,攻读航天工程。在慕尼黑工业大学与佐治亚理工学院分别攻读了机械工程以及计算机科学与工程硕士。曾任谷歌软件工程师,后来加入 DeepMind 团队,工作了四年多。在此期间,她参与了 Gemini 相关论文的发布。今年 3 月,Amelia Glaese 正式加入 OpenAI。
#o1 pro
自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉
近期,OpenAI 号称最强推理模型的推出,引发了社区的热议,无论是性能还是价格,都产生了不少话题。最近,我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试,旨在深入探究其在数学推理方面的能力表现。同时以上海人工智能实验室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作为对比,「o1 pro」是否真的「自缘身在最高层?」
AGI-Eval 最新的高难度数学评测集 Math Pro Bench,试题来源包括全国高中数学联合竞赛、美国数学邀请赛、全国硕士研究生招生考试等。从题型分布上看,各模型考研数学题正确率高于高中数学竞赛题 10%,提示考研数学题目难度相对简单。这一现象表明考研数学题目相对高中数学竞赛题而言,在知识运用的综合性与逻辑性方面可能更符合模型的训练模式与擅长领域。例如,在高中数学竞赛题中,可能涉及更多独特的解题技巧、创新性的思维方式以及对数学概念的深度挖掘,而模型在处理这些复杂且灵活的问题时可能面临更大的挑战。
话不多说,直接上评测结果 ——
整体来看,o1 pro mode 在总计正确率上以 0.774(65/84)占据榜首,o1 以 0.750(63/84)紧随其后。这表明 o1 系模型在整体数学推理能力上具有较高的水平,能够较为有效地应对高难度数学问题。DeepSeek-R1-Lite 的总计正确率为 0.667(56/84),o1 - preview 的总计正确率为 0.643(54/84),其他模型的总计正确率相对较低,反映出它们在数学推理的全面性和准确性方面仍有提升空间。
其中在高中数学竞赛题方面,o1 pro mode 和 o1 均以 0.722(39/54)的正确率位居前列,展现出了较强的数学思维能力与解题技巧应用能力。DeepSeek - R1 - Lite 的正确率为 0.611(33/54),o1 - preview 的正确率为 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正确率则相对较低,分别为 0.519(28/54)、0.426(23/54)、0.315(17/54)。
在考研数学题上,o1 pro mode 以 0.867(26/30)的正确率脱颖而出,o1 的正确率为 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正确率均为 0.833(25/30)。DeepSeek - R1 - Lite 的考研数学题正确率为 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正确率仅为 0.533(16/30)。
榜单链接:https://agi-eval.cn/evaluation/Math%20Pro%20Bench
除了推出评测榜单以外,AGI-Eval 也从模型的推理过程中,发现了一些有意思的现象和结论。
o1 pro 系列推理更快,思考更灵活
1. o1、o1 pro 总推理时间更短。在推理时间方面,o1 系模型展现出了显著的优势。o1 的总平均推理时间仅为 33.84s,o1 pro mode 更是缩短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理时间在 2min 以上。这一巨大的时间差距表明 o1 系模型在数学推理效率上远超其他同类模型,能够在更短的时间内完成复杂数学问题的推理与解答,这对于实际应用场景中对实时性要求较高的任务具有比较重要的意义。
prompt
Alice 和 Bob 玩以下游戏。面前有 n 个令牌堆放着。玩家轮流行动,Alice 先行动。在每一回合中,玩家从令牌堆中移除 1 个或 4 个令牌。移除最后一个令牌的玩家获胜。求小于或等于 2024 的正整数 n 的个数,使得 Bob 无论 Alice 如何行动都能保证他获胜。
o1 pro mode(用时 18 秒):
o1 (用时 26 秒):
2. o1、o1 pro 会根据题目难度调整推理时间。o1/o1 pro 的竞赛题平均推理时间为 34-40s,而考研题平均推理时间为 18-20s,约是前者的约一半。
3. o1 pro 模型能答对其他模型暂无法答对的题。在测试过程中,存在一些题目,如 :
“设 p 是最小的满足存在正整数 n 使得 n^4 + 1 可以被 2 整除的素数。求最小的正整数 m,使得 m^4 + 1 可以被 p^2 整除。”
这一题目仅有 o1 pro mode 答对,o1、Deepseek-R1-Lite 等其他模型均答错。这表明 o1 pro mode 在处理某些具有特殊数学结构和逻辑要求的题目时,具备独特的推理能力和解题思路,能够深入挖掘题目背后的数学原理与规律,从而找到正确的答案。而其他模型在面对这类复杂且具有挑战性的题目时,可能由于推理机制的局限性或知识储备的不足,无法准确地把握解题的关键要点,导致最终回答错误。
方法论与创新性
o1-pro 在处理数学问题时表现出更强的创新性和灵活性,能够结合多种数学理论和方法来解决问题,优于其他通用 AI 模型。o1 同样具有归纳与创新的能力,但与前者相比不够简洁直接,其他模型在这方面的能力则稍显不足。
prompt:
一只青蛙在正方形 A B C D 的四个顶点间跳跃,每次跳跃总是等可能地跳至与当前所在顶点相邻的两个顶点之一,且各次跳跃是独立的。若青蛙第一次跳跃前位于顶点 A ,则它第 6 次跳跃后恰好仍位于顶点 A 的概率为
o1 pro mode(用时 12 秒):
直接利用了正方形的对称性和跳跃的性质,避免了复杂的矩阵运算和特征值分析,更直观容易理解,适合初学者。
o1(用时 17 秒):
它的回答虽然正确,但涉及了状态转移矩阵和特征值分析,计算过程相对复杂,且需要一定的线性代数和概率论知识,对初学者来说可能不太友好。
Deepseek-R1-Lite(用时 1min):
和 o1 同样涉及了状态转移矩阵和特征值分析,但求解过程冗长复杂得多,阅读理解起来相对困难。
长链路推理与细节处理
在涉及大量计算的长链路推理中,一个小小的计算失误会模型思维链失败,使模型陷入死循环状态。o1 pro mode 和 o1 实现了对细节的精确控制,在进行长链路推理时能够尽量保持高度的准确性和稳定性。
prompt
实对称矩阵 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可通过正交相似变换化为对角阵__
o1 pro(用时 12 秒):
特征值与特征向量的求解涉及大量复杂的计算,每一步计算都是正确的,最后导向正确的结果
o1(用时 19 秒):
虽然得到了正确的答案,但过程不完全正确,例如第二步特征向量求解错误
Deepseek-R1-Lite:
在第一步计算特征值的过程中,就出现了计算错误,得到的特征多项式不正确,导致了后续求解特征方程的过程基于错误的多项式,从而无法找到正确的特征值。
此外,能看出推理模型也有明显的能力缺陷部分。如 Deepseek-R1-Lite 推理部分会存在中英夹杂或渲染不全的情况
人机协作评测新模式探索及高质量评测社区建设
鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval 创新性地提出了人机协作评测模式。在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。基于前期的一些用户实验表明,通过这种方式不仅可以获得更为简洁、完善的推理过程描述,还可以进一步提升用户与大模型之间的互动体验。未来,随着更多类似平台的出现和发展,相信人机协作将成为评测领域的一个重要发展方向。
,时长00:30
人机社区链接:https://agi-eval.cn/llmArena/home
AGI-Eval 平台基于真实数据回流、能力项拆解等方式,自建万量级私有数据,并经过多次质检保证准确率。黑盒 100% 私有化数据,可保证评测数据不可 “穿越”。从数据建设到模型评测,实现全层级能力项目,一级能力涵盖指令遵循、交互能力、认知能力(含推理、知识、其他认知能力等);完美实现自动与人工评测相结合。
对于 Chat 模型,平台官方榜单结合主观、客观评测结果,中英文权重分布均衡。客观评测基于模型打分,可处理具有一定自由度问题,准确率 95%+;主观评测基于三人独立标注,并记录细分维度标签结果,全面诊断模型问题。
总结 1:推理模型优势探讨
(一)高效的推理算法
o1 系模型之所以能够在高难度数学测试中取得优异成绩,其高效的推理算法功不可没。通过对推理过程的优化与加速,模型能够在短时间内对复杂的数学问题进行深入分析与推理,快速找到解题的思路与方法。这种高效的推理算法可能基于先进的神经网络架构、智能的搜索策略以及对数学知识的有效组织与运用,使得模型在面对各种数学问题时能够迅速做出反应并给出准确的答案。
(二)精准的题目理解与分析能力
在面对高难度数学题目时,准确理解题目要求与意图是解题的关键第一步。o1 系模型展现出了强大的题目理解与分析能力,能够精准地把握题目中的数学关系、条件限制以及求解目标。通过对自然语言描述的数学问题进行有效的语义解析和逻辑转换,模型将其转化为内部可处理的数学模型与推理任务,从而为后续的解题过程奠定坚实的基础。这种精准的题目理解与分析能力使得模型在处理各种复杂数学表述和逻辑结构时能够游刃有余,避免因误解题目而导致的错误推理。
(三)灵活的推理策略调整
如前文所述,o1 和 o1 pro mode 能够根据题目难度灵活调整推理时间和推理策略。在面对简单题目时,模型采用快速高效的推理方式,迅速得出答案;而在处理复杂难题时,模型则能够自动切换到深度推理模式,增加推理步骤和时间投入,对问题进行全面细致的分析与求解。这种灵活的推理策略调整能力使得模型在不同难度层次的数学问题上均能保持较高的解题效率和准确性,体现了其在推理过程中的智能化与自适应特性。
总结 2:推理模型局限性分析
(一)知识覆盖的局限性
虽然 o1 系模型在本次测试的高中数学竞赛题和考研数学题上取得了较好的成绩,但数学领域知识浩瀚无垠,仍可能存在一些特定的数学分支、理论或特殊题型,模型的知识储备不足或尚未深入学习掌握。例如,在某些高等数学的前沿研究领域、小众的数学应用场景或具有特殊历史文化背景的数学问题上,模型可能会因为缺乏相关知识而无法给出准确的答案或有效的推理。这表明模型在知识覆盖的广度和深度上仍有进一步拓展和完善的空间,需要不断地学习和吸收更多的数学知识,以应对日益复杂多样的实际应用需求。
(二)复杂逻辑推理的挑战
在一些极其复杂的逻辑推理场景中,o1 系模型可能会遇到困难。尽管模型在常规的数学推理任务中表现出了较高的水平,但当面对涉及多层嵌套逻辑、模糊逻辑或高度抽象逻辑的问题时,模型的推理能力可能会受到限制。例如,在一些数学证明题中,需要运用复杂的逻辑推导和反证法等推理技巧,模型可能无法像人类数学家那样进行深入细致的逻辑思考和创造性的推理过程,导致无法成功完成证明或给出完整准确的推理步骤。这反映出模型在处理复杂逻辑关系时的局限性,需要进一步优化其推理机制和逻辑处理能力,以提升在复杂逻辑推理任务中的表现。
(三)可解释性问题
随着人工智能模型在各个领域的广泛应用,其可解释性成为了一个重要的关注点。o1 系模型作为一种基于深度学习的大模型,其推理过程往往具有高度的复杂性和黑箱特性,难以直观地理解和解释模型是如何得出某个答案或推理结果的。这对于一些对可解释性要求较高的应用场景,如数学教育、科学研究中的关键决策等,可能会带来一定的困扰。缺乏可解释性使得用户难以信任模型的输出结果,也不利于模型的进一步优化和改进。因此,如何提高 o1 系模型的可解释性,使其推理过程更加透明、可理解,是未来模型发展需要解决的一个重要问题。
未来展望
通过本次对 o1 系模型的高难度数学测试,我们全面深入地了解了其在数学推理能力方面的表现。o1 系模型在正确率、推理时间以及特殊题目处理等方面展现出了显著的优势,其高效的推理算法、精准的题目理解与分析能力以及灵活的推理策略调整能力使其在众多模型中脱颖而出。然而,模型也存在知识覆盖局限性、复杂逻辑推理挑战以及可解释性问题等不足之处。
展望未来,随着技术的不断发展和研究的深入,我们期待 o1 系模型能够在以下几个方面取得进一步的突破和改进。首先,通过不断学习和更新知识,扩大其知识覆盖范围,提高对各种数学领域和特殊题型的处理能力。其次,优化推理机制,提升复杂逻辑推理能力,使其能够更好地应对具有高度复杂性和抽象性的数学问题。最后,加强对模型可解释性的研究,探索有效的方法和技术,使模型的推理过程更加透明、可理解,增强用户对模型的信任和应用的可靠性。
#ODDN
开放世界的深伪检测,北交大团队:解决好无配对数据挑战很重要
现有的深伪检测方法大多依赖于配对数据,即一张压缩图像和其对应的原始图像来训练模型,这在许多实际的开放环境中并不适用。尤其是在社交媒体等开放网络环境(OSN)中,图像通常经过多种压缩处理,导致图像质量受到影响,深伪识别也因此变得异常困难。
现有方法虽然在特定条件下取得了一些进展,但在面对开放世界中大量无配对数据的挑战时,往往难以提供理想的检测效果。
近日,AAAI 2025 接收结果公布,收录了一篇北京交通大学赵耀、陶仁帅团队联合苏黎世联邦理工学院的研究工作,论文题目为《ODDN:Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks》。
该工作提出了一个创新的深伪检测任务——非配对数据下的开放世界深伪检测。该任务针对真实社交媒体检测场景下配对数据在实际获取中数量较少的窘境。
论文地址:https://arxiv.org/pdf/2410.18687
此外,该工作还提出了针对新任务下的新方法,即使用多任务学习、梯度取反、梯度矫正等方式,提出 Backbone 提取特征中与压缩相关的信息,令模型关注生成模型产生的伪造特征,为处理真实社交媒体下的压缩 Deepfake 图像提供了新的思考。
图 1:任务总览图
方法概览
新提出的方法 ODDN 包含两个核心组件:开放世界数据聚合(ODA)和压缩丢失梯度校正(CGC),有效降低了配对数据稀缺和压缩影响带来的性能损失。
图 2:ODDN 模型结构图
研究者设计了两个下游任务:一个是基础的二分类任务,该分支优化 backbone 提取伪造相关的特征;另一个是判别图片是否被压缩的二分类任务,该分支通过梯度取反操作,使得该分支梯度在 backbone 的优化方向与设定分类目标相反,backbone 提取与压缩不相关的特征。
同时,将 Unpaired Data 以压缩有无、真假将数据分为四类,然后计算四个簇的聚类中心。
之后再计算分别计算压缩与未压缩的真假簇聚类中心距离,对应公式如下。
对于 Paired Data 因为其稀少性,继续采用之前工作使用的高效方法,即使用 HSIC 度量 Paired Data 数据分布的相似性。
虽然两个下游任务设定的优化是合理的,但是实际训练过程中,两个任务中产生的 Loss 在回传时,可能会出现优化方向的冲突。如何确定最合适的方向呢?研究者采用 PCGrad,将冲突的梯度投影到另一个梯度的法向量上,确保非冲突梯度之间的互补,对齐和促进不同梯度之间的交互,确保优化过程 backbone 的梯度始终处于对主线伪造检测任务产生积极影响的方向。
网络训练的损失函数和总体模型结构图可表示如下:
实验设置
实验使用 ForenSynths 的训练集来训练检测器,包括 20 个不同的类别,每个类别都包含 18000 张使用 ProGAN 生成的合成图像,以及来自 LSUN 数据集的相同数量的真实图像。
为了进行评估,研究者还使用了 17 个常用数据集。其中,前 8 个数据集来自 ForenSynths,包括由 8 个不同的生成模型生成的图像;其余 9 个数据集来自 GANGen-Detection,由另外 9 个不同生成模型生成的图像组成。
图 3:压缩情况已知的实验
图 4:压缩情况未知的实验
图 5:消融实验
总结
该工作提出了开放世界深度伪造检测网络,旨在解决开放世界,尤其是在未配对数据普遍存在的在线社交网络下的伪造检测。该方法能够有效处理与不同数据质量和压缩方法相关的复杂性。
研究人员在各种测试设置下,以及在 17 个流行的数据集上进行的综合实验表明:所提方法能够取得不错的性能,并在实际应用中实现了稳健性和适应性。这项工作不仅推动了深度伪造检测领域,而且为未来旨在打击在线社交平台上伪造信息的研究提供基准。
主要作者介绍
陶仁帅,北京交通大学副教授,工学博士,硕士生导师。入选 “北京交通大学青年英才培育计划”、“中国图象图形学学会高等教育教学成果激励计划”,曾任华为诺亚方舟实验室高级研究员。
李满毅,北京交通大学在读本科生,人工智能专业,师从陶仁帅副教授。已推免至中国科学院自动化研究所攻读博士学位,师从李兵研究员和刘雨帆助理研究员。
赵耀,北京交通大学教授,博士生导师。教育部长江学者特聘教授、国家杰出青年科学基金获得者、万人计划科技创新领军人才、IEEE Fellow。
标签:模型,合集,51c,抓取,素数,OpenAI,推理,94,o1 From: https://blog.csdn.net/weixin_49587977/article/details/144645220