2024年7月3日Arxiv人工智能相关论文

标签：arxiv 人工智能模型 Arxiv 2024 https pdf org 我们

在 FPGA 上实现快速、可扩展、能效高的非逐元素矩阵乘法

原标题: Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA

作者: Xuqi Zhu, Huaizhi Zhang, JunKyu Lee, Jiacheng Zhu, Chandrajit Pal, Sangeet Saha, Klaus D. McDonald-Maier, Xiaojun Zhai

摘要: 现代神经网络（NN）架构严重依赖大量的乘-累加算术运算，构成主要的计算成本。因此，本文提出在FPGA上作为NN基本组件的高吞吐量、可扩展和能效高的非逐元素矩阵乘法单元。我们首先简化了MADDNESS算法的层间和层内冗余，这是一种基于查找表的近似矩阵乘法，以设计一个快速、高效、可扩展的近似矩阵乘法模块，称为“近似乘法单元（AMU）”。AMU通过专用内存管理和访问设计进一步优化了基于查找表的矩阵乘法，将计算开销与输入分辨率分离，显著提高了基于FPGA的NN加速器的效率。实验结果表明，使用我们的AMU相比于基于FPGA的量化神经网络（QNN）加速器的最新解决方案，吞吐量高出多达9倍，能效高出多达112倍。

论文链接: https://arxiv.org/pdf/2407.02362

情绪的圆环模型中的自由能

原标题: Free Energy in a Circumplex Model of Emotion

作者: Candice Pattisapu, Tim Verbelen, Riddhi J. Pitliya, Alex B. Kiefer, Mahault Albarracin

机构: VERSES研究实验室洛杉矶加利福尼亚美国大学牛津分校心理学系澳大利亚墨尔本蒙纳士大学哲学系加拿大蒙特利尔魁北克大学计算机科学系

摘要: 先前的主动推理情绪账户将自由能的波动转化为情绪感，主要关注价值。然而，在情感科学中，情绪通常被表示为多维的。在本文中，我们建议采用情绪的环形模型，通过将情绪映射到一个由价值和唤醒构成的二维谱中。我们展示了如何从智能体的预期自由能中推导出一个价值和唤醒信号，将唤醒与后验信念的熵相关联，将价值与效用减去预期效用相关联。在这种表述下，我们模拟了参与搜索任务的人工智能智能体。我们展示了通过操纵先验和对象存在来导致情绪状态的常识性变化。

论文链接: https://arxiv.org/pdf/2407.02474

工业过程中的自动化知识图谱学习

原标题: Automated Knowledge Graph Learning in Industrial Processes

作者: Lolitta Ammann, Jorge Martinez-Gil, Michael Mayr, Georgios C. Chasparis

摘要: 工业过程产生大量的时间序列数据，然而提取有意义的关系和洞见仍然具有挑战性。本文介绍了一个针对工业应用量身定制的从时间序列数据中自动学习知识图谱的框架。我们的框架解决了工业数据集固有的复杂性，将其转化为知识图谱，从而改善决策制定、流程优化和知识发现。此外，它利用 Granger 因果关系来识别可以为预测模型设计提供信息的关键属性。为了说明我们方法的实际效用，我们还提供了一个激励用例，展示了我们框架在真实工业场景中的好处。此外，我们展示了如何将时间序列数据自动转换为知识图谱可以识别重要过程参数之间的因果影响或依赖关系。

论文链接: https://arxiv.org/pdf/2407.02106

信念分享：一种祝福还是一种诅咒

原标题: Belief sharing: a blessing or a curse

作者: Ozan Catal, Toon Van de Maele, Riddhi J. Pitliya, Mahault Albarracin, Candice Pattisapu, Tim Verbelen

机构: VERSES Research Lab 美国洛杉矶加利福尼亚 90016
University of Oxford 英国牛津大学
Université du Québec à Montréal 加拿大蒙特利尔Québec

摘要: 在与多方合作时，传达相关信息对于高效完成手头任务至关重要。在主动推理下，沟通可以被看作是在自由能最小化的智能体之间共享信念，其中一个智能体的信念被转化为另一个智能体的观察模态。然而，将信念转化为观察的最佳方法仍然是一个悬而未决的问题。在本文中，我们展示了天真地共享后验信念可能导致回音室和自我怀疑等负面社会动态。我们提出了一种替代的信念共享策略，可以缓解这些问题。

论文链接: https://arxiv.org/pdf/2407.02465

MARLIN：一种云集成的机器人解决方案，用于支持零售业内的内部物流。

原标题: MARLIN: A Cloud Integrated Robotic Solution to Support Intralogistics in Retail

作者: Dennis Mronga, Andreas Bresser, Fabian Maas, Adrian Danzglock, Simon Stelter, Alina Hawkin, Hoang Giang Nguyen, Michael Beetz, Frank Kirchner

机构: 德国人工智能研究中心（DFKI）不来梅大学

摘要: 在这篇论文中，我们介绍了服务机器人MARLIN及其与K4R平台的集成，该平台是一个用于零售复杂AI应用的云系统。在其核心，该平台包含所谓的语义数字孪生体，即零售商店的语义注释表示。MARLIN与K4R平台持续交换数据，提升机器人在感知、自主导航和任务规划方面的能力。我们利用这些能力在零售内部物流场景中，特别是通过协助店铺员工整理货架。我们展示了MARLIN能够通过检测和分类障碍物、自主规划和执行补货任务、适应环境中的意外变化并与店铺员工互动来更新零售店的数字表示。实验在模拟环境、实验室环境和真实商店中进行。我们还描述和评估了一种用于自主导航关节拖车系统的新算法。该算法胜过制造商的专有导航方法，并提高了MARLIN在狭窄空间中的导航能力。

论文链接: https://arxiv.org/pdf/2407.02078

强化学习与机器伦理：系统性综述

原标题: Reinforcement Learning and Machine ethics:a systematic review

作者: Ajay Vishwanath, Louise A. Dennis, Marija Slavkovik

机构: 阿格德大学曼彻斯特大学卑尔根大学

摘要: 机器伦理学是研究自主系统如何实现道德行为的领域。虽然在2020年之前存在一些旨在整合机器伦理最新技术的系统性综述，但这些综述往往不包括使用强化学习智能体作为实现道德行为的实体的研究。这是因为直到最近几年，我们才见证了强化学习中机器伦理研究的增加。我们在这里提出了一篇关于机器伦理强化学习和强化学习中的机器伦理的系统综述。此外，我们重点介绍了强化学习的伦理规范、组件和框架以及用于产生道德行为的环境的趋势。我们的系统综述旨在整合机器伦理和强化学习的工作，从而填补机器伦理技术发展中的空白。

论文链接: https://arxiv.org/pdf/2407.02425

潜在扩散模型用于生成气候模拟集合

原标题: Latent Diffusion Model for Generating Ensembles of Climate Simulations

作者: Johannes Meuer, Maximilian Witte, Claudia Timmreck, Thomas Ludwig, Christopher Kadow

机构: 马克斯·普朗克研究所

摘要: 在气候情景中获得准确的不确定性估计通常需要生成大量高分辨率气候模拟的集合，这是一个计算昂贵且内存密集的过程。为了解决这一挑战，我们在大量气候模拟数据集上训练了一种新颖的生成式深度学习方法。该模型包括两个组件：用于降维的变分自动编码器和生成多个集合成员的去噪扩散概率模型。我们在马克斯·普朗克研究所大型集合上验证了我们的模型，并展示它在变异性方面与原始集合达成良好一致。通过利用潜在空间表示，我们的模型可以快速在内存需求最小的情况下即时生成大型集合，这可以显著提高气候模拟中不确定性量化的效率。

论文链接: https://arxiv.org/pdf/2407.02070

在地下停车场可靠安全的占用格栅预测研究

原标题: Research on Reliable and Safe Occupancy Grid Prediction in Underground Parking Lots

作者: JiaQi Luo

机构: CARLA公司洛杉矶拉特克斯课程文件杂志团队

摘要: 在科学技术不断进步的背景下，自动驾驶技术已经成为学术界密切关注的焦点之一。然而，在复杂场景中导航时，确保这项技术的安全性和可靠性仍然是一个挑战。虽然大部分自动驾驶研究致力于在开放空间环境中进行测试，如城市道路和高速公路，其中各种变量被精心考虑，但封闭的室内空间，比如地下停车场，在学术讨论中在很大程度上被忽视。这种差距凸显了对于自动导航系统在这些受限环境中面临的独特挑战的理解不足。

本研究致力于室内自动驾驶，特别是在被忽视的地下停车场等空间中。利用CARLA的仿真平台，创建了一个逼真的停车模型用于数据收集。然后，一个占据网格网络处理这些数据，预测车辆路径和障碍物，增强系统在复杂室内环境中的感知能力。最终，这一策略提高了自动停车操作的安全性。论文对模型的预测能力进行了细致评估，在地下停车场的情境中验证了其有效性。我们的研究结果证实，所提出的策略成功地提升了自动驾驶车辆在这些复杂室内环境中的表现。它使自动系统更好地适应地下停车场，加强了安全措施和可靠性。这项工作通过解决室内停车环境的研究不足，为未来的进展和应用铺平了道路，并成为一个重要的参考点。

论文链接: https://arxiv.org/pdf/2407.02197

CALICO：集成校准的自信主动学习

原标题: CALICO: Confident Active Learning with Integrated Calibration

作者: Lorenzo S. Querol, Hajime Nagahara, Hideaki Hayashi

机构: 大阪大学人类元宇宙医学高级研究所(WPI-PRIMe)

摘要: 在安全关键应用中，如医学成像领域，深度学习的不断应用引发了对有限标记数据的担忧，随着模型复杂性的增加，对标记数据的需求也随之增加，给领域专家在注释数据方面带来了障碍。为了解决这个问题，活跃学习（AL）被用来以较低的注释成本高效地训练模型。在深度神经网络（DNNs）的背景下，AL通常使用置信度或概率输出作为选择最具信息量样本的评分。然而，现代DNNs表现出不可靠的置信度输出，使得校准变得至关重要。我们提出了一个AL框架，该框架在训练过程中自我校准用于样本选择的置信度，称为集成校准的自信主动学习（CALICO）。CALICO包括分类器和基于能量的模型的联合训练，而不是标准的基于softmax的分类器。这种方法允许在训练期间同时估计输入数据分布和类概率，提高了校准性，而无需额外的标记数据集。实验结果展示了与基于softmax的分类器相比，使用更少标记样本的情况下改进的分类性能。此外，观察到模型的校准稳定性取决于数据的先验类分布。

论文链接: https://arxiv.org/pdf/2407.02335

抽象辩证框架是布尔网络（完整版本）

原标题: Abstract Dialectical Frameworks are Boolean Networks (full version)

作者: Jesse Heyninck, Matthias Knorr, João Leite

机构: 开放大学，荷兰卡普敦大学，南非里斯本新大学 NOVA LINCS

摘要: 辩证框架是一种统一的形式论证模型，其中论证关系通过为原子论点分配接受条件来表示。它们的普遍性使其能够涵盖许多不同的方法，这些方法具有不同形式的论证结构表示。布尔调控网络被用来模拟复杂生物过程的动态，考虑到生物化合物之间的相互作用，如蛋白质或基因。这些模型已被证明在理解这些生物过程方面非常有用，可以重现已知行为，并在体外测试新的假设和预测，例如在新医疗治疗方法的背景下。虽然这两种方法源自完全不同的社区，但事实证明它们在外观上有惊人的相似之处。在本文中，我们研究了这两种形式主义之间的关系，揭示了它们的共同点和差异，并引入了一种对应关系，可以为各自的形式主义建立新的结果。

论文链接: https://arxiv.org/pdf/2407.02055

终止可微树专家

原标题: Terminating Differentiable Tree Experts

作者: Jonathan Thomm, Michael Hersche, Giacomo Camposampiero, Aleksandar Terzić, Bernhard Schölkopf, Abbas Rahimi

机构: IBM研究 - 苏黎世 ETH苏黎世 Max Planck智能系统研究所

摘要: 我们改进了最近提出的神经符号可微树机（Differentiable Tree Machine），该机器使用Transformer和张量积表示学习树操作。我们研究了该架构并提出了两个关键组件。首先，我们通过引入专家混合体来消除在每一步中使用的一系列不同的Transformer层。与以前的Differentiable Tree Machine方法相比，这导致了一个具有恒定参数数量的Differentiable Tree Experts模型，无论在计算中有多少步骤。鉴于在步骤数量上的这种灵活性，我们另外提出了一种新的终止算法，使模型能够自动选择要进行多少步骤。由此产生的终止式可微树专家模型能够缓慢地学习预测步骤数量，而无需神谕。在保持模型的学习能力的同时，它可以收敛到最佳步骤数量。

论文链接: https://arxiv.org/pdf/2407.02060

VFIMamba：使用状态空间模型进行视频帧插值

原标题: VFIMamba: Video Frame Interpolation with State Space Models

作者: Guozhen Zhang, Chunxu Liu, Yutao Cui, Xiaotong Zhao, Kai Ma, Limin Wang

机构: 南京大学腾讯上海人工智能实验室

摘要: 在生成视频帧插值（VFI）的中间帧时，帧间建模至关重要。当前方法主要依赖于卷积或基于注意力的模型，这些方法往往要么缺乏足够的感知域，要么需要大量的计算开销。最近，专为长序列建模定制的选择性状态空间模型（S6）已经出现，提供了线性复杂度和数据相关建模能力。在本文中，我们提出了VFIMamba，一种新颖的帧插值方法，通过利用S6模型实现高效动态的帧间建模。我们的方法引入了混合状态空间模块（MSB），该模块首先以交错方式重新排列相邻帧的标记，然后应用多方向的S6建模。这种设计有助于在帧间有效传输信息，同时保持线性复杂度。此外，我们引入了一种新颖的课程学习策略，逐渐培养对不同运动幅度的帧间动态建模能力，充分释放S6模型的潜力。实验结果显示，我们的方法在各种基准测试中取得了最先进的性能，特别是在高分辨率场景下表现突出。特别是在X-TEST数据集上，VFIMamba在4K帧上表现出0.80 dB的显著改进，在2K帧上表现出0.96 dB的显著改进。

论文链接: https://arxiv.org/pdf/2407.02315

Github: https://github.com/MCG-NJU/VFIMamba

用ChatGPT改变角色扮演游戏

原标题: Revolutionising Role-Playing Games with ChatGPT

作者: Rita Stampfl, Barbara Geyer, Marie Deissl-O’Meara, Igor Ivkić

机构: 布尔根兰州立应用科学大学兰开斯特大学

摘要: 这项研究的重点是教育数字化及其对教学方法的影响，研究了在布尔根兰德应用科学大学云计算工程硕士课程中使用角色扮演游戏中的ChatGPT。该研究旨在分析基于人工智能模拟对学生学习体验的影响。基于维果茨基的社会文化理论，使用ChatGPT帮助学生更深入地理解模拟商业场景中的战略决策过程。方法论包括角色扮演和对20个学生反思的定性内容分析。研究结果表明，ChatGPT提升了学生的参与度、批判性思维和沟通能力，同时有助于有效应用理论知识。此外，模拟可以促进理论知识的有效应用。结果强调了促进数字素养和为数字工作场所装备学习者的自适应教学方法的重要性。将人工智能整合到课程中以及高等教育持续创新的需求也被强调为确保卓越、面向未来的教学的手段。研究结果突显了人工智能以及特别是ChatGPT作为一种创新前沿教育工具的潜力，可以增强学习体验并通过教育实现可持续发展目标（SDGs）。

论文链接: https://arxiv.org/pdf/2407.02048

行动预测的语义引导表示学习

原标题: Semantically Guided Representation Learning For Action Anticipation

作者: Anxhelo Diko, Danilo Avola, Bardh Prenkaj, Federico Fontana, Luigi Cinque

机构: 罗马大学计算机科学系慕尼黑工业大学负责数据科学主席

摘要: 行动预测是从部分观察到的事件序列中预测未来活动的任务。然而，这项任务面临固有的未来不确定性以及推理相互关联行动的困难。与之前侧重于推断更好的视觉和时间信息的工作不同，我们集中于学习意识到其语义互连性的行动表示，基于原型行动模式和上下文共现。为此，我们提出了新颖的语义引导表示学习（S-GEAR）框架。S-GEAR学习视觉行动原型，并利用语言模型来构建它们的关系，引入语义。为了了解S-GEAR的有效性，我们在四个行动预测基准测试上对其进行测试，与之前的工作相比获得了改进的结果：在 Epic-Kitchen 55、EGTEA Gaze+ 和 50 Salads 上的 Top-1 准确率分别提高了 +3.5、+2.7 和 +3.5 个绝对点，Epic-Kitchens 100 上的 Top-5 召回率提高了 +0.8。我们进一步观察到，S-GEAR有效地将语言到视觉原型之间的几何关联转移。最后，S-GEAR通过展示行动语义互连性的复杂影响，在预测任务中开辟了新的研究领域。

论文链接: https://arxiv.org/pdf/2407.02309

顺序操纵对抗排名聚合：理论与算法

原标题: Sequential Manipulation Against Rank Aggregation: Theory and Algorithm

作者: Ke Ma, Qianqian Xu, Jinshan Zeng, Wei Liu, Xiaochun Cao, Yingfei Sun, Qingming Huang

机构: 清华大学哈尔滨工业大学

摘要: 使用成对比较进行排名聚合在社会学、政治学、经济学、心理学、体育等领域被广泛遇到。鉴于巨大的社会影响和随之而来的激励，潜在对手有强烈动机操纵排名列表。然而，理想的攻击机会和过度的对抗能力导致现有方法不切实际。为了充分探索潜在风险，我们利用对易受攻击的数据收集过程进行在线攻击。由于它独立于排名聚合且缺乏有效的保护机制，我们通过制造成对比较来破坏数据收集过程，而不需要了解未来数据或真实分布。从博弈论的角度看，在线操纵者和控制原始数据源的排名者之间的对抗场景被构建为处理知识不确定性的分布鲁棒博弈。然后，通过分析伯努利和蓄水池等抽样算法的脆弱性，我们证明了上述博弈中的均衡可能对对手有利。根据上述理论分析，在贝叶斯决策框架和大量参数化成对比较模型下提出了不同的顺序操纵策略。对于具有完全知识的攻击者，我们建立了所提出策略的渐近最优性。为了提高在不完全了解情况下的顺序操纵成功率，一个分布鲁棒估计器，在鞍点问题中取代最大似然估计，提供了保守的数据生成解决方案。最后，验证性的经验证据显示，所提出的方法以顺序方式操纵排名聚合方法的结果。

论文链接: https://arxiv.org/pdf/2407.01916

无线网络中的战略需求规划：生成式人工智能能够节省频谱和能量吗？

原标题: Strategic Demand-Planning in Wireless Networks: Can Generative-AI Save Spectrum and Energy?

作者: Berk Çiloğlu, Görkem Berkay Koç, Afsoon Alidadi Shamsabadi, Metin Ozturk, Halim Yanikomeroglu

机构: 安卡拉伊尔德里姆贝亚兹特大学加拿大渥太华卡尔顿大学

摘要: 无线通信与人工智能（AI）齐头并进，表明它们相互促进、互惠互利的紧密发展。这种协同作用在第六代移动网络技术标准（6G）的发展中尤为明显，6G被设想为AI原生。生成式人工智能（GenAI）是一种新颖技术，能够产生各种类型的输出，包括文本、图像和视频，具有显著的无线通信潜力和独特特性。传统上，传统的AI技术被用于预测、分类和优化，而GenAI则有更多的优势。本文介绍了通过需求标记、需求塑造和需求重新安排的战略需求规划概念。因此，GenAI被提议作为无线网络中促进需求塑造的强大工具。更具体地说，GenAI被用于压缩和转换各种内容（例如，从高带宽模式到低带宽模式，比如从视频到文本），从而提高了无线网络在各种使用场景下的性能，如小区切换、用户关联和负载平衡、干扰管理以及灾难情景管理。因此，GenAI可以在无线网络中节约能源和频谱。随着人工智能的最新进展，包括大型语言模型等复杂算法以及专门用于AI任务的更强大硬件的发展，如AI加速器，需求规划的概念，特别是通过GenAI进行需求塑造，变得日益相关。此外，最近努力使GenAI在用户终端等设备上可访问，使这一概念的实施变得更加简单和可行。

论文链接: https://arxiv.org/pdf/2407.02292

时空图形对照事实：概述

原标题: Spatio-Temporal Graphical Counterfactuals: An Overview

作者: Mingyu Kang, Duxin Chen, Ziyuan Pu, Jianxi Gao, Wenwu Yu

机构: 清华大学哈尔滨工业大学IEEE

摘要: 反事实思维是人工智能学习知识并最终提高其在新场景中表现的关键而具有挑战性的主题。许多研究工作，包括潜在结果模型和结构因果模型，已被提出来实现这一目标。然而，它们的建模、理论基础和应用方法通常是不同的。此外，目前缺乏一种图形方法来推断考虑多个单元之间的空间和时间交互作用的时空反事实。因此，在这项工作中，我们的目标是进行一项调查，比较和讨论不同的反事实模型、理论和方法，并进一步构建一个统一的图形因果框架来推断时空反事实。

论文链接: https://arxiv.org/pdf/2407.01875

重新思考在恶劣天气条件下对 LiDAR 语义分割的数据增强

原标题: Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather

作者: Junsung Park, Kyungmin Kim, Hyunjung Shim

机构: 韩国科学技术院 Yonsei University

摘要: 现有的激光雷达语义分割方法在恶劣天气条件下往往表现下降。先前的研究通过模拟恶劣天气或在训练过程中采用通用数据增强来解决这一问题。然而，这些方法缺乏对恶劣天气如何负面影响激光雷达语义分割性能的详细分析和理解。受此问题的启发，我们确定了恶劣天气的关键因素，并进行了一项玩具实验，以找出性能下降的主要原因：（1）由于雾气或空气中的液滴引起的折射导致的几何扰动，以及（2）由于能量吸收和遮挡导致的点丢失。基于这些发现，我们提出了新的战略数据增强技术。首先，我们引入了选择性抖动（SJ），在深度（或角度）的随机范围内抖动点以模拟几何扰动。此外，我们开发了可学习的点丢失（LPD），利用深度 Q 学习网络学习易受影响的擦除模式，以近似恶劣天气条件下的点丢失现象。在没有精确天气模拟的情况下，这些技术通过将其暴露于我们的数据中心分析确定的脆弱条件，加强了激光雷达语义分割模型。实验结果证实了所提出的数据增强方法对增强抵抗恶劣天气条件的鲁棒性的适用性。我们的方法在 SemanticKITTI-to-SemanticSTF 基准测试中达到了令人瞩目的 39.5 mIoU，超过先前最先进技术超过 5.4%p，相对于先前方法的基准改进翻了三倍。

论文链接: https://arxiv.org/pdf/2407.02286

ScaleDreamer：使用异步分数蒸馏实现可扩展的文本到3D合成

原标题: ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation

作者: Zhiyuan Ma, Yuxiang Wei, Yabin Zhang, Xiangyu Zhu, Zhen Lei, Lei Zhang

机构: 香港理工大学中科院港科院人工智能与机器人中心中国科学院多模态人工智能系统国家重点实验室中国科学院大学哈尔滨工业大学

摘要: 通过利用文本到图像扩散先验，得分蒸馏可以合成3D内容，而无需配对的文本-3D训练数据。最近的研究集中于学习文本到3D生成网络，以摊销多个文本-3D关系，可以在几秒内合成3D内容，而不是针对每个文本提示进行数小时的在线优化。然而，由于难以将预训练的扩散先验与来自各种文本提示的渲染图像的分布对齐，现有的得分蒸馏方法很难扩展到大量文本提示。当前的最新技术，如变分得分蒸馏，微调预训练的扩散模型以最小化噪声预测误差，以便对齐分布，但这种方法训练不稳定，会损害模型对众多文本提示的理解能力。基于扩散模型在较早时间步具有较低噪声预测误差的观察，我们提出了异步得分蒸馏（ASD），通过将扩散时间步移至较早时间步，最小化噪声预测误差。ASD训练稳定，可以扩展到10万个提示。它减少了噪声预测误差，而不改变预训练扩散模型的权重，从而保持其对提示的强大理解能力。我们在不同的2D扩散模型（包括稳定扩散和MVDream）以及文本到3D生成器（包括Hyper-iNGP、3DConv-Net和Triplane-Transformer）上进行了大量实验。结果表明，ASD在稳定的3D生成器训练、高质量的3D内容合成以及其在大型提示语料库下的优越提示一致性方面的有效性。

论文链接: https://arxiv.org/pdf/2407.02040

Github: https://github.com/theericma/scaledreamer

一个基于相似度的更新的上采样器，用于直接高比例特征上采样。

原标题: A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling

作者: Minghao Zhou, Hong Wang, Yefeng Zheng, Deyu Meng

机构: 清华大学西安交通大学

摘要: 特征上采样是几乎所有当前用于图像分割任务的网络结构中的一个基本且不可或缺的组成部分。最近，提出了一种流行的基于相似性的特征上采样流水线，该流水线利用高分辨率特征作为指导，帮助根据它们的局部相似性对低分辨率深层特征进行上采样。尽管取得了令人期待的性能，但该流水线具有特定的局限性：1）高分辨率查询和低分辨率关键特征未对齐；2）查询-关键特征之间的相似性是基于固定的内积形式计算的；3）邻居选择在低分辨率特征上粗略操作，导致马赛克伪影。这些缺点使得沿着这条流水线的现有方法主要适用于具有迭代特征作为指导的分层网络架构，并且不容易扩展到更广泛的结构范围，特别是直接高比例上采样。针对这些问题，我们精心优化了每种方法设计。具体来说，我们首先从语义感知和细节感知的角度提出了一种明确可控的查询-关键特征对齐，然后构建了一个参数化的配对中心差分卷积块，灵活计算对齐良好的查询-关键特征之间的相似性。此外，我们在高分辨率特征上开发了一种细粒度的邻居选择策略，简单而有效地减轻了马赛克伪影。基于这些精心设计，我们系统地构建了一个名为 ReSFU 的刷新的基于相似性的特征上采样框架。大量实验证实，我们提出的 ReSFU 可以很好地适用于各种类型的架构，以直接高比例上采样的方式，并在不同的分割应用中始终实现令人满意的性能，展现出卓越的普适性和易部署性。

论文链接: https://arxiv.org/pdf/2407.02283

Github: https://github.com/zmhhmz/resfu

SwiftDiffusion：高效的扩散模型服务与附加模块

原标题: SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules

作者: Suyi Li, Lingyun Yang, Xiaoxiao Jiang, Hanfeng Lu, Zhipeng Di, Weiyi Lu, Jiawei Chen, Kan Liu, Yinghao Yu, Tao Lan, Guodong Yang, Lin Qu, Liping Zhang, Wei Wang

机构: 香港科技大学，阿里巴巴集团

摘要: 这篇论文记录了我们在生产环境中利用稳定扩散模型提供文本到图像请求的特征研究和实践。我们首先全面分析了商业文本到图像应用的推理请求跟踪。研究始于我们的观察，即用于生成商业应用图像的附加模块，即ControlNets和LoRAs，广泛存在于增强基础稳定扩散模型中。尽管它们有效，但这些附加模块会产生较高的加载开销，延长提供延迟，并消耗昂贵的GPU资源。在我们的特征研究驱动下，我们提出了SwiftDiffusion，这是一个能够高效生成高质量图像的系统，使用稳定扩散模型和附加模块。为实现这一目标，SwiftDiffusion通过识别并行计算的机会并将ControlNet计算分布到多个GPU来重构现有的文本到图像服务工作流程。此外，SwiftDiffusion全面分析了图像生成的动态，并开发了技术来消除与LoRA加载和修补相关的开销，同时保持图像质量。最后，SwiftDiffusion在稳定扩散模型的骨干架构中提出了专门的优化措施，这些措施也与高效提供附加模块兼容。与最先进的文本到图像服务系统相比，SwiftDiffusion将提供延迟降低了最多5倍，并将提供吞吐量提高了最多2倍，而不会影响图像质量。

论文链接: https://arxiv.org/pdf/2407.02031

魔法插入：样式感知拖放

原标题: Magic Insert: Style-Aware Drag-and-Drop

作者: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter

机构: 谷歌

摘要: 我们提出了Magic Insert，一种方法，可以以物理上合理的方式从用户提供的图像中拖放主题到具有不同风格的目标图像中，同时匹配目标图像的风格。这项工作规范了风格感知的拖放问题，并提出了一种解决方法，通过解决两个子问题：风格感知个性化和在风格化图像中实现逼真的对象插入。对于风格感知个性化，我们的方法首先使用LoRA和学习的文本标记在主题图像上微调预训练的文本到图像扩散模型，然后将其与目标风格的CLIP表示相融合。对于对象插入，我们使用引导域自适应将特定领域的逼真对象插入模型调整到多样艺术风格的领域。总体而言，该方法在性能上明显优于传统方法，如修补。最后，我们提出了一个数据集SubjectPlop，以促进在这一领域的评估和未来进展。项目页面：此https网址。

论文链接: https://arxiv.org/pdf/2407.02489

Github: https://magicinsert.github.io/

FedIA：具有异构注释完整性的联邦医学图像分割

原标题: FedIA: Federated Medical Image Segmentation with Heterogeneous Annotation Completeness

作者: Yangyang Xiang, Nannan Wu, Li Yu, Xin Yang, Kwang-Ting Cheng, Zengqiang Yan

机构: 华中科技大学香港科技大学

摘要: 联邦学习已经成为医学图像分割的一个引人注目的范式，特别是考虑到日益增长的隐私关注。然而，大多数现有研究都依赖于相对严格的假设，即客户端之间的注释是统一和完整的。与此相反，本文强调了医学实践中普遍存在的一个挑战：不完整的注释。这些注释可能会引入错误标记的像素，潜在地削弱神经网络在监督学习中的性能。为了解决这个问题，我们提出了一种名为 FedIA 的新颖解决方案。我们的见解是将不完整的注释视为嘈杂数据（即低质量数据），重点是减轻其不良影响。我们首先通过设计的指标评估客户端级别的注释完整性。随后，我们增强具有更全面注释的客户端的影响，并对不完整的注释进行修正，从而确保模型在准确数据上进行训练。我们的方法的有效性通过在两个广泛使用的医学图像分割数据集上表现出色，优于现有解决方案进行验证。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2407.02280

Github: https://github.com/HUSTxyy/FedIA

关于稀疏几何MPNN的表达能力

原标题: On the Expressive Power of Sparse Geometric MPNNs

作者: Yonatan Sverdlov, Nadav Dym

机构: Technion Technion

摘要: 受化学和其他科学应用的启发，我们研究了消息传递神经网络在几何图中的表达能力，其中节点特征对应于三维位置。最近的研究表明，这样的模型可以区分一般的非等价几何图对，尽管它们可能无法区分一些罕见和复杂的实例。然而，这些结果假设一个完全连接的图，其中每个节点具有对所有其他节点的完全知识。相比之下，在应用中，通常每个节点只具有少数最近邻节点的知识。本文表明，只要底层图是连通的，具有旋转等变特征的消息传递网络可以分离一般的非等价几何图对。当只允许不变的中间特征时，对于一般的全局刚性图，可以保证一般的分离。我们引入了一个简单的架构 EGENNET，它实现了我们的理论保证，并在合成和化学基准测试中与替代架构进行了有利的比较。

论文链接: https://arxiv.org/pdf/2407.02025

数字孪生在过程工业中的学习范式和建模方法论

原标题: Learning Paradigms and Modelling Methodologies for Digital Twins in Process Industry

作者: Michael Mayr, Georgios C. Chasparis, Josef Küng

机构: 哈根贝格软件能力中心，约翰内斯·开普勒大学。

摘要: 数字孪生（DTs）是过程工业数字化转型的核心，它是物理制造系统的虚拟复制品，将传感器数据与复杂的基于数据或基于物理的模型相结合，或二者兼而有之，以解决各种工业相关任务，如过程监控、预测控制或决策支持。数字孪生的支柱，即支持这些模型的具体建模方法和架构框架，复杂多样且发展迅速，需要深入了解最新的先进方法和趋势，以保持在竞争激烈的市场中处于领先地位。从研究角度来看，尽管人们对数字孪生的各个方面表现出了高度的研究兴趣，但专门关注揭示过程工业中用于数字孪生创建的学习范式（例如自监督学习）的结构化文献报告在这一领域是一项新颖的贡献。本研究旨在通过以下方式填补这些空白：（1）系统分析用于数字孪生创建的建模方法（例如卷积神经网络、编码器-解码器、隐马尔可夫模型）和范式（例如数据驱动、基于物理、混合）；（2）评估所使用的学习策略（例如监督、无监督、自监督）；（3）分析建模任务的类型（例如回归、分类、聚类）；以及（4）识别挑战和研究空白，并讨论可能提供的解决方案。

论文链接: https://arxiv.org/pdf/2407.02275

SAVE：使用“分段任何事物模型”轻松分割音视频。

原标题: SAVE: Segment Audio-Visual Easy way using Segment Anything Model

作者: Khanh-Binh Nguyen, Chae Jung Park

机构: 国立癌症中心

摘要: 音视频分割（AVS）的主要目标是通过准确预测像素级别的分割掩模，精确识别和定位视觉场景中的听觉元素。实现这一目标涉及全面考虑数据和模型方面，以有效解决这一任务。本研究提出了一种轻量级方法 SAVE，该方法有效地将预训练的“segment anything model”（SAM）调整到 AVS 任务中。通过在 Transformer 块中加入图像编码器适配器以更好地捕获不同数据集信息，并提出一个残差音频编码器适配器来将音频特征编码为稀疏提示，我们提出的模型在编码阶段实现了有效的音视频融合和交互。我们的方法通过将输入分辨率从 1024 降低到 256 像素，加快了训练和推理速度，同时与之前的 SOTA 相比实现了更高的性能。大量实验验证了我们的方法，表明我们提出的模型明显优于其他 SOTA 方法。此外，利用合成数据上的预训练模型提高了在真实 AVSBench 数据上的性能，在 S4（V1S）子集上达到了 84.59 mIoU，在 MS3（V1M）集上达到了 70.28 mIoU，仅使用 256 像素的输入图像。当输入为 1024 像素时，性能提高至 S4（V1S）上的 86.16 mIoU 和 MS3（V1M）上的 70.83 mIoU。

论文链接: https://arxiv.org/pdf/2407.02004

使用Actor-Critic强化学习生成测地线以预测中点。

原标题: Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints

作者: Kazumi Kasaura

机构: 奥姆龙SINIC X公司

摘要: 为了在连续流形上使用微小定义的度量来找到所有对之间的最短路径，我们提出通过递归预测中点并使用演员-评论家方法来学习中点预测来生成这些路径。我们证明了我们方法的合理性，并通过实验证明所提出的方法在本地和全局路径规划任务上优于现有方法。

论文链接: https://arxiv.org/pdf/2407.01991

IFTT-PIN：一种自校准的PIN输入方法

原标题: IFTT-PIN: A Self-Calibrating PIN-Entry Method

作者: Kathryn McConkey, Talha Enes Ayranci, Mohamed Khamis, Jonathan Grizou

机构: 格拉斯哥大学

摘要: 将界面个性化以满足用户的需求和偏好通常会增加额外的交互步骤。在本文中，我们展示了一种新颖的方法，可以实现界面的个性化，而无需进行显式的校准程序，通过一个我们称之为自校准的过程。自校准的二阶效应是，外部观察者无法轻易推断用户试图实现的目标，因为他们无法解释用户的行为。为了探讨这一安全角度，我们开发了IFTT-PIN（If This Then PIN）作为第一个自校准的PIN输入方法。使用IFTT-PIN时，用户可以自由选择任意按钮表示任意含义，而无需向机器明确传达他们的选择。IFTT-PIN同时推断用户的PIN和他们首选的按钮映射。本文介绍了IFTT-PIN的概念、实现以及交互演示，以及针对肩窥攻击的评估。我们的研究（N=24）表明，通过将自校准添加到现有的PIN输入方法中，IFTT-PIN在统计上显著降低了PIN攻击解码速率约8.5倍（p=1.1e-9），而仅将PIN输入编码速率降低约1.4倍（p=0.02），实现了安全性和可用性的积极权衡。IFTT-PIN的输入速率在首次接触后的21天内显著提高（p=3.6e-6），表明自校准界面尽管使用最初未定义的用户界面，但仍然令人难忘。自校准方法可能会带来更具包容性和多功能性的交互机会，这对社区来说可能是一个有趣的挑战。此处提供了一个简短的介绍视频链接。

论文链接: https://arxiv.org/pdf/2407.02269

其他链接: https://youtu.be/pP5sfniNRns

揭示跨图的全局交互模式：走向可解释的图神经网络

原标题: Unveiling Global Interactive Patterns across Graphs: Towards Interpretable Graph Neural Networks

作者: Yuwen Wang, Shunyu Liu, Tongya Zheng, Kaixuan Chen, Mingli Song

机构: 浙江大学杭州高新区（滨江）区块链与数据安全研究所杭州城市大学计算机与计算科学学院

摘要: 图神经网络（GNNs）已经成为图挖掘的一个重要框架，在各个领域取得了显著进展。源自GNNs的节点表示，现有的解释研究已经采纳了将决策结果归因于节点的显著特征和局部结构的子图特定视角。然而，图级任务需要高级GNNs进行长程依赖和全局交互，与子图特定解释有很大偏差。为了弥合这一差距，本文提出了一种新颖的图分类内在可解释方案，称为全局交互模式（GIP）学习，引入可学习的全局交互模式来明确解释决策。GIP首先通过使用受限图聚类模块对众多节点进行聚类来解决解释的复杂性。然后，它将粗化的全局交互实例与一批自解释图原型进行匹配，从而促进透明的图级推理过程。在合成和真实世界基准上进行的大量实验表明，所提出的GIP在可解释性和竞争性性能方面明显优于最先进的对手。我们的代码将公开发布。

论文链接: https://arxiv.org/pdf/2407.01979

数据在分类器模型中的足迹：隐私问题及通过数据混淆进行的缓解

原标题: Footprints of Data in a Classifier Model: The Privacy Issues and Their Mitigation through Data Obfuscation

作者: Payel Sadhukhan, Tanujit Chakraborty

机构:

摘要: AI部署的大规模应用和其安全隐私问题是同一硬币的两面。《GDPR》第17条要求“被遗忘权”；必须从系统中抹去数据以防止其泄露。目前在这方面的研究侧重于消除敏感数据属性。然而，一些被动数据泄露模式尚未被认可和解决。在预测模型中嵌入训练数据的痕迹就是其中之一；测试数据和训练数据在性能质量上的差异导致对已训练模型的数据进行被动识别。这项研究专注于解决由数据痕迹引起的脆弱性。主要包括三个方面 – i] 探索不同分类器的脆弱性（以区分脆弱和非脆弱的分类器），ii] 减少脆弱分类器的脆弱性（通过数据混淆）以保护模型和数据隐私，iii] 探索隐私性能权衡以研究数据混淆技术的可用性。在三个数据集和八个分类器上进行了实证研究，以探索上述目标。初步研究结果确定了分类器的脆弱性，并区分了脆弱和非脆弱的分类器。对数据混淆技术的额外实验揭示了它们在大多数情况下保护数据和模型隐私的效用，以及它们在划定隐私性能权衡方面的能力。这些结果可以帮助从业者在不同情境和背景下选择分类器。

论文链接: https://arxiv.org/pdf/2407.02268

PWM：使用大世界模型进行策略学习

原标题: PWM: Policy Learning with Large World Models

作者: Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg

机构: 乔治亚理工学院加州大学圣地亚哥

摘要: 强化学习（RL）在复杂任务上取得了令人印象深刻的成果，但在具有不同实体的多任务设置中存在困难。世界模型通过学习环境的模拟提供了可扩展性，但它们通常依赖于低效的无梯度优化方法。我们引入了大世界模型策略学习（PWM），这是一种新颖的基于模型的强化学习算法，它从大型多任务世界模型中学习连续控制策略。通过在离线数据上预训练世界模型并将其用于一阶梯度策略学习，PWM有效地解决了具有高达152个动作维度的任务，并且胜过使用地面真实动态的方法。此外，PWM 可扩展到80个任务设置，实现的奖励比现有基线高出高达27%，而无需昂贵的在线规划。可在此 https URL 上找到可视化和代码。

论文链接: https://arxiv.org/pdf/2407.02466

Github: https://policy-world-model.github.io

SiamTST：一种新颖的表示学习框架，用于增强多变量时间序列预测，应用于电信网络。

原标题: SiamTST: A Novel Representation Learning Framework for Enhanced Multivariate Time Series Forecasting applied to Telco Networks

作者: Simen Kristoffersen, Peter Skaar Nordby, Sara Malacarne, Massimiliano Ruocco, Pablo Ortiz

机构: 挪威科技大学 Telenor研究所 SINTEF Digital

摘要: 我们介绍了 SiamTST，这是一个针对多变量时间序列的新型表示学习框架。SiamTST 将孪生网络与注意力机制、通道独立的打补丁技术和归一化技术相结合，以实现卓越的性能。在一个真实的工业电信数据集上进行评估，SiamTST 在预测准确性方面表现出显著的改进，优于现有方法。值得注意的是，一个简单的线性网络也表现出竞争力，取得了次优的结果，仅次于 SiamTST。代码可以在这个网址找到。

论文链接: https://arxiv.org/pdf/2407.02258

Github: https://github.com/simenkristoff/SiamTST

MeMemo：用于私密和个性化文本生成的设备端检索增强

原标题: MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation

作者: Zijie J. Wang, Duen Horng Chau

机构: 乔治亚理工学院

摘要: 检索增强文本生成（RAG）解决了大语言模型（LLMs）常见的局限，如幻觉，通过从可更新的外部知识库中检索信息。然而，现有方法通常需要专用的后端服务器用于数据存储和检索，从而限制了它们在需要严格数据隐私的用例中的适用性，如个人财务、教育和医学。为了解决客户端密集检索的迫切需求，我们推出了 MeMemo，这是第一个开源 JavaScript 工具包，它将最先进的近似最近邻搜索技术 HNSW 调整到浏览器环境中。我们的工具包采用现代和原生 Web 技术，如 IndexedDB 和 Web Workers，利用客户端硬件能力，使研究人员和开发人员能够在浏览器中高效搜索数百万个高维向量。MeMemo 提供了令人兴奋的新设计和研究机会，例如私密和个性化内容创建以及交互式原型设计，正如我们在示例应用程序 RAG Playground 中展示的那样。回顾我们的工作，我们讨论了设备端密集检索的机遇和挑战。MeMemo 可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2407.01972

Github: https://github.com/poloclub/mememo

Safe CoR：一种双专家方法，用于将模仿学习和安全强化学习集成在一起，使用约束奖励。

原标题: Safe CoR: A Dual-Expert Approach to Integrating Imitation Learning and Safe Reinforcement Learning Using Constraint Rewards

作者: Hyeokjin Kwon, Gunmin Lee, Junseo Lee, Songhwai Oh

机构: 清华大学哈尔滨工业大学

摘要: 在自主智能体领域，确保在复杂和动态环境中的安全性和可靠性仍然是一个重要挑战。安全强化学习通过引入安全约束来解决这些问题，但在导航复杂驾驶情况等复杂环境方面仍面临挑战。为了克服这些挑战，我们提出了安全约束奖励（Safe CoR）框架，这是一种利用两种类型的专家演示的新方法——奖励专家演示侧重于性能优化，安全专家演示优先考虑安全性。通过利用约束奖励（CoR），我们的框架引导智能体在奖励总和与安全约束的性能目标之间取得平衡。我们在各种环境中测试了所提出的框架，包括安全健身房、metadrive 和真实世界的 Jackal 平台。我们提出的框架将算法的性能提高了 39%，在真实世界的 Jackal 平台上将约束违规减少了 88%，展示了该框架的有效性。通过这种创新方法，我们期望在真实世界性能方面取得重大进展，从而在安全可靠自主智能体领域产生变革性影响。

论文链接: https://arxiv.org/pdf/2407.02245

CatMemo在FinLLM挑战任务中：使用数据融合对金融应用进行大语言模型微调

原标题: CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications

作者: Yupeng Cao, Zhiyuan Yao, Zhi Chen, Zhiyang Deng

机构: 史蒂文斯理工学院洛杉矶大学

摘要: 将大语言模型（LLMs）整合到金融分析中在自然语言处理社区中引起了重大关注。本文介绍了我们在IJCAI-2024 FinLLM挑战中的解决方案，研究了LLMs在金融任务的三个关键领域内的能力：金融分类、金融文本摘要和单只股票交易。我们采用了Llama3-8B和Mistral-7B作为基础模型，通过参数高效微调（PEFT）和低秩适应（LoRA）方法对它们进行微调。为了提高模型性能，我们将任务1和任务2的数据集进行数据融合。我们的方法旨在以全面和整合的方式解决这些多样化任务，展示LLMs处理多样化和复杂金融任务的能力，提高准确性和决策能力。

论文链接: https://arxiv.org/pdf/2407.01953

使用增强金融智能机器学习预测印度股市

原标题: Indian Stock Market Prediction using Augmented Financial Intelligence ML

作者: Anishka Chauhan, Pratham Mayur, Yeshwanth Sai Gokarakonda, Pooriya Jamie, Naman Mehrotra

机构: 伦敦大学学院国立印度理工学院印度理工学院坎普尔分校印度理工学院坎普尔分校德黑兰理工大学西南密西根大学AP

摘要: 这篇论文提出了使用机器学习算法增强超预测者预测的价格预测模型，旨在增强投资决策。构建了五个机器学习模型，包括双向LSTM、ARIMA、CNN和LSTM的组合、GRU，以及使用LSTM和GRU算法构建的模型。使用平均绝对误差来评估这些模型，以确定它们的预测准确性。此外，论文建议通过识别超预测者并跟踪其预测来将人类智慧纳入，以预测股价的不可预测变化或波动。这些用户所做的预测可以在与机器学习和自然语言处理技术相结合时进一步提高股价预测的准确性。预测任何商品的价格可能是一项重要任务，但预测股市中股票价格涉及更多不确定性。鉴于某些投资者对股票的知识和接触有限，本文提出使用机器学习算法进行价格预测模型。在这项工作中，使用双向LSTM、ARIMA、CNN和LSTM的组合、GRU构建了五个机器学习模型，最后一个是使用LSTM和GRU算法构建的。随后，使用MAE分数评估这些模型，以找出哪个模型的预测准确性最高。除此之外，本文还建议利用人类智慧来密切预测股市中价格模式的变化。主要目标是识别超预测者并跟踪其预测，以预测股价的不可预测变化或波动。通过充分利用机器学习和人类智慧的综合力量，可以显著提高预测准确性。

论文链接: https://arxiv.org/pdf/2407.02236

LDP：用于机器人导航和避障的本地扩散规划器

原标题: LDP: A Local Diffusion Planner for Efficient Robot Navigation and Collision Avoidance

作者: Wenhao Yu, Jie Peng, Huanyu Yang, Junrui Zhang, Yifan Duan, Jianmin Ji, Yanyong Zhang

机构: 清华大学哈尔滨工业大学南京大学

摘要: 条件扩散模型被证明是学习机器人策略的有效工具，这归功于其准确建模策略条件分布的进展。现实世界场景的复杂性，以动态障碍物和类似迷宫的结构为特征，突显了机器人本地导航决策作为条件分布问题的复杂性。然而，利用扩散模型进行机器人本地导航并不是一件简单的事，并遇到了几个未被充分探讨的挑战：（1）数据紧迫性。本地导航中复杂的条件分布需要训练数据包含多样的策略和多样的真实场景；（2）目光短浅的观察。由于感知场景的多样性，基于机器人的局部视角进行扩散决策可能对完成整个任务不够最优，因为它们经常缺乏远见。在某些需要绕道的情况下，机器人可能会陷入困境。为了解决这些问题，我们的方法从探索一个包含多个展示不同偏好的智能体的多样数据生成机制开始，通过整合全局-局部洞察力进行目标选择。然后，基于这些多样化的训练数据，获得一个扩散智能体，能够在多样的场景中出色地避免碰撞。随后，我们通过轻量级方式将全局观察融入我们的本地扩散规划器，也被称为LDP。这种增强扩展了LDP的观察范围，有效地减轻了陷入局部最优的风险，并促进了更加稳健的导航决策。

论文链接: https://arxiv.org/pdf/2407.01950

Meta 3D AssetGen：具有高质量几何、纹理和PBR材质的文本到网格生成

原标题: Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials

作者: Yawar Siddiqui, Tom Monnier, Filippos Kokkinos, Mahendra Kariya, Yanir Kleiman, Emilien Garreau, Oran Gafni, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny

机构: GenAI TU慕尼黑大学 Meta

摘要: 我们提出了 Meta 3D AssetGen（AssetGen），这是文本到3D生成领域的重大进展，能够生成具有纹理和材质控制的忠实高质量网格。与将着色烘焙在3D对象外观中的作品相比，AssetGen 输出基于物理的渲染（PBR）材质，支持逼真的重新照明。AssetGen 首先生成对象的几个视图，具有分解的着色和反照率外观通道，然后在3D中重建颜色、金属度和粗糙度，使用延迟着色损失进行高效监督。它还使用符号距离函数更可靠地表示3D形状，并引入相应的损失以进行直接形状监督。这是使用融合内核实现的，具有高内存效率。在网格提取后，一个在 UV 空间操作的纹理细化 Transformer 显著提高了清晰度和细节。AssetGen 在少视角重建方面的 Chamfer 距离提高了17％，在 LPIPS 方面提高了40％，超过了最佳并行工作，以及在速度相当的最佳行业竞争对手中获得了72％的人类偏好，包括支持 PBR 的竞争对手。项目页面及生成的资产：此处链接。

论文链接: https://arxiv.org/pdf/2407.02445

Github: https://assetgen.github.io

MTMamba：通过基于 Mamba 的解码器增强多任务密集场景理解

原标题: MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

作者: Baijiong Lin, Weisen Jiang, Pengguang Chen, Yu Zhang, Shu Liu, Ying-Cong Chen

机构: 香港科技大学（广州）南方科技大学 SmartMore

摘要: 多任务密集场景理解，学习多个密集预测任务的模型，具有广泛的应用场景。建模长距离依赖关系并增强跨任务交互对于多任务密集预测至关重要。在本文中，我们提出了MTMamba，一种用于多任务场景理解的基于Mamba的新型架构。它包含两种核心块：自任务Mamba（STM）块和交任务Mamba（CTM）块。STM通过利用Mamba处理长距离依赖关系，而CTM明确地建模任务交互以促进跨任务的信息交换。在NYUDv2和PASCAL-Context数据集上的实验表明，MTMamba相对于基于Transformer和基于CNN的方法具有更优越的性能。值得注意的是，在PASCAL-Context数据集上，MTMamba在语义分割、人体解析和物体边界检测任务上分别比先前最佳方法提高了+2.08、+5.01和+4.90。代码可在\url{this https URL}获取。

论文链接: https://arxiv.org/pdf/2407.02228

Github: https://github.com/EnVision-Research/MTMamba

Meta 3D TextureGen：用于3D对象的快速一致纹理生成

原标题: Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects

作者: Raphael Bensadoun, Yanir Kleiman, Idan Azuri, Omri Harosh, Andrea Vedaldi, Natalia Neverova, Oran Gafni

机构: GenAI Meta

摘要: 最近可用和适应性强的文本到图像模型在许多相关领域引发了一个新时代，这些领域受益于学习的文本先验知识以及高质量和快速生成能力，其中之一是用于3D对象的纹理生成。尽管最近的纹理生成方法通过使用文本到图像网络取得了令人印象深刻的结果，但全局一致性、质量和速度的结合对于推动纹理生成应用于实际应用至关重要，但目前仍然难以实现。为此，我们介绍了Meta 3D TextureGen：一种新的前馈方法，由两个顺序网络组成，旨在在不到20秒内为任意复杂度的任意几何形状生成高质量且全局一致的纹理。我们的方法通过在2D空间中将文本到图像模型置于3D语义条件下，并将它们融合成完整且高分辨率的UV纹理贴图，从而在质量和速度上取得了最先进的结果，这一点通过广泛的定性和定量评估得到了证实。此外，我们还引入了一种纹理增强网络，能够按任意比例放大任何纹理，生成4k像素分辨率的纹理。

论文链接: https://arxiv.org/pdf/2407.02430

移动机器人中的具身人工智能：利用大语言模型进行覆盖路径规划

原标题: Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models

作者: Xiangrui Kong, Wenxiao Zhang, Jin Hong, Thomas Braunl

机构: 西澳大学电气、电子与计算机工程学院计算机科学与软件工程学院

摘要: 近年来，大语言模型（LLMs）展示了在理解和解决数学问题方面的显著能力，推动了各个领域的进步。我们提出了一个以LLM为基础的移动智能体路径规划框架，专注于解决高级覆盖路径规划问题和低级控制。我们提出的多层架构在路径规划阶段使用提示的LLMs，并将它们与移动智能体的低级执行器集成在一起。为了评估各种LLMs的性能，我们提出了一个覆盖加权路径规划度量标准，以评估具体模型的性能。我们的实验表明，所提出的框架提高了LLMs的空间推理能力。我们展示了所提出的多层框架通过利用LLMs的自然语言理解和生成能力显著提高了这些任务的效率和准确性。我们的实验表明，该框架可以提高LLMs的二维平面推理能力并完成覆盖路径规划任务。我们还测试了三个LLM内核：gpt-4o、gemini-1.5-flash和claude-3.5-sonnet。实验结果表明，claude-3.5可以在不同场景下完成覆盖规划任务，并且其指标优于其他模型。

论文链接: https://arxiv.org/pdf/2407.02220

面部重建转移攻击作为超出分布的泛化

原标题: Face Reconstruction Transfer Attack as Out-of-Distribution Generalization

作者: Yoon Gyo Jung, Jaewoo Park, Xingbo Dong, Hojin Park, Andrew Beng Jin Teoh, Octavia Camps

机构: 东北大学 AiV 公司安徽大学韩华视觉延世大学

摘要: 理解人脸识别系统对恶意攻击的脆弱性至关重要。先前的研究集中在重建能够穿透目标验证系统的人脸图像上。然而，即使在白盒情况下，朴素重建的图像也会误代身份信息，因此一旦人脸系统更新或更改，攻击很容易被中和。在本文中，我们旨在重建能够将人脸攻击转移到未见编码器上的人脸图像。我们将这个问题称为人脸重建转移攻击（FRTA），并展示它可以被形式化为一种超出分布（OOD）的泛化问题。受其OOD性质的启发，我们提出通过平均潜在搜索和无监督验证与伪目标（ALSUV）来解决FRTA。为了加强对OOD未见编码器的重建攻击，ALSUV通过在多个潜在优化、潜在优化轨迹平均化和与伪目标的无监督验证中搜索摊薄生成器StyleGAN2的潜在来重建人脸。我们在广泛使用的人脸数据集上展示了我们方法的有效性和泛化能力，并进行了大量消融研究以及视觉、定性和定量分析。源代码将被发布。

论文链接: https://arxiv.org/pdf/2407.02403

物理信息模型和混合规划用于高效的Dyna风格强化学习

原标题: Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning

作者: Zakariae El Asri, Olivier Sigaud, Nicolas Thome

机构: 索邦大学法国国家科学研究中心

摘要: 将强化学习（RL）应用于现实世界的应用需要解决渐近性能、样本效率和推理时间之间的权衡。在这项工作中，我们展示了如何通过利用关于系统动态的部分物理知识来解决这一三重挑战。我们的方法涉及学习一个具有物理信息的模型，以提高样本效率，并从该模型生成虚拟轨迹，以学习无模型策略和Q函数。此外，我们提出了一种混合规划策略，将学习到的策略和Q函数与学习到的模型相结合，以增强规划中的时间效率。通过实际演示，我们说明了我们的方法改善了在样本效率、时间效率和性能方面的折衷，超过了最先进的方法。

论文链接: https://arxiv.org/pdf/2407.02217

评估大语言模型的代码克隆检测能力

原标题: Assessing the Code Clone Detection Capability of Large Language Models

作者: Zixian Zhang, Takfarinas Saber

机构: 加尔韦大学计算机科学学院

摘要: 这项研究旨在评估两种先进的大语言模型（LLMs），即GPT-3.5和GPT-4，在代码克隆检测任务中的性能。评估涉及在来自两个数据集（BigCloneBench（人工制作）和GPTCloneBench（LLM生成））的各种不同克隆类型和相似性级别的代码对上测试这些模型。研究结果表明，GPT-4在所有克隆类型上始终优于GPT-3.5。观察到了GPT在识别代码克隆和代码相似性方面的准确性之间的相关性，两个GPT模型在检测最复杂的Type-4代码克隆方面表现出较低的效果。此外，GPT模型在LLM生成的代码中识别代码克隆的性能要高于人类生成的代码。然而，它们的准确性并不令人印象深刻。这些结果强调了LLM能力持续增强的必要性，特别是在识别代码克隆和减少其对自动生成代码克隆的倾向方面，随着软件工程师越来越多地利用LLM支持的代码生成和代码重构工具，这可能会成为一个问题。

论文链接: https://arxiv.org/pdf/2407.02402

在深度学习模型中促进成员推断攻击的方法

原标题: A Method to Facilitate Membership Inference Attacks in Deep Learning Models

作者: Zitao Chen, Karthik Pattabiraman

机构: 不列颠哥伦比亚大学

摘要: 现代机器学习（ML）生态系统提供了日益增多的ML框架和代码库，可以极大地促进ML模型的开发。如今，即使是普通的数据持有者，即使不是ML专家，也可以应用现成的代码库来构建高性能的ML模型，其中许多模型具有敏感性质（例如临床记录）。
在这项工作中，我们考虑了一个恶意的ML提供者，向数据持有者提供模型训练代码，但无法访问训练过程，只能对生成的模型进行黑盒查询访问。在这种情况下，我们展示了一种新形式的成员推断攻击，其攻击能力严格高于先前的技术。我们的攻击使对手能够可靠地去识别所有训练样本（攻击[email protected]% FPR平均>99%），而被篡改的模型仍然保持与其未受损对应模型相当的性能（平均<1%的准确率下降）。此外，我们展示了毒化模型可以有效地掩盖在常见成员隐私审计下放大的成员泄漏，这只能通过对手知道的一组秘密样本来揭示。
总的来说，我们的研究不仅指出了最坏情况下的成员隐私泄漏，还揭示了现有隐私审计方法中存在的一个常见缺陷，这需要未来努力重新思考机器学习模型中隐私审计的当前实践。

论文链接: https://arxiv.org/pdf/2407.01919

MG-Verilog：面向增强型大语言模型辅助 Verilog 生成的多粒度数据集

原标题: MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation

作者: Yongan Zhang, Zhongzhi Yu, Yonggan Fu, Cheng Wan, Yingyan (Celine)Lin

机构: 乔治亚理工学院

摘要: 大语言模型（LLMs）最近展示了在简化硬件设计流程方面的潜力，通过封装大量领域特定数据。此外，它们允许用户通过自然语言指令与设计流程进行交互，从而使硬件设计更易于开发者使用。然而，在硬件设计中有效地利用LLMs需要在推断过程中提供领域特定数据（例如，通过上下文学习），微调或预训练。不幸的是，现有的公开可用的硬件数据集通常在大小、复杂性或细节上受到限制，这阻碍了LLMs在硬件设计任务中的有效性。为了解决这个问题，我们首先提出了一组用于创建高质量硬件数据集的标准，可以有效增强LLM辅助硬件设计。基于这些标准，我们提出了一个多粒度Verilog（MG-Verilog）数据集，其中包含不同细节级别的描述和相应的代码示例。为了使更广泛的硬件设计社区受益，我们开发了一个开源基础设施，以便轻松访问、集成和扩展数据集，以满足特定项目需求。此外，为了充分利用MG-Verilog数据集的潜力，该数据集在复杂性和细节上变化，我们引入了一个平衡的微调方案。这个方案作为一个独特的用例，利用数据集提供的不同细节级别。大量实验证明，所提出的数据集和微调方案持续改善了LLMs在硬件设计任务中的性能。

论文链接: https://arxiv.org/pdf/2407.01910

基于文本感知的扩散用于策略学习

原标题: Text-Aware Diffusion for Policy Learning

作者: Calvin Luo, Mandy He, Zilai Zeng, Chen Sun

机构: 布朗大学

摘要: 通过强化学习训练智能体以实现特定目标或执行期望的行为通常是在缺乏专家演示的情况下完成的。然而，通过强化学习支持新颖的目标或行为需要特定奖励函数的即兴设计，这很快变得难以处理。为了解决这一挑战，我们提出了面向策略学习的文本感知扩散（TADPoLe），它使用预训练的、冻结的文本条件扩散模型来计算与文本对齐的策略学习的稠密零样本奖励信号。我们假设大规模预训练的生成模型编码了丰富的先验知识，可以监督策略行为不仅以文本对齐的方式表现，还与从互联网规模的训练数据中总结的自然性概念保持一致。在我们的实验中，我们展示了TADPoLe能够学习用自然语言指定的新颖目标实现和连续运动行为的策略，在Humanoid和Dog环境中。这些行为是零样本学习的，没有地面真实奖励或专家演示，并且在人类评估中在质量上更加自然。我们进一步展示了当应用于Meta-World环境中的机器人操纵任务时，TADPoLe的竞争表现。

论文链接: https://arxiv.org/pdf/2407.01903

针对差分隐私的攻击感知噪声校准

原标题: Attack-Aware Noise Calibration for Differential Privacy

作者: Bogdan Kulynych, Juan Felipe Gomez, Georgios Kaissis, Flavio du Pin Calmon, Carmela Troncoso

机构: 洛桑大学医院 (CHUV) 洛桑大学哈佛大学慕尼黑工业大学 EPFL

摘要: 差分隐私（DP）是在训练机器学习模型使用敏感数据时用于减轻隐私风险的广泛使用的方法。DP 机制在训练过程中添加噪音，以限制信息泄露的风险。添加的噪音规模至关重要，因为它决定了隐私和效用之间的权衡。标准做法是根据隐私预算参数 ϵ \epsilon ϵ 来选择噪音规模。这个参数又被解释为操作攻击风险，比如准确性，或者推断攻击对数据隐私的敏感性和特异性。我们证明了，首先将噪音规模校准到隐私预算 ϵ \epsilon ϵ，然后将 ϵ \epsilon ϵ 转化为攻击风险的两步过程会导致过于保守的风险评估和不必要的低效用。我们提出了直接将噪音规模校准到期望的攻击风险水平的方法，绕过选择 ϵ \epsilon ϵ 的中间步骤。针对目标攻击风险，我们的方法显著降低了噪音规模，从而在相同隐私级别下提高了效用。我们凭经验证明，将噪音校准到攻击敏感性/特异性，而不是 ϵ \epsilon ϵ，在训练保护隐私的机器学习模型时，显著提高了模型准确性。我们的工作提供了一种原则性和实用性的方法，可以在不牺牲隐私的情况下提高保护隐私的机器学习的效用。

论文链接: https://arxiv.org/pdf/2407.02191

Github: https://github.com/bogdan-kulynych/riskcal

朝向在合成数据上训练音乐标记器

原标题: Towards Training Music Taggers on Synthetic Data

作者: Nadine Kroher, Steven Manangu, Aggelos Pikrakis

机构: 伦敦大学皮雷乌斯大学

摘要: 大多数当代音乐标记系统依赖大量注释数据。作为替代方案，我们调查了当只有少量注释集可用时，合成生成的音乐片段能够提高标记系统的程度。为此，我们发布了GTZAN-synth，这是一个合成数据集，遵循着著名的GTZAN数据集的分类法，数据量是原数据集的十倍。我们首先观察到，简单地将这个合成数据集添加到GTZAN的训练集中并没有带来性能的提升。然后，我们继续研究领域自适应、迁移学习和微调策略，针对手头的任务得出结论，即最后两种选项可以提高准确性。总体而言，所提出的方法可以被视为未来研究中一个有前途的领域的第一指南。

论文链接: https://arxiv.org/pdf/2407.02156

图适应性和可扩展性学习的核心知识学习框架

原标题: Core Knowledge Learning Framework for Graph Adaptation and Scalability Learning

作者: Bowen Zhang, Zhichao Huang, Genan Dai, Guangning Xu, Xiaomao Fan, Hu Huang

机构: 清华大学哈尔滨工业大学

摘要: 图分类是机器学习中的一个关键挑战，特别是在基于图的数据领域，因为它在诸多现实世界应用中至关重要，如社交网络分析、推荐系统和生物信息学。尽管其重要性，图分类面临着几个障碍，包括适应多样的预测任务、跨多个目标领域进行训练，以及处理小样本预测场景。当前的方法通常单独应对这些挑战，导致片段化的解决方案，缺乏对整体问题的整体方法。在本文中，我们提出了一种旨在解决上述挑战的算法。通过结合来自各种任务的见解，我们的方法旨在增强图分类中的适应性、可扩展性和泛化能力。受到对 GNN 预测中潜在子图起着关键作用的认识的启发，而其余部分与任务无关，我们引入了用于图适应和可扩展性学习的核心知识学习（\method{}）框架。 \method{} 包括几个关键模块，包括核心子图知识子模块、图领域适应模块，以及用于下游任务的少样本学习模块。每个模块都旨在解决图分类中的特定挑战，如领域转移、标签不一致和数据稀缺性。通过学习整个图的核心子图，我们专注于与任务相关性最高的特征。因此，我们的方法提供了诸如改进模型性能、增强领域适应性和增强对领域变化的鲁棒性等好处。实验结果表明，与最先进的方法相比，我们的方法实现了显著的性能提升。

论文链接: https://arxiv.org/pdf/2407.01886

基于改进的 YOLOv8 的分心驾驶行为目标检测方法研究

原标题: Research on target detection method of distracted driving behavior based on improved YOLOv8

作者: Shiquan Shen, Zhizhong Wu, Pan Zhang

机构: 新疆科技大学四川大学锦江学院谷歌公司

摘要: 随着深度学习技术的发展，检测和分类分心驾驶行为需要更高的准确性。现有基于深度学习的方法计算密集且参数冗余，限制了在实际应用中的效率和准确性。为了解决这个问题，本研究提出了一种改进的基于原始YOLOv8模型的检测方法，通过集成BoTNet模块、GAM注意力机制和EIoU损失函数。通过优化特征提取和多尺度特征融合策略，简化了训练和推断过程，并显著提高了检测准确性和效率。实验结果表明，改进的模型在检测速度和准确性方面表现良好，准确率达到99.4%，模型更小且易于部署，能够实时识别和分类分心驾驶行为，提供及时警告，增强驾驶安全性。

论文链接: https://arxiv.org/pdf/2407.01864

HRSAM：高效地在高分辨率图像中分割任何物体

原标题: HRSAM: Efficiently Segment Anything in High-Resolution Images

作者: You Huang, Wenbin Lai, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji

机构: 中国厦门大学

摘要: Segment Anything Model（SAM）在交互式分割方面取得了显著进展，但在对于高精度分割至关重要的高分辨率图像上存在困难。这主要是由于SAM实现的注意力具有二次空间复杂度，以及常见全局注意力中的长度外推问题。本研究提出了HRSAM，它集成了Flash Attention，并结合了Plain、Shifted以及新提出的Cycle-scan Window（PSCWin）注意力来解决这些问题。Shifted window attention经过重新设计，采用填充以保持一致的窗口大小，从而实现有效的长度外推。Cycle-scan window attention采用最近开发的状态空间模型（SSMs），以确保全局信息交换，并具有最小的计算开销。这种基于窗口的注意力使HRSAM能够在缩放输入图像上执行有效的注意力计算，同时保持低延迟。此外，我们进一步提出了HRSAM++，它另外采用多尺度策略来增强HRSAM的性能。在高精度分割数据集HQSeg44K和DAVIS上的实验表明，高分辨率输入使得SAM提炼的HRSAM模型在保持较低延迟的同时胜过了教师模型。与SOTAs相比，HRSAM在交互式分割的NoC95指标上实现了1.56的改进，仅使用了31%的延迟。HRSAM++进一步提升了性能，在NoC95上实现了1.63的改进，仅使用了38%的延迟。

论文链接: https://arxiv.org/pdf/2407.02109

标签：arxiv,人工智能,模型,Arxiv,2024,https,pdf,org,我们
From： https://blog.csdn.net/wjjc1017/article/details/140168276

2024年7月3日Arxiv人工智能相关论文

在 FPGA 上实现快速、可扩展、能效高的非逐元素矩阵乘法

情绪的圆环模型中的自由能

工业过程中的自动化知识图谱学习

信念分享：一种祝福还是一种诅咒

MARLIN：一种云集成的机器人解决方案，用于支持零售业内的内部物流。

强化学习与机器伦理：系统性综述

潜在扩散模型用于生成气候模拟集合

在地下停车场可靠安全的占用格栅预测研究

CALICO：集成校准的自信主动学习

抽象辩证框架是布尔网络（完整版本）

终止可微树专家

VFIMamba：使用状态空间模型进行视频帧插值

用ChatGPT改变角色扮演游戏

行动预测的语义引导表示学习

顺序操纵对抗排名聚合：理论与算法

无线网络中的战略需求规划：生成式人工智能能够节省频谱和能量吗？

时空图形对照事实：概述

重新思考在恶劣天气条件下对 LiDAR 语义分割的数据增强

ScaleDreamer：使用异步分数蒸馏实现可扩展的文本到3D合成

一个基于相似度的更新的上采样器，用于直接高比例特征上采样。

SwiftDiffusion：高效的扩散模型服务与附加模块

魔法插入：样式感知拖放

FedIA：具有异构注释完整性的联邦医学图像分割

关于稀疏几何MPNN的表达能力

数字孪生在过程工业中的学习范式和建模方法论

SAVE：使用“分段任何事物模型”轻松分割音视频。

使用Actor-Critic强化学习生成测地线以预测中点。

IFTT-PIN：一种自校准的PIN输入方法

揭示跨图的全局交互模式：走向可解释的图神经网络

数据在分类器模型中的足迹：隐私问题及通过数据混淆进行的缓解

PWM：使用大世界模型进行策略学习

SiamTST：一种新颖的表示学习框架，用于增强多变量时间序列预测，应用于电信网络。

MeMemo：用于私密和个性化文本生成的设备端检索增强

Safe CoR：一种双专家方法，用于将模仿学习和安全强化学习集成在一起，使用约束奖励。

CatMemo在FinLLM挑战任务中：使用数据融合对金融应用进行大语言模型微调

使用增强金融智能机器学习预测印度股市

LDP：用于机器人导航和避障的本地扩散规划器

Meta 3D AssetGen：具有高质量几何、纹理和PBR材质的文本到网格生成

MTMamba：通过基于 Mamba 的解码器增强多任务密集场景理解

Meta 3D TextureGen：用于3D对象的快速一致纹理生成

移动机器人中的具身人工智能：利用大语言模型进行覆盖路径规划

面部重建转移攻击作为超出分布的泛化

物理信息模型和混合规划用于高效的Dyna风格强化学习

评估大语言模型的代码克隆检测能力

在深度学习模型中促进成员推断攻击的方法

MG-Verilog：面向增强型大语言模型辅助 Verilog 生成的多粒度数据集

基于文本感知的扩散用于策略学习

针对差分隐私的攻击感知噪声校准

朝向在合成数据上训练音乐标记器

图适应性和可扩展性学习的核心知识学习框架

基于改进的 YOLOv8 的分心驾驶行为目标检测方法研究

HRSAM：高效地在高分辨率图像中分割任何物体

相关文章

赞助商

阅读排行