2024年7月1日Arxiv人工智能相关论文

标签：arxiv 人工智能模型 Arxiv 2024 AI https pdf org

cs.AI: 极端事件建模和理解的人工智能：方法和挑战

原标题: AI for Extreme Event Modeling and Understanding: Methodologies and Challenges

作者: Gustau Camps-Valls, Miguel-Ángel Fernández-Torres, Kai-Hendrik Cohrs, Adrian Höhl, Andrea Castelletti, Aytac Pacal, Claire Robin, Francesco Martinuzzi, Ioannis Papoutsis, Ioannis Prapas, Jorge Pérez-Aracil, Katja Weigel, Maria Gonzalez-Calabuig, Markus Reichstein, Martin Rabel, Matteo Giuliani, Miguel Mahecha, Oana-Iuliana Popescu, Oscar J. Pellicer-Valero, Said Ouala, Sancho Salcedo-Sanz, Sebastian Sippel, Spyros Kondylatos, Tamara Happé, Tristan Williams

机构: 瓦伦西亚大学西班牙数据科学主席

摘要: 近年来，人工智能（AI）深刻影响了包括地球系统科学在内的各个领域。在这里，AI改进了天气预报、模型仿真、参数估计以及极端事件的预测。然而，后者面临着特定挑战，如如何从嘈杂、异构和有限的标注数据中开发准确的预测器。本文回顾了AI如何被用于分析极端事件（如洪水、干旱、森林火灾和热浪），强调了创建准确、透明和可靠的AI模型的重要性。我们讨论了处理有限数据、实时整合信息、部署模型以及使其可理解的障碍，这些对于赢得利益相关者的信任和满足监管需求至关重要。我们概述了AI如何能够更有效地帮助识别和解释极端事件，改善灾害响应和沟通。我们强调了跨不同领域合作的必要性，以创建实用、可理解和值得信赖的AI解决方案，用于分析和预测极端事件。这种协作努力旨在增强灾害准备和减灾能力。

论文链接: https://arxiv.org/pdf/2406.20080

cs.AI: 通过加法和低秩分解在联邦学习中解耦通用和个性化知识

原标题: Decoupling General and Personalized Knowledge in Federated Learning via Additive and Low-Rank Decomposition

作者: Xinghao Wu, Xuefeng Liu, Jianwei Niu, Haolin Wang, Shaojie Tang, Guogang Zhu, Hao Su

机构: 北京航空航天大学中央财经大学德克萨斯大学达拉斯分校

摘要: 为了解决数据异构性，个性化联邦学习（PFL）的关键策略是将通用知识（在客户端之间共享）和客户特定知识分离，因为后者如果不去除可能会对协作产生负面影响。现有的PFL方法主要采用参数分区方法，其中模型的参数被指定为两种类型之一：与其他客户端共享以提取通用知识的参数和在本地保留以学习客户特定知识的参数。然而，由于这两种类型的参数在训练过程中像拼图一样放在一起组成单个模型，每个参数可能同时吸收通用知识和客户特定知识，因此难以有效地区分这两种类型的知识。在本文中，我们介绍了FedDecomp，这是一种简单但有效的PFL范式，它采用参数加法分解来解决这个问题。与将模型的每个参数分配为共享或个性化参数不同，FedDecomp将每个参数分解为两个参数的和：一个共享参数和一个个性化参数，从而相比参数分区方法更彻底地分离共享和个性化知识。此外，由于我们发现保留特定客户端的本地知识所需的模型容量远低于所有客户端的通用知识，我们在训练过程中让包含个性化参数的矩阵具有低秩。此外，提出了一种新的交替训练策略以进一步提高性能。跨多个数据集和不同程度的数据异构性的实验结果表明，FedDecomp的性能优于最先进的方法高达4.9％。

论文链接: https://arxiv.org/pdf/2406.19931

cs.AI: 基于静电的粒子采样和近似推断

原标题: Electrostatics-based particle sampling and approximate inference

作者: Yongchao Huang

摘要: 介绍了一种基于静电学和牛顿力学原理的基于粒子的采样和近似推断方法，具有理论基础、算法设计和实验验证。该方法模拟了一个相互作用的粒子系统（IPS），其中粒子，即自由移动的负电荷和空间固定的正电荷，其大小与目标分布成比例，通过由泊松方程描述的电场引起的吸引和排斥相互作用。IPS演变到一个稳定状态，其中负电荷的分布符合目标分布。这种受物理启发的方法提供确定性、无梯度的采样和推断，实现了在推断复杂密度、贝叶斯逻辑回归和动态系统识别的基准任务中与其他基于粒子和MCMC方法可比的性能。提供了一个离散时间、离散空间的算法设计，可以轻松扩展到连续时间和空间，用于更一般的推断问题，如出现在概率机器学习场景中的贝叶斯推断、生成建模等问题。

论文链接: https://arxiv.org/pdf/2406.20044

Github: https://github.com/yongchaohuang/eparvi

cs.AI: AuthAttLyzer-V2：使用增强集成学习模型揭示代码作者归属，并生成基准数据集

原标题: AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset

作者: Bhaskar Joshi, Sepideh HajiHossein Khani, Arash HabibiLashkari

机构: 国际信息技术学院印度约克大学多伦多行为中心网络安全中心（BCCC）

摘要: 源代码作者归属（SCAA）对于软件分类至关重要，因为它可以揭示软件的起源和行为。通过准确识别代码背后的作者或团队，专家们可以更好地了解开发者的动机和技术。在网络安全时代，这种归属有助于追踪恶意软件的来源，识别代码中可能指示特定威胁行为者或团体的模式，最终增强威胁情报和缓解策略。本文介绍了AuthAttLyzer-V2，这是一个新的用于SCAA的源代码特征提取器，重点关注词法、语义、句法和N-gram特征。我们的研究通过检查来自3,000个作者的24,000个C++源代码样本，探讨了作者识别。我们的方法结合了随机森林、梯度提升和XGBoost模型，并通过SHAP进行增强解释性。研究表明，集成模型可以有效地区分个体的编码风格，提供了对代码作者独特属性的洞察。这种方法在理解和解释作者归属中的复杂模式方面至关重要，特别是对于恶意软件分类。

论文链接: https://arxiv.org/pdf/2406.19896

cs.AI: 对地理空间基础模型进行精调，用于地上生物量估计

原标题: Fine-tuning of Geospatial Foundation Models for Aboveground Biomass Estimation

作者: Michal Muszynski, Levente Klein, Ademir Ferreira da Silva, Anjani Prasad Atluri, Carlos Gomes, Daniela Szwarcman, Gurkanwar Singh, Kewen Gu, Maciel Zortea, Naomi Simumba, Paolo Fraccaro, Shraddha Singh, Steve Meliksetian, Campbell Watson, Daiki Kimura, Harini Srinivasan

机构: IBM Sustainability Software IBM Research - IBM TJ Watson Center IBM Research Brazil IBM Research Europe IBM Research Japan

摘要: 全球植被结构映射对于理解全球碳循环并最大限度地提高基于自然的碳封存倡议的效力至关重要。此外，植被结构映射可以通过指导改善水资源安全、增加生物多样性和减少洪水风险等方式，帮助减少气候变化的影响。全球卫星测量提供了一组重要观测数据，用于监测和管理森林砍伐和退化、自然森林再生、重新造林、生物多样性恢复以及可持续农业实践的实施。在本文中，我们探讨了通过微调地理空间基础模型来估算巴西不同生态区域收集的空间卫星数据来估算地上生物量（AGB）的有效性。微调的模型架构包括将 Swin-B Transformer 作为编码器（即骨干），以及一个用于解码器头的单个卷积层。所有结果都与作为基线模型训练的 U-Net 进行了比较。稀疏标签预测任务的实验结果表明，具有冻结编码器的微调地理空间基础模型与从头开始训练的 U-Net 具有可比性能。尽管微调模型需要优化的参数少了 13 倍，但仍节省了时间和计算资源。此外，我们通过在巴西不同生态区域的稀疏标签卫星图像上进行微调，探讨了地理空间基础模型的迁移学习能力。

论文链接: https://arxiv.org/pdf/2406.19888

cs.AI: MetaDesigner：通过 AI 驱动、用户中心和多语言 WordArt 综合推进艺术字体设计

原标题: MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis

作者: Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Qi He, Wangmeng Xiang, Hanyuan Chen, Jin-Peng Lan, Xianhui Lin, Kang Zhu, Bin Luo, Yifeng Geng, Xuansong Xie, Alexander G. Hauptmann

机构: 阿里巴巴集团、卡内基梅隆大学

摘要: MetaDesigner通过利用大语言模型（LLMs）的优势，革新了艺术字体合成，推动了以用户参与为中心的设计范式。该框架的核心是一个包括Pipeline、Glyph和Texture智能体的多智能体系统，共同实现了从语义增强到复杂纹理施加等各种定制WordArt的创建。MetaDesigner整合了一个全面的反馈机制，利用来自多模态模型和用户评估的见解，通过迭代方式不断完善和增强设计过程。通过这种反馈循环，系统熟练地调整超参数以符合用户定义的风格和主题偏好，生成的WordArt不仅满足用户对视觉吸引力和语境相关性的期望，而且超出了这些期望。实证验证突显了MetaDesigner有效地为各种WordArt应用提供服务的能力，持续产生审美吸引力和语境敏感的结果。

论文链接: https://arxiv.org/pdf/2406.19859

cs.AI: xSemAD：使用序列到序列模型在事件日志中进行可解释的语义异常检测

原标题: xSemAD: Explainable Semantic Anomaly Detection in Event Logs Using Sequence-to-Sequence Models

作者: Kiran Busch, Timotheus Kampik, Henrik Leopold

机构: K¨ uhne Logistics University SAP Signavio

摘要: 在过程挖掘中，识别事件日志中的不良行为是一个重要的方面，通常通过异常检测方法来解决。传统的异常检测方法往往侧重于统计上罕见的行为，忽略了罕见与不良之间的微妙差异。语义异常检测的引入开辟了一条有前途的途径，通过识别语义上偏离的行为。这项工作解决了语义异常检测中的一个空白，通常指示异常的发生而不解释异常的性质。我们提出了 xSemAD，这是一种使用序列到序列模型的方法，超越了纯粹的识别，并提供了扩展解释。实质上，我们的方法从给定的过程模型存储库中学习约束，然后检查这些约束在考虑的事件日志中是否成立。这种方法不仅有助于理解不良行为的具体细节，还促进了有针对性的纠正措施。我们的实验证明，我们的方法优于现有的最先进的语义异常检测方法。

论文链接: https://arxiv.org/pdf/2406.19763

cs.AI: DISCO：大规模组合优化问题的高效扩散求解器

原标题: DISCO: Efficient Diffusion Solver for Large-Scale Combinatorial Optimization Problems

作者: Kexiong Yu, Hang Zhao, Yuhang Huang, Renjiao Yi, Kai Xu, Chenyang Zhu

机构: 国防科技大学

摘要: 组合优化（CO）问题在各行业的许多实际应用中至关重要，其特点是包含巨大的解空间并要求及时响应。尽管最近神经求解器取得了显著进展，但它们的表达能力有限，无法很好地适应CO景观的多模态特性。虽然一些研究已经转向扩散模型，但它们需要模拟一个具有许多步骤的马尔可夫链来生成样本，这是耗时的，并且不能满足实际应用的效率要求，特别是在规模上。我们提出了DISCO，一种高效的用于组合优化问题的扩散求解器，在解决方案质量和推理速度方面表现出色。DISCO的效果是双管齐下的：首先，通过可解析形式快速去噪解决方案，允许通过非常少的逆向时间步直接从解空间中进行采样，从而大大减少推理时间。其次，DISCO通过将采样空间限制在更受限制、有意义的领域，通过解决方案残差指导，提高了解决方案质量，同时仍保留输出概率分布的固有多模态性。DISCO在具有10000个节点的非常大的旅行推销员问题和具有挑战性的最大独立集基准测试中取得了最先进的结果，其每个实例的去噪时间快了高达44.8倍。通过进一步结合分而治之的策略，DISCO可以被泛化以解决任意规模的问题实例，甚至胜过专门针对相应规模训练的模型。

论文链接: https://arxiv.org/pdf/2406.19705

cs.AI: 情感损失攻击：基于多维特征的骨架对抗攻击感知

原标题: Emotion Loss Attacking: Adversarial Attack Perception for Skeleton based on Multi-dimensional Features

作者: Feng Liu, Qing Xu, Qijian Zheng

机构: 华东师范大学北京邮电大学

摘要: 对骨骼动作的对抗攻击是一个热门话题。然而，现有研究仅在测量骨骼图序列之间距离时考虑了部分动态特征，导致隐蔽性较差。为此，我们提出了一种新颖的对抗攻击方法，用于攻击骨骼动作的动作识别器。首先，我们的方法系统地提出了一个动态距离函数来衡量骨骼动作之间的差异。同时，我们创新地引入了情感特征作为补充信息。此外，我们使用交替方向乘子法（ADMM）来解决受限优化问题，生成具有更好隐蔽性的对抗样本，以欺骗分类器。实验证明，我们的方法对多个动作分类器和数据集都是有效的。当由l范数测量的扰动幅度相同时，我们方法生成的动态扰动比其他方法低得多。此外，我们是第一个证明情感特征有效性的，并为衡量骨骼动作之间距离提供了新思路。

论文链接: https://arxiv.org/pdf/2406.19815

cs.AI: 模糊逻辑引导的奖励函数变化：测试强化学习程序的神谕

原标题: Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs

作者: Shiyu Zhang, Haoyang Song, Qixin Wang, Yu Pei

机构: 香港理工大学

摘要: 强化学习（RL）在各个领域引起了广泛关注。然而，RL程序日益复杂带来了测试挑战，尤其是“神谕问题”：定义RL程序的正确性。传统的人类神谕难以应对这种复杂性，导致RL测试中的低效和潜在的不可靠性。为了缓解这一问题，我们提出了一种利用模糊逻辑的自动化神谕方法，利用RL属性量化代理的行为符合奖励政策，并分析其在训练周期内的趋势。如果符合趋势违反了从RL特征中得出的预期，它会将一个RL程序标记为“有缺陷”。我们在具有不同复杂性的RL程序上评估了我们的神谕，并将其与人类神谕进行了比较。结果显示，虽然人类神谕在较简单的测试场景中表现良好，但我们的模糊神谕在复杂环境中表现出更优异的性能。所提出的方法显示了在RL测试中解决神谕问题的潜力，特别是在手动测试难以胜任的复杂情况下。它提供了改进RL程序测试效率、可靠性和可扩展性的潜在解决方案。这项研究迈出了自动化测试RL程序的一步，并突显了基于模糊逻辑的神谕在解决神谕问题方面的潜力。

论文链接: https://arxiv.org/pdf/2406.19812

cs.AI: 超越人类偏好：通过大语言模型探索强化学习轨迹的评估和改进

原标题: Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs

作者: Zichao Shen, Tianchen Zhu, Qingyun Sun, Shiqi Gao, Jianxin Li

机构: 北京航空航天大学 Beihang University

摘要: 强化学习（RL）在评估复杂游戏任务中的策略轨迹方面面临挑战，原因是设计全面和精确的奖励函数很困难。这种固有困难限制了RL在具有多样化约束的游戏环境中的广泛应用。基于偏好的强化学习（PbRL）提出了一个开创性框架，利用人类偏好作为关键奖励信号，从而避免了对细致奖励设计的需求。然而，从人类专家那里获取偏好数据成本高且效率低，特别是在存在复杂约束的情况下。为了解决这一挑战，我们提出了一个名为LLM4PG的LLM启用的自动生成偏好框架，利用大语言模型（LLMs）的能力来提取轨迹、排名偏好，并重构奖励函数以优化条件策略。在具有复杂语言约束的任务上进行的实验表明，我们的LLM启用奖励函数的有效性，加快了RL的收敛速度，并克服了原始奖励结构下由于进展缓慢或不存在而导致的停滞。这种方法减少了对专业人类知识的依赖，并展示了LLMs在野外复杂环境中增强RL效果的潜力。

论文链接: https://arxiv.org/pdf/2406.19644

cs.AI: 欺骗性扩散：生成合成对抗样本

原标题: Deceptive Diffusion: Generating Synthetic Adversarial Examples

作者: Lucas Beerens, Catherine F. Higham, Desmond J. Higham

摘要: 我们引入了欺骗性扩散的概念——训练生成式人工智能模型生成对抗性图像。传统的对抗攻击算法旨在扰乱现有图像以诱导错误分类，而欺骗性扩散模型可以创建任意数量的新的、被错误分类的图像，这些图像与训练或测试图像没有直接关联。欺骗性扩散提供了通过大规模提供对抗性训练数据来加强防御算法的可能性，包括那些通常难以找到的错误分类类型。在我们的实验中，我们还研究了对部分受攻击数据集进行训练的影响。这突显了生成式扩散模型的一种新型脆弱性：如果攻击者能够悄悄地污染部分训练数据，那么生成的扩散模型将产生类似比例的误导性输出。

论文链接: https://arxiv.org/pdf/2406.19807

cs.AI: 在受限制的强化学习中通过反馈确保安全

原标题: Safety through feedback in Constrained RL

作者: Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri

机构: 新加坡管理大学 IIIT海得拉巴

摘要: 在安全关键的强化学习环境中，通常更倾向于引入额外的成本函数，而不是修改奖励函数以确保智能体的安全行为，因为设计或评估这样的成本函数可能代价高昂。例如，在自动驾驶领域，设计一个涵盖所有不安全行为（如激进的变道）的成本函数本质上是复杂的。在这种情况下，成本函数可以通过离线收集的反馈来学习，在训练轮次之间。这些反馈可以是系统生成的，也可以是从观察训练过程的人那里引出的。先前的方法无法扩展到复杂环境，并且受限于在状态级别接收反馈，这可能很昂贵。为此，我们提出了一种方法，可以扩展到更复杂的领域，并且可以超越状态级别的反馈，从而减轻评估者的负担。在这种情况下推断成本函数存在挑战，特别是基于轨迹级别反馈为各个状态分配信用。为了解决这个问题，我们提出了一个替代目标，将问题转化为一个带有嘈杂标签的状态级别监督分类任务，可以有效解决。此外，收集代理生成的每条轨迹的反馈通常是不可行的，因此会出现两个基本问题：（1）应该向人类展示哪些轨迹？和（2）需要多少轨迹才能进行有效学习？为了解决这些问题，我们引入了基于新颖性的采样，只有当代理遇到“新颖”轨迹时才选择性地让评估者参与。我们通过在几个基准 Safety Gymnasium 环境和现实自动驾驶场景上进行实验展示了我们方法的效率。

论文链接: https://arxiv.org/pdf/2406.19626

cs.AI: 自监督的时空正常性学习用于时间序列异常检测

原标题: Self-Supervised Spatial-Temporal Normality Learning for Time Series Anomaly Detection

作者: Yutong Chen, Hongzuo Xu, Guansong Pang, Hezhe Qiao, Yuan Zhou, Mingsheng Shang

机构: 中国科学院重庆绿色智能技术研究院中国科学院大学重庆学院新加坡管理大学

摘要: 时间序列异常检测（TSAD）在金融市场、工业生产和医疗保健等各个领域都有广泛的应用。其主要目标是学习时间序列数据的正常模式，从而识别测试样本中的偏差。大多数现有的TSAD方法侧重于对数据进行时间维度的建模，而忽略了空间维度中的语义信息。为了解决这个问题，我们引入了一种新颖的方法，称为空间-时间正常性学习（STEN）。STEN由基于序列顺序预测的时间正常性学习（OTN）模块和基于距离预测的空间正常性学习（DSN）模块组成，前者捕获序列内的时间相关性，后者学习特征空间中序列之间的相对空间关系。通过综合这两个模块，STEN学习到了隐藏在时间序列数据中的正常模式的表达性空间-时间表示。对五个流行的TSAD基准进行的大量实验表明，STEN在性能上显著优于最先进的竞争方法。我们的代码可以在此https网址找到。

论文链接: https://arxiv.org/pdf/2406.19770

Github: https://github.com/mala-lab/STEN

cs.AI: 基于结构感知的世界模型，用于通过大规模自监督预训练进行探测引导

原标题: Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train

作者: Haojun Jiang, Meng Li, Zhenguo Sun, Ning Jia, Yu Sun, Shaqi Luo, Shiji Song, Gao Huang

机构: 清华大学北京人工智能研究院北京人工智能学会

摘要: 心脏的复杂结构导致了超声心动图中的重大挑战，特别是在获取心脏超声图像方面。成功的超声心动图需要对二维平面上的结构以及三维空间中不同平面之间的空间关系有深入的理解。在本文中，我们创新地提出了一种大规模自监督预训练方法，以获取一个具有心脏结构意识的世界模型。核心创新在于构建一个自监督任务，通过在二维平面上预测遮蔽结构并根据三维空间中的姿态变换想象另一个平面，从而需要结构推断。为了支持大规模预训练，我们收集了来自十个标准视图的超过136万个超声心动图，以及它们的3D空间姿态。在下游探针引导任务中，我们展示了我们预训练模型在测试集上通过74例常规临床扫描中的0.29百万样本，持续减少了十个最常见标准视图上的引导错误，表明具有结构意识的预训练有益于扫描。

论文链接: https://arxiv.org/pdf/2406.19756

cs.AI: 使用序列信息嵌入的蛋白质表示学习：是否总是会导致更好的性能？

原标题: Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance?

作者: Yang Tan, Lirong Zheng, Bozitao Zhong, Liang Hong, Bingxin Zhou

机构: 上海交通大学密歇根大学

摘要: 深度学习已成为研究蛋白质的关键工具。虽然在文献中广泛讨论了建模蛋白质结构的重要性，但氨基酸类型通常作为许多推断任务的默认输入操作。本研究通过结构对齐任务表明，在某些情况下，将氨基酸类型嵌入可能并不有助于深度学习模型学习更好的表示。为此，我们提出了基于氨基酸结构表示的局部几何对齐方法ProtLOCA。通过基于CATH标签的独立测试数据集对ProtLOCA的有效性进行了检验，该方法在全局结构匹配任务中表现优于现有的基于序列和结构的表示学习方法，能够更快更准确地匹配结构一致的蛋白质结构域。此外，在局部结构配对任务中，ProtLOCA首次提供了一个有效的解决方案，突出显示了具有不同整体结构但相同功能的蛋白质之间的共同局部结构。这为利用深度学习方法分析蛋白质结构以推断功能提供了新的可能性。

论文链接: https://arxiv.org/pdf/2406.19755

cs.AI: ROS-LLM：一个具有任务反馈和结构化推理的具身人工智能的ROS框架

原标题: ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

作者: Christopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar

机构: 清华大学哈尔滨工业大学德国马普智能系统研究所

摘要: 我们提出了一个面向非专家的直观机器人编程框架，利用来自机器人操作系统（ROS）的自然语言提示和上下文信息。我们的系统集成了大语言模型（LLMs），使非专家能够通过聊天界面向系统表达任务需求。该框架的关键特性包括：将ROS与连接到大量开源和商业LLMs的AI智能体集成，从LLM输出中自动提取行为并执行ROS动作/服务，支持三种行为模式（序列、行为树、状态机），模仿学习以将新的机器人动作添加到可能动作库中，以及通过人类和环境反馈实现LLM反思。广泛的实验证实了该框架的鲁棒性、可扩展性和多功能性，展示了在各种场景中的长期任务、桌面重新布置和远程监督控制等方面的优势。为了促进我们框架的采用并支持我们结果的再现，我们已将我们的代码开源。您可以在此 https URL 访问。

论文链接: https://arxiv.org/pdf/2406.19741

Github: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM https://github.com/huawei-noah/hebo

cs.AI: 丘比特：通过重新匹配系统提高在线多人在线战斗竞技游戏中的公平性和位置满意度

原标题: CUPID: Improving Battle Fairness and Position Satisfaction in Online MOBA Games with a Re-matchmaking System

作者: Ge Fan, Chaoyun Zhang, Kai Wang, Yingjie Li, Junyang Chen, Zenglin Xu

机构: 腾讯公司微软字节跳动深圳大学哈尔滨工业大学（深圳）

摘要: 多人在线战斗竞技场（MOBA）类型已经获得了显著的流行度和经济成功，在人机交互界引起了相当大的研究兴趣。提升游戏体验需要对玩家行为有深入的了解，而MOBA游戏的一个关键方面是匹配，旨在组建技能水平相当的团队。然而，现有的匹配系统经常忽视重要因素，如玩家的位置偏好和团队分配，导致比赛不平衡和玩家满意度降低。为了解决这些局限性，本文提出了一个名为CUPID的新框架，引入了一种称为“重新匹配”的新流程，以优化团队和位置分配，提高公平性和玩家满意度。CUPID包括一个预过滤步骤，以确保最低程度的匹配质量，然后是一个预测比赛胜率的模型，评估潜在分配的公平性。通过同时考虑玩家的位置满意度和游戏公平性，CUPID旨在提供更好的匹配体验。在两个大规模、真实世界的MOBA数据集上进行了大量实验，以验证CUPID的有效性。结果超过了所有现有的最先进基线，平均相对提高了7.18%的胜率预测准确性。此外，CUPID已成功部署在一款热门的在线手机MOBA游戏中。部署结果在比赛公平性和玩家满意度方面取得了显著改善，通过A/B测试观察到的关键人机交互（HCI）指标涵盖了可用性、可访问性和参与度。据我们所知，CUPID是第一个专为大规模MOBA游戏设计的重新匹配系统。

论文链接: https://arxiv.org/pdf/2406.19720

cs.AI: BMW 代理人 – 通过多智能体协作实现任务自动化的框架

原标题: BMW Agents – A Framework For Task Automation Through Multi-agent Collaboration

作者: Noel Crawford, Edward B. Duffy, Iman Evazzade, Torsten Foehr, Gregory Robbins, Debbrata Kumar Saha, Jiya Varma, Marcin Ziolkowski

机构: 宝马集团德国慕尼黑

摘要: 由大语言模型（LLMs）驱动的自主智能体为自动化提供了巨大潜力。这项技术的早期证明可以在各种智能体解决复杂任务、与外部系统互动以增强知识并触发行动的各种演示中找到。特别是，涉及多个智能体以协作方式解决复杂任务的工作流展示了它们在不太严格和不太明确定义的环境中运作的能力。因此，多智能体方法在许多工业应用中具有巨大潜力，从复杂知识检索系统到下一代机器人流程自动化。鉴于当前一代LLMs内的推理能力，复杂流程需要采用包括明确定义和模块化任务计划在内的多步骤方法。根据复杂程度，这些任务可以由单个智能体或一组智能体执行。在这项工作中，我们专注于设计一个灵活的智能体工程框架，特别关注规划和执行，能够处理跨各个领域的复杂用例应用。所提出的框架为工业应用提供可靠性，并提供确保多个自主智能体共同努力解决任务的可扩展、灵活和协作工作流的技术。

论文链接: https://arxiv.org/pdf/2406.20041

cs.AI: 多尺度大脑建模的可微方法

原标题: A Differentiable Approach to Multi-scale Brain Modeling

作者: Chaoming Wang, Muyang Lyu, Tianqiu Zhang, Sichao He, Si Wu

机构: 清华大学百度

摘要: 我们提出了一种多尺度可微分的大脑建模工作流程，利用BrainPy，这是一种独特的可微分大脑模拟器，将准确的大脑模拟与强大的基于梯度的优化相结合。我们利用BrainPy 在不同的大脑尺度上的这种能力。在单个神经元水平上，我们实现了可微分的神经元模型，并采用梯度方法优化它们与电生理数据的拟合。在网络水平上，我们结合连接组学数据构建具有生物约束的网络模型。最后，为了复制动物行为，我们使用基于梯度的学习规则在认知任务上训练这些模型。实验证明，我们的方法在拟合广义漏电整流和Hodgkin-Huxley单个神经元模型方面实现了卓越的性能和速度。此外，在工作记忆任务上训练兴奋性和抑制性尖峰神经元的生物信息网络成功复制了观察到的神经活动和突触权重分布。总的来说，我们的可微分多尺度模拟方法为跨电生理、解剖和行为尺度的神经科学数据提供了一个有前途的工具。

论文链接: https://arxiv.org/pdf/2406.19708

Github: https://github.com/brainpy/differentiable-brain-modeling-workflow

cs.AI: 利用细粒度梯度保持的深度融合模型进行脑肿瘤分类

原标题: Deep Fusion Model for Brain Tumor Classification Using Fine-Grained Gradient Preservation

作者: Niful Islam, Mohaiminul Islam Bhuiyan, Jarin Tasnim Raya, Nur Shazwani Kamarudin, Khan Md Hasib, M. F. Mridha, Dewan Md. Farid

机构: 孟加拉国联合国际大学让-马里亚尼大道，巴达，达卡1212，孟加拉国马来西亚彭亨州阿都拉阿卜杜拉大学澳大利亚西澳大利亚大学

摘要: 脑肿瘤是导致早期死亡的最常见疾病之一，如果不在早期阶段进行诊断，就会导致早逝。传统的诊断方法非常耗时且容易出错。在这种情况下，基于计算机视觉的方法已经成为准确分类脑肿瘤的有效工具。虽然一些现有解决方案展示了显著的准确性，但这些模型在计算资源有限的地区部署变得不可行。这项研究解决了对准确快速分类脑肿瘤的需求，优先考虑在技术欠发达地区部署模型。该研究提出了一个新颖的架构，将预训练的ResNet152V2和修改后的VGG16模型融合，用于精确的脑肿瘤分类。所提出的架构经过细致的微调过程，确保在深度神经网络中保留了良好的梯度，这对于有效的脑肿瘤分类至关重要。所提出的解决方案结合了各种图像处理技术以改善图像质量，在Figshare和Kaggle数据集中分别实现了惊人的98.36%和98.04%的准确率。该架构的显著特点是具有简化的配置文件，仅有280万个可训练参数。我们利用8位量化生成了一个大小为73.881 MB的模型，将其从之前的289.45 MB显著减小，确保在资源受限的地区甚至在边缘设备上平稳部署。此外，使用Grad-CAM提高了模型的可解释性，提供了关于其决策过程的深刻信息。由于其高辨识能力，该模型可以成为准确分类脑肿瘤的可靠选择。

论文链接: https://arxiv.org/pdf/2406.19690

cs.AI: 增强放射诊断：整合人工智能和人类专业知识的协作方法，用于视觉错误修正。

原标题: Enhancing Radiological Diagnosis: A Collaborative Approach Integrating AI and Human Expertise for Visual Miss Correction

作者: Akash Awasthi, Ngan Le, Zhigang Deng, Carol C. Wu, Hien Van Nguyen

机构: 休斯顿大学

摘要: 人工智能与人类的协作在识别和纠正胸部X光感知错误方面尚未被探索。本研究旨在开发一个协作式人工智能系统CoRaX，该系统整合眼动数据和放射学报告，通过准确定位感知错误并优化决策过程，提高胸部放射学的诊断准确性。利用公共数据集REFLACX和EGD-CXR，研究回顾性地开发了CoRaX，采用大型多模态模型分析图像嵌入、眼动数据和放射学报告。系统的有效性是基于其转诊过程、转诊质量以及在协作诊断环境中的表现进行评估的。CoRaX在一个模拟错误数据集上进行了测试，包含271个样本，其中28%（332中的93个）异常被漏诊。该系统纠正了其中的21%（332中的71个）错误，剩下的7%（312中的22个）未解决。转诊有用性评分，表示所有真实转诊的预测区域准确性，为0.63（95% CI 0.59, 0.68）。总体有用性评分反映了CoRaX与放射科医生互动的诊断准确性，显示84%（280中的237个）的互动评分高于0.40。总之，CoRaX能够有效地与放射科医生合作，解决各种异常情况下的感知错误，具有在培训初学放射科医生中的潜在应用。

论文链接: https://arxiv.org/pdf/2406.19686

cs.AI: MimicMotion：利用自信姿势引导生成高质量人体运动视频

原标题: MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

作者: Yuang Zhang, Jiaxi Gu, Li-Wen Wang, Han Wang, Junqi Cheng, Yuefeng Zhu, Fangyuan Zou

机构: 腾讯上海交通大学

摘要: 近年来，生成人工智能在图像生成领域取得了显著进展，衍生出各种应用。然而，视频生成仍然在可控性、视频长度和细节丰富性等各个方面面临着相当大的挑战，这些问题阻碍了这项技术的应用和普及。在这项工作中，我们提出了一个可控视频生成框架，名为MimicMotion，可以生成模仿特定运动引导的任意长度的高质量视频。与先前的方法相比，我们的方法有几个亮点。首先，我们引入了置信度感知姿势引导，确保高帧质量和时间平滑性。其次，我们引入了基于姿势置信度的区域损失放大，显著减少了图像失真。最后，为了生成长而平滑的视频，我们提出了一种渐进式潜在融合策略。通过这种方式，我们可以以可接受的资源消耗产生任意长度的视频。通过大量实验和用户研究，MimicMotion在各个方面都展示出了明显的改进。详细的结果和比较可在我们的项目页面上找到：此处的链接。

论文链接: https://arxiv.org/pdf/2406.19680

Github: https://tencent.github.io/MimicMotion

cs.AI: ACES：用于事件流数据集的自动队列提取系统

原标题: ACES: Automatic Cohort Extraction System for Event-Stream Datasets

作者: Justin Xu, Jack Gallifant, Alistair E. W. Johnson, Matthew B. A. McDermott

机构: 牛津大学麻省理工学院哈佛医学院独立科学家

摘要: 在医疗保健领域，可重现性仍然是机器学习（ML）中的一个重大挑战。在这一领域，数据集、模型流水线，甚至任务/队列定义通常是私有的，这导致在电子健康记录（EHR）数据集上分享、迭代和理解ML结果存在重大障碍。在本文中，我们通过引入用于事件流数据集的自动队列提取系统（ACES）来解决这个问题的一个重要部分。该工具旨在简化医疗保健中ML任务/队列的开发，并实现这些队列的可重现性，无论是在单个数据集的精确级别上，还是在跨数据集的概念级别上。为实现这一目标，ACES提供了（1）一个高度直观且表达力强的配置语言，用于定义数据集特定概念和数据集不可知的包含/排除标准，以及（2）一个用于自动从现实世界数据中提取符合这些定义标准的患者记录的流水线。ACES可以自动应用于医疗事件数据标准（MEDS）或EventStreamGPT（ESGPT）格式的任何数据集，或者应用于任何可以以事件流形式提取必要的任务特定谓词的数据集。ACES有潜力显著降低定义ML任务的准入门槛，重新定义研究人员与EHR数据集互动的方式，并显著改善这种模式下ML研究的可重现性状态。ACES可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.19653

Github: https://github.com/justin13601/aces

cs.AI: 在双曲网络中揭示隐藏的核心-边缘结构

原标题: Uncovering the hidden core-periphery structure in hyperbolic networks

作者: Imran Ansari, Pawanesh Yadav, Niteesh Sahni

机构: 清华大学印度新德里- NCR-201314 印度

摘要: 超几何网络模型展示了非常基本和重要的特征，如小世界性、无标度性、高聚类系数和社区结构。在本文中，我们全面探讨了超几何网络模型中一个重要特征——核-边缘结构的存在，这种结构通常在现实世界网络中表现出来。我们专注于著名的超几何模型，如流行度-相似度优化模型（PSO）和 S1/H2 模型，并使用基于标准随机游走马尔可夫链模型的成熟方法研究核-边缘结构。观察到的核-边缘中心化数值表明，在特定条件下核-边缘结构可能非常显著。我们还通过统计检验验证了在网络几何中观察到的核-边缘结构的显著性。这项研究扩展了网络科学，并揭示了适用于各个领域的核-边缘见解，增强了在交通和信息系统中的网络性能和韧性。

论文链接: https://arxiv.org/pdf/2406.19953

Github: https://github.com/imran10896/cp_structure_in_hyperbolic_networks

cs.AI: 精度至关重要：针对弱监督语义分割的精度感知集成

原标题: Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation

作者: Junsung Park, Hyunjung Shim

机构: 金载哲人工智能研究生院韩国科学技术院

摘要: 弱监督语义分割（WSSS）利用弱监督，如图像级标签，来训练分割模型。尽管最近的WSSS方法取得了令人印象深刻的成就，但我们发现引入具有高平均交并比（mIoU）的弱标签并不能保证高分割性能。现有研究强调了优先考虑精度和减少噪声以提高整体性能的重要性。在同一思路下，我们提出了ORANDNet，这是一种专为WSSS量身定制的先进集成方法。ORANDNet将来自两个不同分类器的类激活图（CAMs）结合起来，以提高伪掩模（PMs）的精度。为了进一步减轻PMs中的小噪声，我们引入了课程学习。这包括最初使用较小尺寸图像和相应的PMs对训练分割模型，逐渐过渡到原始尺寸对。通过结合ResNet-50和ViT的原始CAMs，我们显著提高了分割性能，分别超过了单一最佳模型和朴素集成模型。我们进一步将我们的集成方法扩展到来自AMN（类似ResNet）和MCTformer（类似ViT）模型的CAMs，实现了在先进WSSS模型中的性能优势。这突显了我们的ORANDNet作为WSSS模型的最终附加模块的潜力。

论文链接: https://arxiv.org/pdf/2406.19638

Github: https://github.com/engineerJPark/ORANDNet

cs.AI: 使用像素位移跟踪的最佳视频压缩

原标题: Optimal Video Compression using Pixel Shift Tracking

作者: Hitesh Saai Mananchery Panneerselvam, Smit Anand

摘要: 视频占据了大约 ~85% 的互联网流量，但视频编码/压缩一直以来都是采用硬编码规则，这种方法效果不错，但只能达到一定限度。在过去几年中，我们看到了使用基于机器学习模型的视频压缩算法的激增，其中许多算法表现优于一些传统编解码器。这些模型的范围包括使用机器学习方法端到端地对视频进行编码，或者替换传统编解码器中的一些中间步骤以提高效率。

优化视频存储是视频处理的一个重要方面，因此我们提出的一种可能的方法之一是通过避免每帧中的冗余数据来实现。在本文中，我们想要介绍一种在给定视频的连续帧中移除冗余的方法作为视频压缩的主要方法。我们将这种方法称为“Redundancy Removal using Shift (R\textsuperscript2S)”。这种方法可以应用于各种机器学习模型算法，并使压缩更易访问和适应。在这项研究中，我们利用基于计算机视觉的像素点跟踪方法来识别冗余像素，以便对视频进行编码以实现最佳存储。

论文链接: https://arxiv.org/pdf/2406.19630

cs.AI: 数据驱动的Lipschitz连续性：改善对抗鲁棒性的一种经济有效方法

原标题: Data-Driven Lipschitz Continuity: A Cost-Effective Approach to Improve Adversarial Robustness

作者: Erh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-Rung Lee

机构: 清华大学国立清华大学 IBM研究院

摘要: 深度神经网络（DNNs）的安全性和鲁棒性越来越受到关注。本文旨在为确保DNNs可靠性提供理论基础和实际解决方案。我们探讨利普希茨连续性的概念，以验证DNNs对抗性攻击的鲁棒性，这些攻击旨在通过向输入添加几乎不可察觉的扰动来误导网络。我们提出了一种新颖的算法，将输入域重新映射到受限范围内，降低利普希茨常数，从而可能增强鲁棒性。与现有的通过引入来自其他数据集或生成模型的额外示例来增强鲁棒性的对抗性训练模型不同，我们的方法几乎没有额外成本，因为它可以与现有模型集成，无需重新训练。实验结果表明我们的方法的泛化能力强，可以与各种模型结合，并在鲁棒性方面取得提升。此外，我们的方法在RobustBench排行榜上为CIFAR10、CIFAR100和ImageNet数据集实现了最佳的鲁棒准确性。

论文链接: https://arxiv.org/pdf/2406.19622

cs.AI: 关于数据质量维度和机器学习工具的调查

原标题: A Survey on Data Quality Dimensions and Tools for Machine Learning

作者: Yuhan Zhou, Fengjiao Tu, Kewei Sha, Junhua Ding, Haihua Chen

机构: 北德克萨斯大学

摘要: 机器学习（ML）技术已经在我们社会的几乎所有方面变得重要，数据质量（DQ）对于ML模型的性能、公平性、鲁棒性、安全性和可扩展性至关重要。在数据中心的AI中，由于数据庞大且复杂，传统方法如探索性数据分析（EDA）和交叉验证（CV）面临挑战，突显了掌握DQ工具的重要性。在这项调查中，我们回顾了过去5年中的17种DQ评估和改进工具。通过介绍这些工具中嵌入的DQ维度、指标和主要功能，我们比较它们的优势和局限性，并提出了为ML开发开源DQ工具的路线图。基于对挑战和新兴趋势的讨论，我们进一步强调了大语言模型（LLMs）和生成式AI在ML的DQ评估和改进中的潜在应用。我们相信这份全面的调查可以增进对ML中DQ的理解，并推动数据中心AI的进展。本调查调查的文献完整列表可在GitHub上找到：https://github.com/this。

论文链接: https://arxiv.org/pdf/2406.19614

Github: https://github.com/haihua0913/awesome-dq4ml

cs.AI: 多模态数据融合在精准肿瘤学中的应用：挑战与未来方向

原标题: Multimodal Data Integration for Precision Oncology: Challenges and Future Directions

作者: Huajun Zhou, Fengtao Zhou, Chenyu Zhao, Yingxue Xu, Luyang Luo, Hao Chen

机构: IEEE, Senior Member, Huajun Zhou, Fengtao Zhou, Chenyu Zhao, Yingxue Xu, Luyang Luo, Hao Chen, International Agency for Research on Cancer, World Health Organization, WHO.

摘要: 精准肿瘤学的本质在于致力于根据肿瘤的个体特征为每位患者量身定制靶向治疗和护理措施。肿瘤固有的异质性要求从不同数据源收集信息，以从各种角度提供有价值的见解，促进对肿瘤的全面理解。在过去的十年中，用于精准肿瘤学的多模态数据整合技术取得了显著进展，展示了对异质数据模态中复杂细节的深入理解。这些进展展示了改善临床决策和模型解释的巨大潜力，有助于推动癌症护理和治疗的进步。鉴于已取得的快速进展，我们提供了大约300篇论文的综合概述，详细介绍了精准肿瘤学中尖端的多模态数据整合技术。此外，我们总结了已经获得显著益处的主要临床应用，包括早期评估、诊断、预后和生物标志物发现。最后，根据本调查结果，我们提出了一项深入分析，探讨了未来精准肿瘤学领域多模态数据整合研究的关键挑战，并揭示了未来研究的重要路径。

论文链接: https://arxiv.org/pdf/2406.19611

标签：arxiv,人工智能,模型,Arxiv,2024,AI,https,pdf,org
From： https://blog.csdn.net/wjjc1017/article/details/140138229