首页 > 其他分享 >拥抱数据变革:知识引导的机器学习

拥抱数据变革:知识引导的机器学习

时间:2023-08-20 12:01:03浏览次数:55  
标签:引导 变革 机器 数据 模型 学习 KGML 科学 拥抱

机器学习(ML)在大规模数据可用的许多应用中的成功,导致了人们对科学学科中类似成就的期望越来越高。数据科学的使用在涉及尚未完全理解的过程的科学问题中尤其有希望。然而,纯粹用数据驱动的方法来建模物理过程可能会有问题。例如,它可以创建一个复杂的模型,它既不能超越训练它的数据,也不能在物理上解释它。当训练数据不足时,这个问题会变得更严重,这在科学和工程领域是很常见的。基于可解释理论的机器学习模型更有可能防止从数据中学习导致不可推广性能的虚假模式。在处理与高风险相关的关键问题(例如,极端天气或生态系统崩溃)时,这一点尤为重要。因此,在复杂的科学和工程应用中,单纯的机器学习方法和单纯的科学知识方法都不能被认为是充分的知识发现方法。该项目正在开发新的技术,以探索基于知识的模型和机器学习模型之间的连续性,其中科学知识和数据是协同集成的。这种综合方法有可能加速一系列科学和工程学科的发现。该项目将培训精通此类方法的跨学科科学家,并将通过同行评议的出版物、开源软件和一系列研讨会传播该项目的成果,以参与更广泛的科学界。

该项目旨在开发一个框架,利用数据科学模型的独特能力,自动从数据中学习模式和模型,而不忽视积累的科学知识的财富。具体来说,该项目通过探索几种将科学知识和机器学习模型结合在一起的方法,建立了知识引导机器学习(KGML)的基础,使用四个领域的试点应用:水生生态动力学、气候和天气、水文和转化生物学。之所以选择这些试点应用,是因为它们正处于知识引导机器学习能够产生变革性影响的临界点。KGML有潜力为科学家和工程师提供对他们感兴趣的领域的新见解,这将需要开发创新的新的机器学习方法和架构,可以结合科学原理。本项目开发的科学知识、KGML方法和软件有可能扩展到广泛的科学应用中,其中使用了机械模型(也称为基于过程的模型)。

 

Motivation and Goals

机器学习(ML)模型在有大规模数据可用的商业应用中取得了巨大的成功,例如计算机视觉和自然语言处理,开始在推动科学发现方面发挥重要作用。事实上,数据科学在科学学科中的作用正开始从提供简单的分析工具(例如,在大型强子对撞机实验中检测粒子)转变为提供成熟的知识发现框架(例如,在生物信息学和气候科学中)。数据科学的使用在涉及过程的科学问题中尤其有希望,这些过程由于潜在现象的固有复杂性而不能被我们当前的知识体系完全理解。然而,数据科学的黑盒应用概念在科学领域的成功有限。

科学学科中的知识发现有两个主要特征,这些特征阻碍了数据科学模型在商业领域取得成功的水平。首先,科学问题在本质上往往缺乏约束,因为它们涉及大量变量,但代表性的训练样本却很少。此外,科学数据中的变量通常显示出复杂和非平稳的模式,可以随时间动态变化。由于这个原因,有限数量的标记实例可用于训练或交叉验证,往往不能代表科学问题中关系的真正本质。因此,用于评估和确保数据科学模型的通用性的标准方法可能会崩溃并导致误导的结论。特别地,很容易在训练集和测试集上学习看起来良好的伪关系(即使在使用了交叉验证等方法之后),但不能很好地泛化到可用标记数据之外的数据。代表性样本的缺乏是将科学问题与涉及语言翻译或物体识别等互联网规模数据的主流问题区分开来的主要挑战之一,在深度学习等数据科学领域,大量标记或未标记数据对算法的成功至关重要。

限制黑盒数据科学方法成功的科学领域的第二个主要特征是科学发现的基本性质。虽然传统数据科学模型的共同目标是生成可操作的模型,但科学领域的知识发现过程并没有结束于此。相反,是将学习到的模式和关系转化为可解释的理论和假设,从而导致科学知识的进步,例如,通过解释或发现变量之间的因果机制。因此,即使黑盒模型实现了更精确的性能,但产生了物理上不一致的结果(因此缺乏提供对底层过程的机械理解的能力),它也不能用作后续科学发展的基础。此外,基于可解释理论的机器学习模型更有可能防止从数据中学习导致不可推广性能的虚假模式。这在处理本质上至关重要且与高风险相关的问题(例如,极端天气或生态系统崩溃)时尤为重要。因此,在复杂的科学和工程应用中,单纯的ml方法和单纯的科学知识方法都不能被认为是充分的知识发现方法。相反,有必要探索基于知识的模型和ML模型之间的连续性,其中科学知识和数据以一种协同的方式集成。

本研究旨在开发一个框架,利用数据科学模型的独特能力,从数据中自动学习模式和模型,而不忽视积累的科学知识的宝藏。如图1所示,通过探索几种将科学知识和机器学习模型结合在一起的方法,本文提出的工作建立了知识引导机器学习的基础,这些方法使用了四个领域的试点应用:水生态动力学、气候和天气、水文和转化生物学。之所以选择这些试点应用程序,是因为它们正处于知识引导机器学习能够产生变革性影响的临界点。

该提案的主要目标是正式概念化“知识引导的机器学习(KGML)”范式,在知识发现过程中,科学理论与机器学习模型系统地集成。这种模式将广泛适用于改进物理和生物系统的建模,其中使用了机械模型(也称为基于过程的),因此,KGML有可能加速一系列科学和工程学科的发现。

The KGML Paradigm

知识引导的机器学习(KGML)范式旨在为机器学习(ML)的角色带来革命性的变化,以加速科学发现,KGML是一个包揽全局的范例,它包含了将ML方法与不同学科中各种形式的科学知识相结合的任何方法。这种模式的发展将需要创新的新的机器学习方法和架构,可以纳入科学原理。

这个HDR框架项目正在寻求KGML研究的路线图,为这一新兴范式的研究开辟一些新的可能性。我们特别关注于为应用程序构建KGML框架的基础,在这些应用程序中,领域知识以机械模型或基于过程的模型的形式可用,这些模型使用已知的科学原理或机制捕获输入和输出变量之间的关系。

Targeted Applications

通过探索几种将科学知识和机器学习模型结合在一起的方法,该研究为知识引导的机器学习奠定了基础,这些方法使用了四个领域的试点应用:水生态动力学、气候和天气、水文学和转化生物学。所选择的问题是HDR框架提案的理想测试平台,不仅因为它们具有重大的社会相关性,还因为它们所涉及的问题的丰富性和相互关联性,以及解决这些问题所需的建模方法的多样性。只有通过处理具有多样性和复杂性的问题和建模方法,人们才有希望为KGML的新框架建立基础,而为孤立的场景追求这样的框架很可能导致特别的解决方案。这个项目的成功将测量方面的能力KGML框架,使科学进步的有针对性的应用领域和程度奠定了基础,为更广泛的努力创造一个全面的HDR研究所带来的科学,工程,和数据科学社区一起利用KGML框架。

 

原文获取地址:第1步:打开微信搜索:1号程序员,并关注。第2步:在对话框中输入:E007,即可获取资源地址。

标签:引导,变革,机器,数据,模型,学习,KGML,科学,拥抱
From: https://www.cnblogs.com/sqchi1991/p/17643807.html

相关文章

  • Asrock-Z690-PG-Reptide i5-13600kf电脑 Hackintosh 黑苹果引导文件
    硬件配置(需要下载请百度搜索:黑果魏叔)硬件型号驱动情况主板AsrockZ690PGReptide处理器i5-13600kfRaptorLake(Undervolted)已驱动内存2x16GbDDR43600ADATAXPG已驱动硬盘1TbNetacNV7000NVMEM2(PCI-e4.0)已驱动显卡RadeonRX6600PowerColorFighter8Gb已驱动声卡瑞昱......
  • Chat Emy改变信息传播方式产生新的变革
    信息传播已经成为现代社会中不可或缺的一部分。而随着人工智能技术的快速发展,新的信息传播方式逐渐崭露头角。而ChatEmy作为一种基于大规模语言预训练模型的对话生成技术,对信息传播方式产生了重大的变革。ChatEmy通过对话生成技术实现了个性化传播。与传统的广播和电视媒体相比,Ch......
  • 水资源智慧管理:数字孪生引领水务变革
    智慧水务中,数字孪生有着深远的作用,正引领着水资源管理和环境保护的创新变革。随着城市化和工业化的不断推进,水资源的可持续利用和管理愈发显得重要,而数字孪生技术为解决这一挑战提供了独特的解决方案。数字孪生技术,将实际的水务系统与数字虚拟模型相结合,实现了对水资源的实时监测......
  • 红帽计划改善RHEL的Linux引导加载程序
         据了解,红帽方面表示他们正在招收全职开发者来增强Fedora和RHEL的Linux引导加载程序体验。而GRUB和Linux引导加载程序通常不会受到太多人关注,从而大致不少用户倾向于“能用就行”,因而大多数Linux发行版更愿意隐藏GRUB菜单obghtysuew。有消息称,红帽有计划采取......
  • macOS Ventura 13.5.1 (22G90) Boot ISO 原版可引导镜像下载 (修复定位服务无法授权问
    macOSVentura13.5.1(22G90)BootISO原版可引导镜像下载(修复定位服务无法授权问题)2023年8月17日(北京时间18日凌晨)macOSVentura13.5.1发布,修复了“系统设置”-"隐私和安全性"中“定位服务”无法授权管理的问题。推荐所有用户更新。本站下载的macOS软件......
  • 北汇信息T-Box和OTA车联网测试系统获服务业发展引导资金支持,助力智能交通发展
    近日,上海北汇信息科技有限公司的针对T-Box和OTA的车联网测试系统成功获得上海市服务业发展引导资金支持。引导资金主要用于支持服务业发展中的薄弱环节、关键领域、重点区域和新兴行业的项目建设、业务开展、重大问题研究等,聚焦服务业新赛道,培育服务业“新技术、新业态、新模式、......
  • 通用与垂直大模型之战:大模型驱动的商业智能变革之路
    科技云报道原创。是做通用大模型还是垂直大模型,这一个争论在“百模大战”的下讨论愈发热烈。目前,以微软、谷歌、百度、阿里等为代表的发力于通用大模型的科技大厂,也都开始推动大模型在垂直领域的商业化落地。比如说,微软和谷歌已将大模型技术融入操作系统、文档、搜索和邮件等产品中......
  • 浅谈5G技术会给视频监控行业带来的一些变革情况
    5G是第五代移动通信技术,能够提供更高的带宽和更快的传输速度,这将为视频技术的发展带来大量机会。随着5G技术的逐步普及与商用,人们将能够享受到更加流畅的高清视频体验,并且5G技术还拥有更低的延迟和更高的网络容量。这些优势不仅将推动视频技术的变革,也将创造出更多的商业机会和产业......
  • 创新驱动,星云座低代码二开平台引领智能装备行业变革
    引言:在当今智能装备行业中,随着技术的不断革新,提升管理效率和客户体验已经成为了企业不可忽视的挑战。针对这一挑战,我们引以为傲地推出了一款革命性的软件开发工具——低代码二开平台,助力您的WMS系统迎接新时代的变革。创新驱动,低代码可视化方式在传统的WMS系统开发过程中,繁琐的代码......
  • 海康机器人3D视觉引导技术广泛应用,助力重工行业增效
    随着智能制造行业的快速发展,相关智能设备在各行各业中的应用也越来越广泛。海康机器人作为相关设备供应商,推出的众多产品满足了多个行业的需求。近期,海康机器人的相关案例展示了其3D视觉引导技术在重工行业中的应用。案例显示,某高空作业机械生产企业面临着高空作业平台车头......