首页 > 其他分享 >使用机器学习进行多组学分析的 3+2 个挑战(2024年3月30日组会报告)

使用机器学习进行多组学分析的 3+2 个挑战(2024年3月30日组会报告)

时间:2024-03-28 15:55:08浏览次数:22  
标签:组学 模型 30 al 2024 多组 组会 et 数据

利用机器学习进行多组学数据分析

使用机器学习进行多组学分析的 3+2 个挑战

3.1 异质性、稀疏性和异常值

来自不同高通量来源的多组学数据通常是异构的(Bersanelli et al., 2016)。例如,转录组学和蛋白质组学在组学分析之前使用不同的标准化和缩放技术。这导致不同的动态范围和数据分布。此外,某些组学比其他组学更容易生成稀疏数据(例如,在代谢组学的情况下,某些值可能低于检测限,因此被指定为空值(Antonelli et al., 2019))。因此,在规划整合之前,应分别考虑每个组学的插补(Liew et al., 2011)和异常值检测(Vivian et al., 2020)。

3.1.0
这段话意思是
转录组学和蛋白质组学在组学分析之前使用不同的标准化和缩放技术,也就是说它们之间存在差异。这是因为在进行组学分析之前,转录组学和蛋白质组学使用了不同的标准化和缩放技术,导致数据具有不同的动态范围和分布。

举个例子来说明,假设我们正在研究一种药物对癌症细胞的影响。我们同时进行了转录组学和蛋白质组学实验,以获得关于基因表达和蛋白质表达的数据。
3.1.1
在转录组学中,我们使用RNA测序技术来测量细胞中各个基因的表达水平。为了使不同样本之间的数据可比较,我们需要对数据进行标准化处理。一种常见的标准化方法是RPKM(Reads Per Kilobase Million),它考虑了基因长度和测序深度的因素,使得不同基因的表达值可以在样本之间进行比较。这样处理后的转录组数据具有一定的动态范围和特定的分布特征。

而在蛋白质组学中,我们使用质谱技术来测量蛋白质的相对丰度。蛋白质组学数据通常以峰面积或峰高度表示蛋白质的表达水平。为了使不同样本之间的数据可比较,我们需要对数据进行缩放处理,例如使用总离子流强度(Total Ion Current)进行标准化。这样处理后的蛋白质组数据具有不同的动态范围和分布特性,与转录组学数据有所不同。

因此,由于转录组学和蛋白质组学在标准化和缩放技术上的差异,导致它们之间的数据具有不同的动态范围和分布。这种差异需要在整合和分析这两种数据时加以考虑,以免产生偏差或错误的结果。
3.1.2

插补是指通过一些方法来估计那些缺失的数据,填补空缺。异常值检测是为了找出在数据中可能存在的异常或离群值,这些值可能对后续的分析和建模产生不良影响。

因此,在整合异构的多组学数据之前,我们需要先分别对每个组学数据进行插补和异常值检测,以确保数据的质量和一致性。这样才能更好地进行后续的机器学习和统计分析。

组学数据的插补:

对于缺失数据的插补,可以使用插值方法。常用的插值方法包括线性插值、多项式插值、样条插值等。这些方法根据已有数据点的特征来估计缺失数据点的值。
另一种常用的插补方法是基于模型的插补,例如使用回归模型或机器学习模型来预测缺失数据。这种方法利用已有数据的模式和关联性来推断缺失数据的值。
组学数据的异常值检测:

基于统计学的方法可以用来检测组学数据中的异常值。例如,可以使用箱线图(box plot)来观察数据的离群点。离群点可能是由于测量误差或其他异常情况引起的。通过设置阈值或使用统计指标(如Z-score)来判断哪些数据点被认为是异常值。
基于机器学习的方法也可以用于异常值检测。例如,可以使用聚类算法将数据点分组,并识别与其它组别明显不同的数据点。此外,支持向量机(Support Vector Machines)和离群点检测算法(如Isolation Forest)也可以用于检测异常值。

3.2 类别不平衡和过拟合

在疾病分类中,某些疾病类别比其他疾病类别更罕见,这可能会导致多组学数据集中的类别不平衡(Haas et al., 2017)。例如,原发性高血压是最常见的高血压形式,患病率为 95%,而内分泌性高血压仅占 5%(Rimoldi 等,2014)。使用不平衡数据集训练的机器学习模型可能会过度拟合,即训练数据的准确性很高,但对于未见过的测试数据的性能不佳。因此,要对这两种类型的高血压进行分类,可以使用以下方法之一:
1)如果可能,收集更多数据
2)考虑使用加权或归一化指标来衡量 ML 性能(例如 F1-Score 或 Kappa (Jeni等人,2013))
3)分别考虑对代表性不足或过度代表性的类别进行过度或欠采样,
4)考虑合成样本生成(例如 SMOTE(Chawla 等人,2002)或 ADASYN(Haibo He) et al., 2008)) 对于代表性不足的阶层。
类似地,正则化、装袋、超参数调整和交叉验证等技术可以用来平衡偏差-方差权衡(Lee,2010)。根据数据和问题,可以使用上述任何方法来克服类别不平衡和过度拟合问题。
3.2.1
超参调整和k折交叉验证

正则化(Regularization):
正则化是通过在模型的损失函数中添加附加项来限制模型的复杂度。常见的正则化技术包括L1正则化和L2正则化。正则化可以有效地减少模型的过拟合风险,从而降低方差。它通过对模型参数施加惩罚,使得模型更倾向于选择简单的参数组合,从而减少模型的复杂度。正则化技术可以在训练过程中平衡模型的偏差和方差,从而提高模型的泛化能力。

装袋(Bagging):
装袋是一种集成学习方法,通过构建多个相互独立的基础模型并对它们的预测结果进行平均或投票来减少方差。每个基础模型在训练数据的不同子集上进行训练,从而产生多个略有差异的模型。通过集成这些模型的预测结果,装袋可以减少模型的方差,提高模型的稳定性和泛化能力

3.3 特征多于数据 (p >> n)

大多数多组学数据集都面临着经典的“维度诅咒”问题,即观察样本 (n) 比多组学特征 (p) 少得多(Misra 等人,2019)。由此产生的高维空间通常包含冗余的相关特征,可能会误导算法训练(James et al., 2017)。可以通过采用特征提取和特征选择等降维技术来降低数据的维度空间。这里的特征提取是指计算代表性特征子集的技术,该子集总结了原始数据集及其维度。这些特征是原始特征的函数,例如 PCA(主成分分析)(Jolliffe,2002)、LDA(线性判别分析)(Martinez 和 Kak,2001)和 MDS(多维尺度)(Young 和 Hamer,1987) 。另一方面,特征选择找到原始特征的子集,最大限度地提高预测模型的准确性(Guyon 和 Elisseeff,2003)。它可以基于先验知识,即从已知文献中显而易见的知识或基于数据库,例如生物过滤器(Bush 等人,2009)。形式上,特征选择方法可以分为过滤器(信息增益(Roobaert et al., 2006)、ReliefF(Beretta and Santaniello, 2011)、卡方统计(Lee et al., 2011))、包装器(递归特征消除) (Guyon 等人,2002)、顺序特征选择(Pudil 等人,1994))和嵌入(例如 LASSO(最小绝对收缩和))

维度灾难
在有限的训练样本下,并不是维度越多,神经网络层数越深越好,为了填充高维空间,所需要的样本数与特征维数是呈指数关系。如下图, 100 个样本在一维空间排列非常紧密,拉到二维空间就会变稀疏,要想达到与一维空间一样的紧密度,则需要 100^2个样本,同理三维空间需要 100^3 个样本,数据收集非常困难,因此,我们在训练分类器时需要考虑合适的有效特征维度

什么是合适的特征维度,这里引入一个名词——本征维数,本征维数用人话说就是,为了完成本任务(比如分类),需要考虑的最低特征维数/有效特征维数。出现这个词也是因为一些机器学习先驱在解决高维特征空间时提出的;他们认为,尽管原始的数据是包含高维特征,但是由于特征之间的依赖性,很可能使它们位于一个低维空间或者低维流形中;比如,猫有耳朵、尾巴、四条腿,这其实并不能独立让我们判断它是猫,神经网络训练时候常采用裁剪,导致了只有部分特征也能做判断;另一个例子,三维空间的点也很可能只位于一条直线或曲线周围,完全可以降维分类等;
另外的两个挑战

3.4 计算和存储成本

3.5 什么算法最适合什么条件?

常用的机器学习算法具有不同的属性(表4),因此选择合适的算法进行多组学分析至关重要。在文献中,许多评论涵盖了使用单一组学的不同机器学习算法的主要优点和缺点(Amancio 等人,2014 年;López Pineda 等人,2015 年;Sakr 等人,2017 年;Uddin 等人,2019 年)和多组学(Ma et al., 2016; Francescatto et al., 2018; J. Xu et al., 2019; Sathyanarayanan et al., 2020)数据集。他们中的大多数使用系统工作流程,其中涉及使用通用数据集同时评估不同算法的性能。由于每个多组学数据集都是唯一的,因此使用类似的工作流程可以选择最适合的算法。随后,在第 6 节中提出了一个推荐流程图,它可以帮助跨学科用户从可用的方法中进行选择。
最近,各种人工智能驱动的自动化机器学习平台和工具(Feurer et al., 2015; Olson et al., 2018; Waring et al., 2020)也出现了,它们可以用来详尽地搜索最佳机器学习模型和相应的机器学习模型。然而,参数调整的计算成本很高。

 

标签:组学,模型,30,al,2024,多组,组会,et,数据
From: https://www.cnblogs.com/liujunxi/p/18101929

相关文章

  • Polar【2024春季个人挑战赛】—— Crypto
    离家出走的猫猫题目:小明的猫咪离家出走了,在离开前小猫留下一段话:~呜喵呜呜~呜喵啊喵啊啊呜喵呜呜啊呜啊~呜呜~喵呜~~喵呜~啊呜啊呜喵呜呜喵~喵~~喵啊喵呜喵呜啊呜啊~呜啊~啊喵~~啊~~喵~啊啊~呜啊啊喵喵啊啊~啊啊啊~呜啊呜呜~呜啊啊~啊喵~呜喵~啊~喵啊呜呜喵~~喵啊~啊~呜~~喵~~......
  • 2024年软件测试行业趋势:大模型、智能化趋势明显
    随着数字化转型浪潮的汹涌推进,软件测试行业在2024年迎来了革命性的进步。软件测试不仅是软件开发生命周期中的重要环节,更是创新速度和竞争力的关键因素。传统的软件测试正经历着翻天覆地的变化。自动化测试工具的普及、云测试平台的兴起、AI与机器学习技术的应用,都促成了测试流......
  • 网络安全2024年为什么如此吃香?事实原来是这样....
    前言由于我国网络安全起步晚,所以现在网络安全工程师十分紧缺。俗话说:‘‘没有网络安全就没有国家安全’’为什么选择网络安全?十四五发展规划建议明确提出建设网络强国,全面加强网络安全保障体系和能力建设,加强网络文明建设,发展积极健康的网络文化。这是国家从战略高度把......
  • 3D Object Detection Essay Reading 2024.03.27
    PointTransformerV3:Simpler,Faster,Strongerpublish:CVPR2024paper:https://arxiv.org/abs/2312.10035code:https://github.com/Pointcept/PointTransformerV3commentary:https://zhuanlan.zhihu.com/p/673760352idea:​ 作者在3Dlarge-scale表示学习中认识到模型......
  • 【京东云新品发布月刊】2024年3月产品动态
    1.【言犀模型服务】新品上线言犀模型服务平台致力于为开发者提供AI原生应用开发的全链路服务,内置丰富的应用插件,提供便捷的集成方式,结合企业专属数据和API,助力企业高效完成大模型应用构建。2.【数据库管理服务DMS】新品上线数据库管理服务DMS(DatabaseManagementService)是京......
  • 学浪视频下载 2024
    2023年已经过去了,现在已经是2024年,随着学浪的升级,2023年学浪视频下载的方法大部分已经失效,这里将介绍2024年的学浪视频下载方法文章中所有用到的软件都在下面链接:https://pan.baidu.com/s/1y7vcqILToULrYApxfEzj_Q?pwd=kqvj 提取码:kqvj --来自百度网盘超级会员V10的分享......
  • Leetcode 【930. 和相同的二元子数组】【统计「优美子数组」】【974. 和可被 K 整除的
    这道题目是经典的求子数组之和=goal的个数,用map维护。但是笔者在实现的过程中发现0的情况不是很好出来,问题在于mp[sum]和sum+=num的代码语句存在位置问题。后来看了下代码还是自己没有考虑清楚。这种类型的题目就是要想清楚你的做法,以及边界条件。classSolution{public:......
  • 暖心推荐:三螺杆泵 IMO中国ACE038L3NVBP 2024已更新(每日/实时)
    暖心推荐:三螺杆泵IMO中国ACE038L3NVBP2024已更新(每日/实时)暖心推荐:三螺杆泵IMO中国ACE038L3NVBP2024已更新(每日/实时)暖心推荐:三螺杆泵IMO中国ACE038L3NVBP2024已更新(每日/实时)ACG052N7NVBP进口三螺杆泵组瑞典IMO泵IMO双螺杆泵IMO三螺杆泵瑞典IMO工业公司,......
  • Yolov8-pose关键点检测:注意力涨点篇 | 上下文锚点注意力(CAA) | CVPR2024 PKINet 遥感图
     ......
  • Yolov8-pose关键点检测:block涨点篇 | PKIBlock多尺度卷积核,优势无需膨胀,即插即用小目
      ......