首页 > 其他分享 >GSEA富集分析 - 界面操作

GSEA富集分析 - 界面操作

时间:2023-05-07 23:33:02浏览次数:52  
标签:GSEA 富集 界面 基因 表型 表达 ES


GSEA定义

Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是已知功能的基因集 (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),一是表达矩阵,软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。

(The gene sets are
defined based on prior biological knowledge, e.g., published information
about biochemical pathways or coexpression in previous
experiments. The goal of GSEA is to determine whether members
of a gene set S tend to occur toward the top (or bottom) of the list
L, in which case the gene set is correlated with the phenotypic class
distinction.)

这与之前讲述的GO富集分析不同。GO富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。而GSEA则不局限于差异基因,从基因集的富集角度出发,理论上更容易囊括细微但协调性的变化对生物通路的影响。

GSEA原理

给定一个排序的基因表L和一个预先定义的基因集S (比如编码某个代谢通路的产物的基因, 基因组上物理位置相近的基因,或同一GO注释下的基因),GSEA的目的是判断S里面的成员sL里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。

GSEA计算中几个关键概念:

  1. 计算富集得分 (ES, enrichment score). ES反应基因集成员s在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度(更严格的是与基因和表型的关联度)是相关的。富集得分ES最后定义为最大的峰值。正值ES表示基因集在列表的顶部富集,负值ES表示基因集在列表的底部富集。
  2. 评估富集得分(ES)的显著性。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少,也可基于基因集做排列检验 (permutation test),计算p-value。
  3. 多重假设检验矫正。首先对每个基因子集s计算得到的ES根据基因集的大小进行标准化得到Normalized Enrichment Score (NES)。随后针对NES计算假阳性率。(计算NES也有另外一种方法,是计算出的ES除以排列检验得到的所有ES的平均值)
  4. Leading-edge subset,对富集得分贡献最大的基因成员。

GSEA分析

软件和基因集下载

(http://software.broadinstitute.org/gsea/downloads.jsp)

GSEA富集分析 - 界面操作_生物信息

GSEA富集分析 - 界面操作_数据_02

输入数据准备

  1. 表达矩阵。常见表达矩阵格式,tab键分割,txt格式,第一列为基因名字(名字与注释数据库一致,同为GeneSymbol或EntrezID或其它自定义名字),第一行为标题行,含样品信息。也可为gct文件,具体见 http://blog.genesino.com/2014/08/GSEA-usages/
  2. 样品分组信息

分组信息示例

GSEA富集分析 - 界面操作_生物信息_03

  1. 基因集信息

基因集信息示例

GSEA富集分析 - 界面操作_数据_04

软件运行 (每一步的步骤如有不明确的参考文后第一个链接)

  1. 导入数据
  2. 运行GSEA (若每组样品都有多于7个样品,则Permutation type选择phenotype,结果理论上更好;否则选择gene_set)
  3. 设置好参数后,点击正下方的run,等待运行结束,左侧出现success
  4. 点击success,查看结果

顺着网页的导航一步步去查看结果,有耐心就好。主要解释下,最常见的这种图。

GSEA富集分析 - 界面操作_sed_05

  1. 图最上面部分展示的是ES的值计算过程,从左至右每到一个基因,计算出一个ES值,连成线。最高峰为富集得分(ES)。在最左侧或最右侧有一个特别明显的峰的基因集通常是感兴趣的基因集。
  2. 图中间部分每一条先代表基因集中的一个基因,及其在基因列表中的排序位置。
  3. 最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(MUT)正相关,在MUT中表达高,蓝色与第二个表型(WT)正相关,在WT中表达高。
  4. Leading-edge subset 对富集得分贡献最大的基因成员。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
  5. FDR GSEA默认提供所有的分析结果,并且设定FDR<0.25为可信的富集,最可能获得有功能研究价值的结果。但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准,比如FDR<0.05

Leading-edge分析

主要对筛选感兴趣的基因有意义;选择一个或多个显著富集的基因集,查看其内Leading-edge基因的表达和重叠状态。

GSEA富集分析 - 界面操作_sed_06

GSEA富集分析 - 界面操作_生物信息_07

MSigDB

GSEA团队整理好的基因集,可用于注释,也可下载下来搜寻自己感兴趣的方向的基因作为一个补充。每个注释都提供了基于Gene SymbolEntrez ID的索引表格。

![](http://blog.genesino.com/images/gsea/MasigDB.png

参考

  1. 较早记录的一篇GSEA的使用,有脚本可以转换表达矩阵为gct, cls文件作为GSEA的输入。文档为英文,但软件操作步骤还算详细,可配合着看。
    http://blog.genesino.com/2014/08/GSEA-usages/
  2. 最开始学习的教程,每一步操作都比较详细。
    http://www.baderlab.org/Software/EnrichmentMap/Tutorial
  3. GSEA软件和数据集下载 http://software.broadinstitute.org/gsea/downloads.jsp
  4. 原文对GSEA原理的讲解是很清晰的,可以读下,关键的内容也都摘录在第一个链接里。 https://www.ncbi.nlm.nih.gov/pubmed/16199517

标签:GSEA,富集,界面,基因,表型,表达,ES
From: https://blog.51cto.com/u_16077014/6252744

相关文章

  • linux之安装图形界面
    前言:大家在学习linux过程中,有图形界面会方便不少,故此记录linux下安装图形界面过程。注意:安装图形界面之前,需要给虚拟机设置网络IP,并且可以ping通百度 第一步:先安装一下XWINDOWS,这个控制功能,命令如下(这个安装过程耗时较长)yumgroupinstall"XWindowSystem" 第二步:输......
  • Vite-WeGPT聊天AI实例|vue3+pinia仿ChatGPT聊天界面
    基于vue3.x+vite4+pinia2仿chatgpt聊天模拟实例Vue3-WeGPT。基于Vite4.x+Vue3+Pinia2+VEPlus+Vue3-Markdown等技术实现仿ChatGPT聊天AI界面实例。整体界面简洁清新、支持2种界面布局、暗黑+亮色模式、全屏+半屏展示、Markdown语法解析、侧边栏收缩等功能。使用技术编辑器:cur......
  • 界面遮罩层例子
    关键字:界面遮罩层例子一、自己写的遮罩层例子附件遮罩层.rar为普通js界面遮罩层例子。二、jQuery遮罩层例子(引入附件jquery.zip中的两个插件)1、下面一句话即可搞定$.blockUI({message:'<h1><imgsrc="busy.gif"/>Justamoment...</h1>',css:......
  • 界面控件DevExpress WPF富文本编辑器,让系统拥有Word功能(二)
    DevExpressWPF控件的富文本编辑器允许开发者将文字处理功能集成到下一个WPF项目中,凭借其全面的文本格式选项、邮件合并以及丰富的终端用户选项集合,可以轻松地提供MicrosoftWord功能。DevExpressWPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。......
  • 界面设计时界面参考
    为了把毕设界面做的好看些,因此我去了墨刀这一界面设计网站进行界面设计,学习如何做一个好界面。https://modao.cc/community/mtlbzxaak2qmklfz?title=%E5%85%AC%E4%BA%A4%E4%BA%91%E5%AE%89%E5%85%A8%E4%B8%BB%E5%8A%A8%E7%9B%91%E6%8E%A7%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9Fht......
  • 解决python配置环境变量后cmd窗口无法打开并弹出Microsoft store界面
    前言在一台新的机器上安装python并正确配置环境变量后,本来打算测试一下是否安装成功,结果在cmd窗口输入python执行后,没有出现版本信息,并会弹出Microsoftstore界面。反复检查了一下,环境变量确实已经正确配置了,但还是无法执行。后经查找资料解决了该问题,在此做下记录。......
  • 基于SqlSugar的开发框架循序渐进介绍(29)-- 快速构建系统参数管理界面-Vue3+ElementPlus
    在随笔《基于SqlSugar的开发框架循序渐进介绍(28)--快速构建系统参数管理界面》中介绍了基于SqlSugar开发框架,构建系统参数管理的后端API部分,以及WInform界面部分内容,本篇随笔介绍基于Vue3+ElementPlus的前端界面开发过程。1、Winform端界面的回顾系统参数的信息,设计为包含一个大......
  • Flutter 如何将代码显示到界面上
    前言如何优雅的将项目中的代码,亦或是你的demo代码展示到界面上?本文对使用简单、便于维护且通用的解决方案,进行相关的对比和探究为了节省大家的时间,把最终解决方案的相关接入和用法写在前面预览代码快速开始接入:pub,githubdependencies:code_preview:^0.1.5用法:CodeP......
  • Django笔记三十五之admin后台界面介绍
    本文首发于公众号:Hunter后端原文链接:Django笔记三十五之admin后台界面介绍这一篇介绍一下Django的后台界面使用。Django自带了一套后台管理界面,可用于我们直接操作数据库数据,本篇笔记目录如下:创建后台账号以及登录操作注册后台显示的数据表列表字段的显示操作字段值......
  • 基于深度学习的水果检测与识别系统(Python界面版,YOLOv5实现)
    摘要:本博文介绍了一种基于深度学习的水果检测与识别系统,使用YOLOv5算法对常见水果进行检测和识别,实现对图片、视频和实时视频中的水果进行准确识别。博文详细阐述了算法原理,同时提供Python实现代码、训练数据集,以及基于PyQt的UI界面。通过YOLOv5实现对图像中存在的多个水果目标......