1. 什么是GSEA?
Gene Set Enrichment Analysis (GAES,基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。
2. 有GO/KEGG富集分析了,为什么还要做GSEA?
GO/KEGG富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。
GSEA则不局限于差异基因,不需要指定阈值(p值或FDR)来筛选差异基因,我们可以在没有阈值限制的情况下分析我们感兴趣的基因集,而这个基因集不一定是显著差异表达的基因。GSEA分析可以将那些GO/KEGG富集分信息中容易遗漏掉的差异表达不显著却有着重要生物学意义的基因包含在内。
3. GSEA原理是什么?
给定一个排序的基因表L(基因表达矩阵)和一个预先定义的基因集S (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。上个图展示一波
4. GSEA图怎么看?
1) 富集得分 (ES, enrichment score):
反应基因集成员s在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。富集得分ES最后定义为最大的峰值。正值ES表示基因集在列表的顶部富集,表示富集通路为上调通路;负值ES表示基因集在列表的底部富集,表示富集通路为下调通路。
2) 竖线:
图中间部分每一条线代表基因集S中的一个基因,及其在基因列表L中的排序位置。
3) Leading-edge subset (领头亚集):
对富集得分贡献最大的基因成员,也是后续研究中重点关注的通路关键基因。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
4) 显著性判断(p值)
P值是用来进行显著性检验的,用来评估富集得分(ES)的显著性,P值<0.05,代表S基因集在列表L中显著富集,简单点来说,就是关注某个通路在疾病中显著富集。
5. 其他形式的GSEA图
不一样的只是形式,解图的方法还是不变滴,万变不离其宗
(把多个通路的基因集放在一个图中展示,doi: 10.1155/2022/4254195)
标签:GSEA,富集,差异基因,通路,基因,ES From: https://www.cnblogs.com/xiaogaobugao/p/16751247.html