首页 > 其他分享 >热图

热图

时间:2022-10-03 20:57:42浏览次数:51  
标签:表达 样本 基因 树形图 聚类 热图

1. 是什么热图

热图是对实验数据分布情况进行分析的直观可视化方法,可以用来进行实验数据的质量控制和差异数据的具像化展示。

其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。还可以对数据和样本进行聚类,观测样品质量。

热图有多种形式,但基本的元素是一致的。

例如上图中的2张热图,每个格子表示每个基因,颜色表示这个基因的上/下调,红色为上调,蓝色/绿色为下调。颜色越深代表这个基因的表达量越高。每行表示每个基因在不同样本中的表达量情况,每列表示每个样品中所有基因的表达量情况。

图中上面两条彩色的横条,是用颜色标识出实验的不同分组。比如图A中,第一行的黄色表示肿瘤组织,蓝色表示正常组织;图B中第一行的蓝色表示正常组织,粉色表示肿瘤组织。

图A中上方树形图表示对来自不同实验分组的不同样品的聚类分析结果,图A和B中左侧树形图表示对来自不同样本的不同基因的聚类分析结果。但是分组和聚类树形图在热图中不一定会出现,要根据研究需要决定是否加上。

2. 热图的作用

(1) 呈现样本间或基因之间的聚类关系:

① 对样本进行聚类:

上图中的上方树形图就是对样本进行聚类,可以对数据质量进行控制。

如果样本来自于同一个组,组内个样本间的特征应该是相似的,那么在进行聚类的时候就很容易被聚在一起。通过样本的聚类可以观察到所收集的不同组别样本是否被聚类到一起了。

如上图中的2个组之间存在着很大的差异,左侧组基因大多呈现下调,而右侧组相反。而且组内样本间的表达模式相似,说明组内样本间差异较小。如果发现某一个/几个应该属于这一组的样本被聚类到其他的组了,或者某个样本的表达模式与本组内其他样本差异显著,那就说明这个样本本身的变异度很高,或者说在之前的样本采集或者测序过程中出了什么问题,这就需要考虑把这个异常样本剔除掉再进行分析,这也就实现了对数据的质量控制。

② 基因之间的聚类:

上图中左侧树形图就是对基因的聚类,聚类可以观察到基因之间的关系,因为基因的上下游调控会导致连锁反应,一个基因的表达增加或减少可能会带动一系列基因的表达变化。那么从图中就可以看到这个连锁的相关性,也是就看到表达模式相似的一群基因被聚集在了一起。

当关注样本/基因在检测到的表达量水平如何分类,相互之间的关系如何,那么可以选择聚类。可以选择:只在样本水平聚类、只在基因水平聚类或两者都进行。当然也可以选择不聚类。

(2) 直观展示多样本多个基因的差异表达变化:

这个很容易理解,就是通过使用颜色(比如红色/绿色的深浅)来展示多个样本多个基因的表达量高低。但是有一个问题,那就是生信分析会得到成千上万的基因或蛋白,这样会导致热图的行数非常多,即使拿着放大镜也没办法在图片中分辨单个基因的情况。那么就可以从数据中找出一些重点关注的基因绘制热图,这样能够清晰的向读者展示自己所研究的一些关键基因的表达情况,所以有些文章中的热图是这样子的(如上图)。

标签:表达,样本,基因,树形图,聚类,热图
From: https://www.cnblogs.com/xiaogaobugao/p/16751154.html

相关文章

  • R语言中image函数绘制热图
     001、dat<-data.frame(rep1=sample(1:20),rep2=20:1,rep3=1:20)datimage(1:20,1:3,as.matrix(dat))##参数需要是矩阵  ......
  • d3js实现热图--heatmap
    这一章节记录热图,下面是图和实现过程。   1、data这些数据存储在csv文件中x,y,valueA,m1,5A,m2,5.7A,m3,6.6A,m4,5.9A,m5,10.8A,m6,11.5A,......