今天培训群里有人问了这么一个问题:这个热图上面的树是根据系统发育关系画的吗?
这个问题不只问过一次,类似的问题也有一些,拿到一个图不知道各部分是怎么来的。看到树就以为是进化树,看到点就是差异基因,看到颜色就是表达。
遇到这种问题,原因一般有 2 点:
- 主观原因:对图的含义不理解,对图怎么画出来的不清楚
- 客观原因:很多工具包装太好,输入一个大对象,出各种图,不细了解的人不知道每个图的输入数据是啥 (后面落脚还是主观原因)
针对这个图,如果问“这个树是根据系统进化关系出来的吗?”
- 首先考虑作图时有没有直接提供给程序系统进化关系 - 如果没有,那就不是系统进化树。
- 其次考虑有没有提供数据让程序推断系统进化关系,比如有没有提供序列信息 - 如果没有,那就不是系统进化树。
- 再次考虑每个分支是不是标准的物种名字,部分程序可以根据物种名获取进化关系 - 如果不是,那就不是系统进化树。
这个图推测绘制的应该是样本相关性热图,提供的是样本中基因或 OTU 或其它指标的丰度数据,计算相关性(也可能直接提供相关性矩阵),再进行层级聚类出的热图。树代表的是层级聚类的结果。
其它图也是,问出问题时看下自己的输入数据,给的是什么数据,再去解释图。
富集分析的图,每次问起每个点代表什么,会有人说“基因”;颜色代表什么,会有人说“基因表达量”。这也许就是思维定式,“看到颜色就是表达”。仔细看看图例,想想输入数据。