非肿瘤领域的生信例文：干湿结合的生信套路

一直以来都传言肿瘤的生信文章容易发，但对非肿瘤来说就很不友好。非肿瘤有利有弊。弊端是数据集少且无临床数据可扒；利处是我们可以把肿瘤生信文章的套路运用到非肿瘤领域中实现降维打击（其实就是灌水）。

这是一篇2020年5月发表在 PeerJ 上的纯生信文章，IF为2.353，影响因子还在上升。

题目：The biomarkers of key miRNAs and target genes associated with acute myocardial infarction，是一篇急性心肌梗死的文章，非肿瘤确认无疑。研究的分子类型是miRNA。

拆解题目

题目很规矩，包含两要素，疾病和问题。疾病，急性心肌梗死；问题，揭示潜在的分子标志物。此外，我们还要关注的是此文的目标分子是miRNA。

生信文章中，除了基本的功能基因mRNA，以miRNA，lncRNA作为研究类型的生信文章也有很多，与mRNA生信数据挖掘的套路类似，属于花样翻新。
紧接着，我们可以暂停片刻，想想如果我是作者我会怎么去论证。其实也还是那些套路，还是那些配方。不过值得我们注意的是这篇文章作者并不是全生信，也做了一些湿实验。干湿结合，省去了被reviewer怼没有实验验证的情况。纯生信文章总是会落下不做实验怎能发文章的诟病。如果干湿结合，会不会也能堵住一些人的嘴呢？

干实验

Part1 挑

作者选用了GSE24591和GSE31568两个数据集。分别做差异表达基因分析，即疾病组 vs 正常组，并将结果可视化。

A图和B图即是两个数据集的可视化结果。文章结果采用的是火山图，筛选条件是LogFC绝对值大于1且p值小于0.05。

C图是A、B两图取交集的结果，共有8个miRNA，用韦恩图展示的结果。

作者还把这8个miRNA用表列举了出来，即是Table2的结果。将挖掘出来的差异基因、关键信息进一步图表化、具体化，也是一种凑数据图表的方式。

Part2 联

如果目标分子是功能基因，那这一部分其实应该是功能聚类。但文章的研究对象是miRNA，所以这一步换位“联”。作者用miRNA预测靶基因，采用的是miRDB、RNA22、RNAhybird、TargetScan，并用Cytoscape将结果可视化。结果显示8个miRNA共有591个靶基因。

同样，作者把结果用表格展示出来了，即Table3的结果。

miRNA预测靶基因的常用数据库总结：

1. TargetScan数据库（http://www.targetscan.org/mamm_31/）TargetScan主要通过Total contextscore对检索结果进行评分，它代表所有位点context score 加和，数值越低，结合可能性越大。此外，TargetScan通过Aggregate Pct 对miR保守性进行估计，数值越高，结合可能性越大。
2. TarBase数据库（http://microrna.gr/tarbase/）是一个有实验支持的miR靶基因数据库；主要包括人、鼠、猿、鸡等多个物种的数据。
3. starbase数据库（http://starbase.sysu.edu.cn/）（现在叫ENCORI）是中山大学开发的miR综合数据库，功能非常强大，提供包括23个物种的700多个datasets的CLIP-seq数据，100个datasets的降解组测序数据，32个癌种的RNA-seq数据，样本数超过10800个，信息量非常大。
4. miRWalk数据库（http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/）是一个交叉预测网站，既可以通过miRNA预测靶基因，也可以通过gene预测与之结合的miRNA；不仅支持对一个miRNA或gene的预测，也支持多个miRNA或gene同时预测。这些数据库我们往往是将预测的靶基因取交集作为最后的结果。

Part3 圈

作者将Figure2中预测的591个靶基因拿来做功能聚类，即做GO/KEGG分析。GO分析工具为David，出的结果是柱状图，而KEGG分析采用是R包clusterProfiler，出的结果是气泡图。所有的结果展示的均是Top10的富集结果。

这一部分属于功能聚类，其实不光是DAVID可以做GO/KEGG分析，还有几款比较好用的在线分析工具：

1. Metascape数据库(http://metascape.org/gp/index.html) 是提供基因注释和富集分析的门户网站，帮助生物学家理解一个或多个基因列表；可以作为大量基因背景调研和初步筛选的辅助工具。Metascape在首页说“它是一个超过DAVID的分析数据库”。它的优势主要体现在以下几个方面。如操作简单，新手更容易上手；结果呈现美观，报告下载方便；覆盖面广泛；在线；数据更新快；
2. WebGestalt（http://www.webgestalt.org/）支持12个物种，多种数据库和平台的354基因标识符，以及来自公共数据库和模型计算的321251个功能注释集。WebGestalt也可以分析来自公共其他数据库的基因名和实验数据，还可以进行磷酸激酶位点的富集分析。WebGestalt支持ORA、GSEA和NTA三种富集分析法。尤其是GSEA分析，可谓是良心出品。大大省去下载GSEA软件以及分析时经常报错的烦恼。但GSEA分析结果是黑白的，其实影响也不大。

Part4 联

Figure4，这一步，作者将Figure2中的591个靶基因作PPI网络分析，采用的是String在线工具，并用Cytoscape中的插件CytoHubba将结果可视化。结果展示了得分前10的关键分子，即Hub基因。同样，将10个关键基因用表格列举了出来。即为Table4的结果。

Part5 圈

Figure5，“聚类分析”，即先获得的基因列表或基因表达矩阵，然后把具有相似功能的基因放到一起，和生物学表型相关联，对生物学功能/相关的通路或机制进行预测分析。针对Figure4中的Top10 genes做KEGG分析，和Figure3如出一辙。只不过作者采用的是Cytoscape和clusterprofiler包的R包进行分析，出的图是气泡图，非常直观。

Part6 靠

Figure7，“靠”，即联系临床。作者在这里用的是ROC曲线。ROC曲线，可谓Biomaker的标配，可用SPSS绘制。初学者可以直接关注AUC数值。一般来说，AUC应大于0.5。若AUC在0.5~0.7，说明此指标诊断价值低；若AUC在0.7~0.9，说明此指标诊断价值中；若AUC在0.9~1，说明此指标诊断价值高。文章结果显示miR-24-1，AUC为0.964，诊断价值高。

以上就是干实验部分。包含“挑”、“圈”、“联”“靠”4部分，其中“圈”和“联”使用了2次。其实，继续拓展一下，我们也可以做ceRNA机制，即根据miRNA分别预测lncRNA和mRNA，然后建立一个lncRNA-miRNA-mRNA的ceRNA调控网络。常用的根据miRNA预测lncRNA的数据库，如LncBase 。
LncBase数据库(https://dianalab.e-ce.uth.gr/html/diana/web/index.php?r=lncbasev2，https://diana.e-ce.uth.gr/lncbasev3/home)是DIANA-Tools数据库的一个版块，记录lncRNA与miRNA相互作用的数据库，旧版本为v2，目前最新版本为v3。分为实验证据支持和软件预测两部分。

湿实验

Figure6，细胞实验。验证8个miRNA在疾病组中高表达。总结来说，包含“模”、“法”、“标”三个部分

分组：急性心肌梗死vs 正常组

模型：Dox诱导的心肌梗死细胞模型

法：检测方法，为RT-PCR

标：即八个miRNA

好了，湿实验就结束了。到此，整篇文章也结束了。

最后再来做个总结，文章属于干湿结合。干实验包含“挑”（Figure1）“圈”(Figure3,5)“联”(Figure2,4) “靠”（Figure7）；湿实验包含细胞实验（Figure6）。

原文链接

标签：例文,结果,套路,数据库,基因,实验,miRNA,生信
From： https://www.cnblogs.com/xiaogaobugao/p/17128712.html