这是一篇非肿瘤零代码数据挖掘,2020年最新发表的文章,这篇文章发表在Frontiers in Endocrinology ,2021年IF为6.055,较去年上升0.5分。
题目:Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome,一篇turner综合征的文章,疾病很小众。
拆解题目
先来看一下题目,疾病是turner综合征,问题则是找到寻找疾病发病机制中的关键基因(marker?)。文章比较简单,作者只用了一个数据集GSE46687,我们不妨来换位思考一下,如果我们是作者,我们会做些什么内容呢?既然是非肿瘤,那临床意义部分就做不了吧(确实如此吗?)而“挑圈联”中,最好去扩展提升文章深度的内容是那一部分呢?没错,就是联!分子交互的内容是最容易上手去拓展文章深度的部分,最广为人知的例子就是多组学,多组学就是多个层次的数据进行交互,把多个层次的数据当成多个分子,那不就还是“联”?在科研领域里,举一反三很重要,数据挖掘中千万不要变成数据的奴隶,跳出来高屋建瓴结合医学背景知识才是我们医生打开数据挖掘的正确方式。
研究背景
Turner综合征(TS)是一种以女性X染色体完全缺失或部分丢失为特征的疾病(唯一已知的性染色体单体病),症状包括身材矮小、卵巢衰竭和骨骼异常等。目前TS的病因复杂,发病机制尚不清楚。有研究表明,女性TS(45,X单体型)常染色体基因和chrX基因在人成纤维细胞系、外周血单个核细胞以及诱导的多能人细胞系中的表达均发生改变,但结果不一致。因此作者使用GSE46687进行分析,试图找到TS发病过程中的关键基因。
挑
作者从GEO中找到了GSE46687,数据集包括36例样本,其中16例TS患者被证实具有母系遗传的X染色体(45,XM),10例TS患者被证实具有父系遗传的X染色体(45,XP),10例正常女性(46,XX),但是最大的限制是作者没有获取到临床数据(这是大部分GEO数据集的悲伤啊!)接着使用GEO2R来进行差异表达分析,比较X染色体单体型和正常组之间的表达谱,使用阈值为|log2 FC| >1 和 adj.p-value < 0.05。结果表示:在XM TS患者和正常人之间,总共鉴定出42个上调基因和91个下调基因。在XP TS患者和正常人之间发现了279个上调基因和234个下调基因,然后画一个Venn图展示下两份结果的交集,得到25个上调基因和60个下调基因:
文章作者对于表格的展示方式:
这篇文章作者的分析虽然简单,但是很多细节值得我们学习,比如这个Table 1,作者并没有把两份结果分成两个表格进行展示,而是直接合并在一起,分别展示一个基因在两份结果中的p值和logFC,不仅节省了表格数量,还丰富了表格内容,这样的排版风格,简单易上手又好用。
挑
在进行表达差异之后,作者并没有直接使用DEGs进行富集分析,而是又展示了一个细节操作,寻找基因的组织特异性表达,作者使用BioGPS(http://biogps.org) 来分析DEGS的组织特异性表达,筛选的标准为:(1)组织特异性表达水平>中位数的10倍,以及(2)第二高表达水平不到最高水平的三分之一。结果鉴定了23个在特定组织或器官系统中表达的基因。组织特异性最强的表达系统是血液/免疫系统(69.6%,16/23),其次是神经系统和皮肤/骨骼肌系统 (8.7%,2/23),而呼吸系统、消化系统和循环系统最低(4.3%,1/23):
作者为什么要进行这个操作呢?当然是为了弥补由于临床资料缺失而带来的缺陷啦!特纳综合征是一种全身性疾病,各个系统都会出现相应的症状,为了联系临床,作者探讨了各个组织特异性表达的基因,以此鉴定哪些基因可能与特定症状有关,从而展开讨论。你看,巧妙吧?没有临床数据,那就从症状入手,这是我们医生的强项嘛!
圈
接着作者富集分析部分比较常规,使用DAVIDs (https://david.ncifcrf.gov/tools.jsp)进行富集分析,然后显示11个功能最显著的富集分析结果进行展示,看图片应该是利用Excel画的柱状图:
联
作者接着使用STRING数据库(https://string-db.org/)进行分子交互网络也就是PPI网络的构建,设置阈值为interaction score >0.4,得到交互信息之后使用Cytoscape进行网络构建和美化,那如果为了识别关键模块或者关键基因,你们会用什么插件呢?Mcode?cytohubba?作者用了另外一个插件——ClusterOne,对网络再进行聚类分析,识别出P<0.05的关键模块:
在网络中,红色代表上调基因,绿色代表下调基因,而ClusterOne识别出具有一个上调基因(UBE2O)和七个下调基因(CDC27、HECTD1、JAK1、ASMTL、CD99、SLC25A6和CSF2RA)的两个关键子模块,此外顺带把这8个基因可能参与的功能也进行了富集。
挑圈连有了,你以为这个文章就结束了吗?能发到2区杂志的作者怎么可能让我们轻易猜透呢?作者接着又鉴别了兴趣基因,怎么做呢?前面作者不是做了PPI网络识别出了关键基因吗?而组织特异性表达中也选择了一部分参与免疫的兴趣基因,最后再使用GeneCards数据库鉴定另外三个兴趣基因UBE2O、HECTD1和CSF2RA,最终展示这些基因的FC值和以及他们表达特异性较高的组织:
作者这样展示,一下子挑、圈、联三部分结果合并展示出来,整个表格的内容看起来比单纯展示基因名称丰富多了。
到此为止,这个文章就真的结束了,其实这个文章分析虽然简单,但是满满是细节,细节决定了它可以发在二区杂志,首先TS是一个罕见病,其次分析完整,挑圈联三个齐全,最后紧密结合疾病特征设计出了很多小细节。我个人认为这才是临床医生进行生信分析的正确打开方式,尤其非肿瘤方向。从这个文章我们可以看到,非肿瘤方向的分析策略要比肿瘤方向简单得多。相同的数据分析套路,找到合适的数据集,增加一些细节的处理,往往会发到比较理想的分数。
经常人说非肿瘤数据挖掘太难了,没有肿瘤方向的好发文章,其实不是的,只要切入点好,就算只有一个数据集,也能发出一个好文章,关键还不用像肿瘤方向一样来很多高大上的分析,如果肿瘤方向和这个文章做一样的分析,没有其他东西,发都不一定发的出去。
生信非肿瘤的文章推荐:
1. 题目:STAT1 and its related molecules as potential biomarkers in Mycobacterium tuberculosis infection
期刊名称:J Cell Mol Med
影响因子:4.658
发表年份:2020
2. 题目:Integrative analyses of genes associated with idiopathic pulmonary fibrosis
期刊名称:J Cell Biochem
影响因子:3.45
发表年份:2018
3. 题目:Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome
期刊名称:Frontiers in Endocrinology
影响因子:3.63
发表年份:2020
4. 题目:A comprehensive bioinformatics analysis on multiple Gene Expression Omnibus datasets of nonalcoholic fatty liver disease and nonalcoholic steatohepatitis
期刊名称:Scientific Reports
影响因子:4.01
发表年份:2018
5. 题目:Identification of diagnostic markers for major depressive disorder by cross-validation of data from whole blood samples
期刊名称:Peer J
影响因子:2.35
发表年份:2019
6. 题目:Immune cell infiltration characteristics and related core genes in lupus nephritis: results from bioinformatic analysis
期刊名称:BMC Immunology
影响因子:2.65
发表年份:2019
7. 题目:Identification ofPotential Biomarkers and Biological Pathways in Juvenile Dermatomyositis Based on miRNA-mRNA Network
期刊名称: Biomed Res Int
影响因子:2.197发表年份:2020
8. 题目:Potential protein biomarkers for systemic lupus erythematosus determined by bioinformatics analysis.
期刊名称:Comput Biol Chem
影响因子:1.581
发表年份:2019
9. 题目: Integrated Bioinformatics Analysis for the Identification of Key Molecules and Pathways in the Hippocampus of Rats After Traumatic Brain Injury
期刊名称:Neurochem Res
影响因子:2.782
发表年份:2020
10. 题目:Identification of Key Genes and the Pathophysiology Associated With Major Depressive Disorder Patients Based on Integrated Bioinformatics Analysis
期刊名称:Frontiers in Psychology
影响因子:2.4
发表年份:2019
11. 题目:a temporal transcriptome and methylome in human embryonic stem cell-derived cardiomyocytes identifies novel regulators of early cardiac development
期刊名称:epigenetics
影响因子:4.73
发表年份:2018
12. 题目:A Systems Biology Approach Uncovers Cell-Specific Gene Regulatory Effects of Genetic Associations in Multiple Sclerosis
期刊名称:Nat Commun
影响因子:11.878
发表年份:2019
13. 题目:Identification of Susceptibility Modules and Genes for Cardiovascular Disease in Diabetic Patients Using WGCNA Analysis.
期刊名称:J Diabetes Res
影响因子:3.04
发表年份:2020
14. 题目:LncRNAs related key pathways and genes in ischemic stroke by weighted gene co-expression network analysis (WGCNA).
期刊名称:Genomics
影响因子:3.5
发表年份:2020
15. 题目:Integrated bioinformatics analysis identifies microRNA-376a-3p as a new microRNA biomarker in patient with coronary artery disease
期刊名称:Am J Transl Re
影响因子:3.266
发表年份:2017
16. 题目:Genome-wide Analysis of Dental Caries and Periodontitis Combining Clinical and Self-Reported Data
期刊名称:Nat Commun
影响因子:11.878
发表年份:2019
17. 题目:Bioinformatic analysis reveals the importance of epithelial-mesenchymal transition in the development of endometriosis.
期刊名称:Sci Rep
影响因子:4.011
发表年份:2020
18. 题目:Whole blood vs PBMC: compartmental differences in gene expression profiling exemplified in asthma
期刊名称:0.644
影响因子:Allergy Asthma Clin Immunol
发表年份:2019
19. 题目:Elucidating the molecular pathways and immune system transcriptome during ischemia-reperfusion injury in renal transplantation
期刊名称:3.361
影响因子:Int. Immunopharmacol
发表年份:2020
20. 题目:Identification of Immune Cell Landscape and Construction of a Novel Diagnostic Nomogram for Crohn's Disease.
期刊名称:Front Genet
影响因子:3.517
发表年份:2020
21. 题目:Identification of molecular correlations of RBM8A with autophagy in Alzheimer's disease
期刊名称:5.551
影响因子:Aging
发表年份:2019
22. 题目:Clinical Evidence Supports a Protective Role for CXCL5 in Coronary Artery Disease
期刊名称:3.762
影响因子:Am. J. Pathol
发表年份:2020
23. 题目:Bioinformatics Analysis of Genetic Variants of Endoplasmic Reticulum Aminopeptidase 1 in Ankylosing Spondylitis
期刊名称:Mol Med Rep
影响因子:1.851
发表年份:2017
24. 题目:Assessment and diagnostic relevance of novel serum biomarkers for early decision of ST-elevation myocardial infarction
期刊名称:60359
影响因子:Oncotarget
发表年份:2015
25. 题目:Several critical genes and miRNA associated with the development of PCOS
期刊名称:Ann Endocrinology
影响因子:1.43.
发表年份:2020
26. 题目:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study
期刊名称:Lancet
影响因子:59.102
发表年份:2019
27. 题目:Exploring the Active Compounds of Traditional Mongolian Medicine in Intervention of Novel Coronavirus (COVID-19) Based on Molecular Docking Method.
期刊名称:journal of functional foods
影响因子:3.197
发表年份:2020
28. 题目:Multiple-microarray Analysis for Identification of Hub Genes Involved in Tubulointerstial Injury in Diabetic Nephropathy
期刊名称:J Cell Physiol
影响因子:4.522
发表年份:2019
29. 题目:Polycystic Ovary Syndrome: Novel and Hub lncRNAs in the Insulin Resistance-Associated lncRNA-mRNA Network.
期刊名称:Frontiers in genetics
影响因子:3.57
发表年份:2019
30. 题目:Large-Scale Exome Sequencing Study Implicates Both Developmental and Functional Changes in the Neurobiology of Autism
期刊名称:cell
影响因子:32
发表年份:2020
31. 题目:Metformin Alters the Gut Microbiome of Individuals With Treatment-Naive Type 2 Diabetes, Contributing to the Therapeutic Effects of the Drug
期刊名称:Nat Med
影响因子:30.641
发表年份:2017
32. 题目:Genome-wide Association Analysis of Common Genetic Variants of Resistant Hypertension
期刊名称:Pharmacogenomics J
影响因子:3.503
发表年份:2019
33. 题目:Arginine Deficiency Is Involved in Thrombocytopenia and Immunosuppression in Severe Fever With Thrombocytopenia Syndrome
期刊名称:Sci Transl Med
影响因子:17.161
发表年份:2018
34. 题目:Modulation of Blood Inflammatory Markers by Benralizumab in Patients With Eosinophilic Airway Diseases
期刊名称:Respir Res
影响因子:3.829
发表年份:2019
35. 题目:Integrated Bioinformatics Analysis of the Osteoarthritis‑associated microRNA Expression Signature
期刊名称:Mol Med Rep
影响因子:1.851
发表年份:2018
36. 题目:A Meta-Analysis of Dysregulated miRNAs in Coronary Heart Disease
期刊名称:Mol Med Rep
影响因子:1.851
发表年份:2018
37. 题目:Bioinformatics Analysis of CYP1B1 Mutation Hotspots in Chinese Primary Congenital Glaucoma Patients
期刊名称:Biosci Rep
影响因子:2.535
发表年份:2018
标签:年份,例文,题目,因子,期刊,发表,SCI,生信,名称 From: https://www.cnblogs.com/xiaogaobugao/p/17128752.html