小组成员:徐宁思(22020080133)、沈雪维(22020080117)
倪云梅(22020080113)、 董晓涵(22020080090)
一、项目简介
16S rDNA是一种对特定环境(或者特定生境)样品中所有的细菌进行高通量测序,以研究环境样品中微生物群体的组成,解读微生物群体的多样性、丰富度及群体结构,探究微生物与环境或宿主之间的关系的技术。传统的微生物研究依赖于实验室培养,16S扩增子等高通量测序的兴起填补了对无法在传统实验室中培养的微生物的研究空白,扩展了对微生物资源的利用空间,为研究微生物相互作用提供了有效工具。
16S rDNA位于原核细胞核糖体小亚基上,指的是基因组中编码核糖体16S rDNA分子对应的DNA序列,也就是16S rDNA的编码基因。该基因全长约1542bp,由9个可变区和10个保守区组成(可变区为V1到V9),其中保守区反映了生物物种间的亲缘关系,而可变区则表明物种间的差异,且变异程度与细菌的系统发育密切相关,被认为是最适于细菌系统发育和分类鉴定的指标。
二、工作流程
2.1 实验流程
为了从源头上保证测序数据的准确可靠性,从DNA提取到上机测序,都要有严谨、可靠的样本检测、质控流程,在每一环节都对样本质量严格控制,确保测序数据的真实可信。
2.2 信息分析流程
上机测序完成后,得到原始的下机数据RawData,利用overlap将双端数据进行拼接,并进行质控、嵌合体过滤,获得高质量的CleanData。DADA2(Divisive Amplicon Denoising Algorithm)[1]不再以序列相似度进行聚类,而是通过“去重复”(Dereplication,相当于以100%相似度聚类)等步骤,进而获得单碱基精度的代表序列,大大提升了数据精确度与物种分辨率。DADA2的核心是去噪,然后使用ASVs (Amplicon Sequence Variants)的概念构建类OTU( Operational Taxonomic Units )[3]表,获得最终的ASV特征表以及特征序列,进一步进行多样性分析、物种分类注释和差异分析等。
三、标准分析
3.1 有效数据统计
对原始下机数据进行双端拼接、质量控制、嵌合体过滤后,进行高质量数据统计,部分结果如下表:
表1 有效数据统计表
Sample |
Raw_Tags |
Raw_Bases |
Valid_Tags |
Valid_Bases |
Valid% |
Q20% |
Q30% |
GC% |
K8_4w |
169325 |
84.66M |
121221 |
49.87M |
71.59 |
96.53 |
90.90 |
55.93 |
K8_12w |
85716 |
42.86M |
65161 |
26.86M |
76.02 |
95.64 |
89.09 |
55.64 |
K7_4w |
163182 |
81.59M |
115629 |
48.71M |
70.86 |
96.10 |
90.11 |
55.57 |
K7_12w |
114068 |
57.03M |
110808 |
47.01M |
97.14 |
95.83 |
89.42 |
53.19 |
K6_4w |
165524 |
82.76M |
118263 |
49.58M |
71.45 |
96.52 |
91.03 |
55.45 |
K5_12w |
168636 |
84.32M |
121238 |
51.26M |
71.89 |
96.42 |
90.66 |
54.36 |
K2_4w |
117832 |
58.92M |
114929 |
47.96M |
97.54 |
95.53 |
88.80 |
57.16 |
K1_12w |
163762 |
81.88M |
118815 |
49.09M |
72.55 |
96.49 |
90.98 |
56.14 |
表2 各列意义表
Term |
意义 |
Sample |
测序样品名称 |
Raw_tags |
测序原始数据,以四行为一个单位,统计每个文件的测序序列个数 |
Raw_Bases |
测序序列的个数乘以测序序列的长度,并以单位M表示 |
Valid_Tags |
预处理后,以四行为一个单位,统计每个文件的拼接后测序序列个数 |
Valid_Bases |
预处理后,测序序列的个数乘以测序序列的长度,并以单位M表示 |
Valid% |
有效数据(Valid)与原始数据(Raw)比值,百分比表示 |
Q20% |
有效数据中数据质量≥Q20的数据比例 |
Q30% |
有效数据中数据质量≥Q30的数据比例 |
GC% |
有效数据中数据GC含量 |
3.2 ASV特征表
QIIME2[2]相对于QIIME,最大的改变是DADA2不再以序列相似程度进行聚类,而是通过过滤、去重(Dereplication)、嵌合体过滤等方式修正扩增子的测序错误,确定更多的真实变异。扩增子测序本身就具有内在的限制,但是聚类OTU的方式进一步限制了它的发展。OTU不是物种,它们不应该成为错误的一部分。经过去除背景噪音获得的特征表和特征序列,不仅极大提升了数据精确度与物种分辨率,还保证了结果可信程度。
结果说明:其中ASV ID表示QIIME2降噪后ASV特征序列的ID,它们是无序且无意义的字符串。其中的数值表示每个样本对应的该特征序列的count数。由于不同样本的原始测序量并非完全一致,因此不是简单来看数值的大小来比较丰度的高低,而是需要通过相对丰度的计算来比较不同特征值之间的差异。
3.3 ASV分布Venn图
根据获得的ASV丰度表,通过Venn图直观地呈现各样品/分组共有和特有的ASV数目。
结果说明:venn图中每个圈代表一个样本/分组,圈和圈重叠部数目代表两个组/样本共有的ASV数目,没有重叠的部分代表每个组/样本特有的ASV数目。当样品/分组≥6时,以花瓣图形式进行展示。它能反映所有样本/分组的共有和特有的ASV数目,但不能反应两两分组间共有的ASV数目。
3.4 Alpha多样性分析
Alpha多样性是指一个特定环境或生态系统内的多样性,主要用来反映物种丰富度和均匀度以及测序深度。Alpha多样性主要通过Chao1、Observed species、Goods_coverage、shannon、Simpson和pielou-e等指数来反映丰富度和均匀性。其中:Chao1和observed_species主要是估计群落中包含物种的数目;Goods _coverage是指微生物覆盖率,其数值越高,则样本中新物种没有被测出的概率越低,该指数实际反映了本次测序结果是否代表样本的真实情况;Shannon指数来源于信息熵,Shannon指数越大,表示不确定性大。不确定性越大,表示这个群落中未知的因素越多,也就是多样性高;Simpson数值范围在0-1之间,当群落里只有一种物种的时候,此时Simpson值最小为0,同时也是我们直观理解的多样性最小。当物种种类无限多(丰富度最高),并且每个物种数目都一致(均匀度最高)的时候,Simpson值为最大为1;pielou-e指数即Shannon’s evenness,仅反映均匀度,数值越大,越均匀。
表3 部分样本alpha多样性指数
|
observed_otus |
shannon |
simpson |
chao1 |
goods_coverage |
pielou_e |
A2_12w |
525 |
6.63 |
0.96 |
526.88 |
1.00 |
0.73 |
A2_4w |
425 |
6.85 |
0.98 |
425.00 |
1.00 |
0.78 |
A3_12w |
746 |
7.37 |
0.98 |
751.36 |
1.00 |
0.77 |
A3_4w |
638 |
7.04 |
0.97 |
644.82 |
1.00 |
0.76 |
A4_4w |
677 |
6.98 |
0.95 |
680.96 |
1.00 |
0.74 |
A5_4w |
587 |
6.87 |
0.97 |
591.53 |
1.00 |
0.75 |
A6_12w |
929 |
7.02 |
0.97 |
979.00 |
1.00 |
0.71 |
A7_12w |
605 |
6.33 |
0.93 |
612.39 |
1.00 |
0.69 |
B1_12w |
932 |
7.36 |
0.98 |
978.53 |
1.00 |
0.75 |
B2_12w |
591 |
5.96 |
0.95 |
632.55 |
1.00 |
0.65 |
稀释曲线(rarefaction curve)通过模拟重新取样的过程,观察其中物种变化的趋势,估计环境中的物种丰富程度。通过绘制稀释曲线,统计ASV的丰富程度,对比不同样品的稀释曲线就可以直观显示样品间物种多样性的差异。稀释曲线可直接反映测序数据量的合理性,并间接反映样品中物种的丰富程度,当曲线趋向平坦时,说明测序数据量渐进合理,更多的数据量只会产生少量新的物种(ASVs)。
结果说明:横坐标代表随机抽取的序列数量;纵坐标代表抽取相同序列数时各样本各指数大小。同时按照所有样本和按照分组进行绘图。通过该图,可以在一定程度上衡量每个样本的丰富度和多样性高低。从稀释曲线中也可以估算测序数据量是否足够,是一个参考性指标。若曲线急剧上升,表明测序数据量并未达到最佳;若曲线趋于平缓,则证明测序数据量已饱和。
3.5 Beta多样性分析
Beta多样性是指不同环境群落之间的物种差异性。Beta多样性与alpha多样性一起构成了总体多样性或一定环境群落的生物异质性。Beta多样性分析通常由计算环境样品间的距离矩阵开始,该矩阵包含任意两个样品间的距离,主要通过主成分分析(Principal component analysis,PCA)、主坐标分析(Principal coordinates analysis,PCoA)、聚类分析(Clustering analysis,UPGMA)、非多维尺度分析(Multidimensional scaling,NMDS)、相似性分析(Analysis of similarities,ANOSIM)、多元方差分析(PermANOVA,又称Adonis)等方法,观察样本之间的差异。
3.5.1 PCA分析
主成分分析 (PCA,Principal Component Analysis),简单来说就是在数据信息丢失最少的原则下,对多特征的数据进行最佳综合简化,即是对高维特征空间进行降维处理。它通过寻找矩阵的线性无关向量实现数据降维,线性无关的向量就称为主成分,第一主成分解释了数据最大部分的方差或波动性。PCA能够提取出最大程度反映样品间差异的两个坐标轴,从而将多维数据的差异反映在二维坐标图上,进而揭示复杂数据背景下的简单规律。基于ASV丰度表,使用R软件vegan包进行了PCA分析,如果样品的物种组成越相似,则它们在PCA图中的距离越接近。可以通过PCA分析直观看出生物学重复的组内相似性及组间差异是否明显。
结果说明:不同颜色代表不同分组,同一个颜色的点代表一个组内的不同样本,同一个分组按照95%置信区间以圈图(每组生物学重复数目≥4)形式展示。两个样品间距离越近,则说明样品之间的微生物组成结构越相似,差异性越小;反之,则说明样品之间的微生物组成结构差异越大。通过该分析可观察样本或分组间的差异。当生物学重复样本距离更近,不同分组组间距离越远,说明处理有效或者说明差异显著,也预示着后期寻找差异菌群结果更趋近于真实情况(背景噪音小);当所有样本均难以分开,说明该处理对菌群的分布影响甚微;当生物学重复样本距离大于不同分组样本之间的距离,则需要做相应排查,确认取样、寄送或后期处理中样本是否弄混。
3.5.2 PCoA分析
主坐标分析PCoA(Principal Coordinates Analysis),是一种与PCA类似的降维排序方法,通过可视化的低维空间(通常是二维)重新排列样品,最大化展示样品之间的关系信息。低维空间的排序轴不具体指代某一个物种,而是虚拟的排序轴,反映样品间物种组成结构差异。该分析基于距离矩阵,通过一系列的特征值和特征向量排序后,排序第一的为最主要的特征值,该特征值能最大程度上解释样品之间的关系分布。在生态学研究中,通常选择前两个(或三个)特征值可视化样品间的关系,样品点之间的距离越近,说明样品之间物种组成结构越相似。因此,PCoA分析将群落结构相似度高的样品聚集在一起,群落结构差异大的样品则会远远分开。
PCoA的计算原理虽然与PCA相同,但PCA是基于样品的物种丰度表(欧氏距离)降维排序,而PCoA则是基于距离(任何类型距离)矩阵来排序寻找最佳特征值,因此PCoA更能真实的反映样品之间的关系。可以基于unweighted unifrac,weighted unifrac,jaccard和bray_curtis距离矩阵进行分析。
结果说明:和PCA一样,结果中不同颜色代表不同分组,样品距离越近,说明样品之间的微生物组成结构越相似,差异性越小。横纵坐标的百分比表示第一轴和第二轴对样本差异的解释度。
3.5.3 样品聚类
为了适应不同的环境样品类型,基于各样品的ASV分析结果,使用最常用的unweighted unifrac、weighted unifrac[4,5]、jaccard和bray_curtis四个指标来衡量两个样品间的相异系数,其值越小,表示这两个样品在物种多样性方面存在的差异越小。同时计算得到的样品距离矩阵,并利用UPGMA(Unweighted Pair Group Method with Arithmetic Mean)方法对样品进行聚类,生成聚类树数据文件,该文件可以导入聚类树查看软件如Figtree。
结果说明:图中树枝不同颜色代表不同的分组。聚类树展现了样本间的相似度,样本间的分枝长度越短,两样本越相似。同时这样的可视化结果可以直观显示不同的环境样本中微生物进化的差异程度。当出现同一个样本离散在同组样本之外,说明这个样本可能组间相似性不高,作为生物学重复可能会影响整个组。
3.5.4 NMDS分析图
NMDS(Nonmetric Multidimensional Scaling)非度量多维尺度分析,与PCoA分析一样,也是一种基于样品(任何类型距离)距离矩阵的排序方法。与PCoA不同的是,NMDS不再基于距离矩阵数值,而是根据距离排位顺序进行降维计算。NMDS排序依赖于相异系数的大小顺序,并不依赖于准确的相异性系数值。如果排序的目的不是在于最大程度保留样品之间的实际距离,只是反映样品之间的顺序关系,这种情况下,非度量多维尺度分析是一种不错的解决方案。NMDS分析目标是保持样品排序关系不变,因此,如果两个样品距离较近,说明这两个样品物种组成越相似。
结果说明:图中的点表示样品,不同颜色样品属于不同的分组,点与点之间的距离表示样品之间差异程度。检验NMDS分析结果的优劣用胁强系数(stress)来衡量,通常认为当stress<0.2时,可用NMDS的二维点图表示,其图形有一定的解释意义;当stress<0.1时,可以认为是一个好的排序;当stress<0.05时,具有很好的代表性。
3.5.5 相似性分析
Anosim(Analysis of similarities)相似性分析是一种非参数检验,用来检验组间(两组或多组)的差异是否显著大于组内差异,从而判断分组是否有意义。该分析基于unweighted unifrac,weighted unifrac、jaccard和bray_curtis算法得到的样品距离矩阵,通过对样品距离等级排序来判断样品组内和组间差异的大小,并通过置换检验评价原始样品组间差异的统计学显著性。
结果说明:test statistic即为R值,数值介于-1和1之间,表明组间样品差异与组内样品差异的差值大小。R值越接近1,表明组间样品差异越大,同时组内样品差异越小,分组效果越好;如果R=0,表明样品的分组效果等同于随机分配,各样品分组之间不具有可观测的统计学差异;如果R为负值,则表明组内样品差异超过了组间样品差异,预示样品分组效果较差。P值则反映了ANOSIM分析结果的统计学显著性,P<0.05,表明统计是否具有显著性。
3.5.6 Adonis分析
Adonis又称置换多元方差分析或非参数多元方差分析。它是通过距离矩阵,分析不同分组因素对样品差异的解释度,并使用置换检验对其统计学意义进行显著性分析。
表4 Adonis多元分析
|
Df |
SumOfSqs |
R2 |
F |
Pr(>F) |
Group |
21 |
8.91 |
0.56 |
3.98 |
0.00 |
Residual |
66 |
7.04 |
0.44 |
|
|
Total |
87 |
15.95 |
1 |
|
|
结果说明:以weighted_unifrac距离adonis分析结果为例,其中Df:自由度;SumsOfSqs:总方差,又称离差平方和;Mean Sqs:表示均方(差),即SumsOfSqs/Df;F.Model:F检验值;R2,表示不同分组对样品差异的解释度,即分组方差与总方差的比值,R2越大表示分组对差异的解释度越高;Pr:P值,小于0.05说明本次检验的可性度高。
查看PCA、PCoA、upgma和NMDS的分析结果,当出现同一组样本离散在群体之外,说明这个样本可能组间相似性不高,作为生物学重复可能会影响整个组,因此,可以结合下面的物种柱状图结果,对该离群样本进行分析,判断是否需要删除该样本。如果需要剔除离群样本重分析。
3.6 物种分析
ASV特征序列是物种分类的原始文件,为了更加准确的分析物种组成,使用SILVA(Release 138,https://www.arb-silva.de/documentation/release-138/)以及NT-16S数据库做物种分类及后续分析,以保证注释结果完整准确。注释阈值:置信度大于0.7。根据ASV注释结果和各样品ASV丰度表,获得界、门、纲、目、科、属、种水平物种丰度表,并针对不同水平物种丰度表进行不同样品(组)物种组成分析。基于物种注释统计表,通过柱状堆叠图、热图和聚类图对物种丰度进行展示。
物种注释完成后,会统计每个ASV对应的注释结果以及丰度信息。一般在论文中会对这部分结果使用大量的讨论,根据不同的实验设计和目的,从中筛选一个或几个重点关注的物种,结合ASV丰度信息表分析物种表达水平、聚类分析等。当样品量较大时(比如超过100个样品),导致样品柱状图十分拥挤,降低了图形的美观和可读性,可以按分组(分组物种丰度为组内样品平均相对丰度)图形进行展示。
结果说明:该表代表每个特征值对应的界、门、纲、目、科、属、种不同层级的物种注释结果。
3.6.1 柱状堆叠图(stacked bar chart)
根据物种丰度表和物种注释表,选取丰度TOP30物种分类,将每个样本/分组的相对丰度进行不同形式的展示。该柱状图以堆叠柱状图形式展现,便于更直观地进行样品丰度的比较。在各个层级中,我们可以直观的看到优势菌种的表达情况,及在各个不同处理中的变化趋势。当然,若是有关注稀有菌群的表达情况时,可以展现所有物种分类。
结果说明:图中横轴为样品名称/分组,纵轴代表某分类的相对丰度;不同颜色对应同一层次不同物种,通过柱状图可以明了每个样本/分组高表达物种组成,同时也可以观察组内物种组成及表达和组间物种表达趋势。
3.6.2 热图(heatmap)
根据物种相对丰度表,将各分类水平相对丰度TOP30个的群落组成数据根据分类单元的丰度分布或样本间的相似程度加以聚类,根据聚类结果对分类单元和样本分别排序,并通过热图加以呈现。通过聚类,可以将高丰度和低丰度的分类单元加以区分,并以颜色梯度及相似程度来反映多个样品在各分类水平上组成的相似性和差异性。
结果说明:每行代表物种,每列代表样本/分组,图中用蓝色到红色的渐变色反映丰度由低到高的变化,越趋近于蓝色,丰度越低,越趋近于红色,丰度越高。该热图经过Z值转化,将同一个菌的表达丰度进行归一化,因此该热图仅能进行横向比较,此时纵向比较已无意义。
3.6.3 聚类图(cluster)
物种组成柱状堆叠图虽然可以直观看到不同样品或分组的物种丰度情况,但是具体样品之间的相似性远近,是无法直接观察到的。为了更细致的研究不同样品间的差异和相似性,在柱状图的基础上,还可以根据样品物种组成距离对样品进行聚类分析。该分析采用Bray-Curtis 距离(系统聚类法中使用最普遍的一个距离指标,主要用于描述样品间的相近程度,距离的大小是进行样品分类的主要依据)进行样品聚类。
窗体顶端
窗体底端
结果说明:左侧是Bray-Curtis距离聚类树结构,样品聚类越近,分支越短,代表样品/分组物种组成越相似。右侧的是各样品/分组在门水平上的物种相对丰度分布图,所占比例越大表示丰度越高。
3.7 显著性差异分析
16S rDNA测序分析主要有以下研究目的:研究某一群体(如健康人肠道菌群)的微生物构成,找出这类群体的微生物共性,从而找到微生物对群体的影响(这类研究通常样品量非常大);研究不同处理样品(比如疾病与健康,不同肥料土壤)之间的微生物构成差异等。根据样品物种丰度表,采用Fisher's exact test(适用于无生物学重复样品差异比较)、Mann-Whitney U test(适用于有生物学重复两组样品差异比较)、Kruskal-Wallis test(适用于有生物学重复样品的多组之间比较)进行物种差异检验。
结果说明:分别对每个层级的所有物种进行差异分析,筛选p值小于0.05的前30物种绘制柱状图(基本包括全部的差异物种)。图中横坐标代表差异物种(按照丰度高低从左到右排列),纵坐标为相对丰度,通过柱子的高低可直观的判断每个差异物种在不同分组中的丰度情况。
参考文献
[1]Callahan Benjamin J,McMurdie Paul J,Rosen Michael J et al. DADA2: High-resolution sample inference from Illumina amplicon data.[J] .Nat. Methods, 2016, 13: 581-3.
[2]Bolyen Evan,Rideout Jai Ram,Dillon Matthew R et al. Author Correction: Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2.[J] .Nat. Biotechnol., 2019, 37: 1091.
[3]Blaxter M, Mann J, Chapman T, Thomas F, Whitton C, Floyd R, Abebe E (2005) Defining operational taxonomic units using DNA barcode data. Philosophical transactions of the Royal Society of London Series B, Biological sciences 360: 1935-1943. doi: 10.1098/rstb.2005.1725.
[4]Rognes T, Flouri T, Nichols B, Quince C, Mahe F (2016) VSEARCH: a versatile open source tool for metagenomics. PeerJ 4: e2584. doi: 10.7717/peerj.2584
[5]Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman
FD, Costello EK, Fierer N, Pena AG, goodrich JK, Gordon JI, Huttley GA, Kelley
ST, Knights D, Koenig JE, Ley RE, Lozupone CA, McDonald D, Muegge BD, Pirrung
M, Reeder J, Sevinsky JR, Turnbaugh PJ, Walters WA, Widmann J, Yatsunenko T,
Zaneveld J, Knight R (2010) QIIME allows analysis of high-throughput community
sequencing data. Nature methods 7: 335-336. doi: 10.1038/nmeth.f.303
结果分析
(1)A对照组
(2)B高脂组
(3)C高脂 + 甘油三酯(低)
(4)D高脂 + 甘油三酯(中)
(5)E高脂 + 甘油三酯(高)
(6)F高脂 + 乙酯(中)
(7)G高脂+ 低Empagliflozin组
(8)H高脂+ 高Empagliflozin组
(9)I高脂+ 可定组
(10)J高脂+可定+米亚(益生菌)组
(11)K高脂+米亚(益生菌)组
1. alpha多样性:食用甘油三脂的三个剂量组的alpha多样性与对照组相比都降低了,其中甘油三脂高剂量组降低最明显。对照组和高脂组的alpha多样性相比差不多。
2. 门水平物种相对丰度:
厚壁菌门F/拟杆菌门B比例:
A4W:0.66
A12W:1.11
B4W:4.35
B12W:9.55
C4W:1.58
C12W:12.54
D4W:55.27
D12W:10.64
E4W:48.30
E12W:12.25
高中低三个剂量组中只有甘油三酯低剂量组的厚壁菌门/拟杆菌门比例在第4周比模型组低。该比值在肥胖人群中通常较高。
3. 属水平差异微生物
与对照组相比,模型组的阿克曼氏菌相对丰度显著降低,甘油三酯高中低三个剂量组中的阿克曼氏菌相对丰度均与模型组有显著差异,比对照组还高出许多,与模型组相比该有益菌的相对丰度升高得最为明显。三个剂量组的该菌第12周相对丰度也显著多于第4周。其中甘油三酯高剂量组第12周的阿克曼氏菌相对丰度在三组中最高。
甘油三酯高中低三个剂量组中的Desulfovibrionaceae_unclassified相对丰度均与模型组有显著差异,该有害菌的相对丰度在三个剂量组中均明显比对照组低。模型组与对照组相比Desulfovibrionaceae_unclassified相对丰度虽然明显较高,但模型组Desulfovibrio相对丰度比对照组低。
只有甘油三酯中剂量组的乳杆菌属的相对丰度显著大于模型组,且中剂量组乳杆菌属的相对丰度大于其阿克曼氏菌属。
总结:模型组Akk菌的下调和Desulfovibrionaceae_unclassified的升高在甘油三酯三个剂量组均被显著逆转,在甘油三酯高剂量组中,Akk菌的丰度增加了183倍。
4. 阿克曼氏菌Akk
Akk菌因小鼠食用甘油三酯而大量增加。Akk菌被报道可以有效预防高脂肪饮食HFD诱发的高脂血症,它们可以在抗超脂作用中发挥关键作用。
标签:分析,样品,样本,测序,物种,分组,丰度,16s From: https://www.cnblogs.com/99-7/p/17467726.html