09 CAZyDB数据库

1、介绍

CAZyDB指的是“碳水化合物活性酶集合数据库”（Carbohydrate-Active Enzymes database），是一个搜集和分类所有已知的碳水化合物活性酶（CAZY）的公共数据库。它包括各种共同作用于结构多样的寡糖、多糖和其他复杂的碳水化合物的酶类。该数据库组织了与这些酶相关的结构、进化信息以及反应机理的详细描述，并提供有关分布于不同生物种中的这些酶的系统学信息。

在宏基因组分析中，使用CAZyDB可以通过在元基因组序列数据中捕获CAZY基因来揭示群落代谢能力的差异。将该数据库与高通量测序技术相结合，可以帮助研究人员确定环境样品中硬度多糖的具体降解情况，或预测微生物类型和丰度，这对于探究微生物的生态功能和群落演替具有重要意义。

在宏基因组分析中，可以利用CAZyDB数据库来预测微生物类型和丰度。CAZyDB是一个专门用于糖类酶和相关蛋白质的分类和注释的数据库。

假设我们想要研究一个环境样品中纤维素降解菌群的组成和丰度。我们可以将这个样品进行高通量测序，生成大量的DNA序列数据。

首先，我们需要对这些DNA序列进行过滤和拼接，并使用相应的工具对其进行剪枝、去冗余和质量控制等处理，得到完整的DNA序列数据集。

接下来，我们可以利用CAZyDB数据库，使用一些常见的纤维素降解相关的糖类酶家族标记序列，例如GH5、GH9和GH45等，从我们的DNA序列数据中检索出所有含有这些标记序列的糖类酶基因，并将它们用作特定微生物的代表性标记。

然后，我们可以将这些代表性标记映射回到CAZyDB数据库中，确定它们对应的微生物种类，并估计它们在样品中的相对丰度。这可以通过计算每个微生物代表性标记在数据中找到的次数来实现。

最终，我们可以使用这些信息来确定样品中不同微生物群落的种类和相对丰度，以进一步了解在纤维素水解过程中微生物群落的作用。

2、数据库介绍

CAZyDB是一个广泛使用的数据库，其中包含关于碳水化合物活性酶家族(CAzymes)的信息，这些酶能够催化多种生物过程中的糖类反应。该数据库提供了各种工具和资源，用于对CAZymes进行注释、分类和分析，已经成为在宏基因组学等领域中进行CAZyme注释的主要工具之一。

在CAZyDB的最新版本中 (2020年7月31日版本)，CAZyDB.07312020.fa作为该数据库的核心数据之一，提供了来自590个细菌、真菌和原生生物组织的448,495个序列，这些序列与确定的188种CAZyme模块（如糖苷酶、纤维素、木聚糖酶等）相关联。这些序列是通过手动混合晶体、转录组和宏基因组测序等技术收集而来，并在数据库内进行高质量的序列聚类和注释。 CAZyDB.07312020.fa提供了科研人员进行CAZyme定位、特异性和功能鉴定等相关研究所需的有价值的基础数据。

CAZy是糖类酶家族(Carbohydrate-Active enZYmes)，是一种广泛存在于生物体中、参与复杂碳水化合物代谢的酶类。而CAZyDB则是一个网络数据库，存储了大量关于糖类酶家族的信息，包括序列，结构和功能等。

CAZyDB中的“CAZyDB.07302020.fam-activities.txt”是一个文本文件，其中包含有关不同CAZy家族成员预测活性的信息。每行表示一个家族及其可能的活性。例如：

AA1_3 cellobiose dehydrogenase
AA10_1 LPMO-activity

其中，“AA1_3”表示糖类氧化酶家族1的第3个亚家族；“cellobiose dehydrogenase”表示这个亚家族的可能活性为“β-葡萄糖苷酶（β-glucosidase）”；“AA10_1”表示AA10家族的第1个亚家族；“LPMO-activity”表示这个亚家族的可能活性为“木质素单加氧酶（LPMO）”。

通过CAZyDB中的这个文件，我们可以根据一个糖类酶家族的名称或标识符，预测其可能的功能和活性，进而更好地理解和分析其在宏基因组数据中的分布、多样性和生态功能。

3、命令分析

grep -v '#' CAZyDB.07302020.fam-activities.txt |sed 's/ //'| sed '1 i CAZy\tDescription' > CAZy_description.txt # 提取fam对应注释

这段代码是在宏基因组分析中使用了两个命令 grep 和 sed 来处理文件 CAZyDB.07302020.fam-activities.txt。下面是对每个命令作用的解释：

grep -v '#' CAZyDB.07302020.fam-activities.txt ：表示从 CAZyDB.07302020.fam-activities.txt 中读取内容， -v 表示反向查找，也就是排除所有包含 # 的行。它会把不包含 # 的行筛选出来。
sed 's/ //'：表示用一个空格替换数据文本中所有连续的两个空格。
sed '1 i CAZy\tDescription'：表示在文本的第一行（1) 前插入一个新的行,其中\t是用于制表符而非空格，新添加的行上为 "CAZy" 和 "Description" 列名。这里用\ i 插入。
> CAZy_description.txt：表示将最终结果重定向输出到一个新的txt文件 CAZy_description.txt中。现在该文本文件包含了经过筛选、转换的信息以及新添的列名。

diamond blastp --db /media/database/CAZyDB/CAZyDB.07312020 --query out_pro.fa --threads 10 -e 1e-5 --outfmt 6 --max-target-seqs 1 --quiet --out ./gene_diamond.f6

这个命令行用于使用Diamond程序将fasta格式的蛋白质序列与CAZyDB数据库中的序列进行比较，输出比对结果。

具体参数解释如下：

diamond blastp: 使用Diamond程序进行蛋白质比对。
--db /media/database/CAZyDB/CAZyDB.07312020: 指定比对数据库为/media/database/CAZyDB/CAZyDB.07312020。
--query out_pro.fa: 指定待比对序列文件为out_pro.fa。
--threads 10: 指定线程数为10。
-e 1e-5: 指定期望值阈值为1e-5，小于此值的比对结果会输出到结果文件中。
--outfmt 6: 指定输出格式为tab分隔的表格格式。
--max-target-seqs 1: 每个查询序列最多匹配一个参考序列。
--quiet: 静默模式，只在错误情况下打印消息。
--out ./gene_diamond.f6: 结果输出到gene_diamond.f6文件中

perl ./format_dbcan2list.pl -i gene_diamond.f6 -o gene.list # 提取基因与dbcan分类对应表

这段代码是一个perl命令行的脚本，用于将钻石(Diamond)比对出来的基因序列文件(gene_diamond.f6)转换为一个列表形式的文件(gene.list)，在CAZyDB数据库中进行宏基因组分析时有用。

具体来说，这个脚本("format_dbcan2list.pl")会读取gene_diamond.f6文件，并将其中每个基因的名称、DLC(最佳可达性结构域)、E值(E-value)和相应的CAZy家族分类信息提取出来，然后将其放入gene.list文件中。这使得基因序列可以更方便地在CAZyDB数据库中进行进一步分析和解释。

这行代码是在宏基因组分析中使用CAZyDB进行基因计数的脚本。下面是每个选项的含义：

-i gene.count：输入文件的路径和名称。该文件包含每个基因的计数。
-m gene.list：CAZyDB数据库文件的路径和名称。该文件包含基因列表。
-c 2：列索引。表示要对哪一列的计数求和。在这个例子中，是第二列。
-s ','：分隔符。指定了输入文件中的字段分隔符。在这个例子中，为逗号。
-n raw：命名空间。指定了输出文件的名称和命名空间。
-o ./TPM：输出目录。指定了输出文件的目录路径。

该脚本的作用是根据CAZyDB数据库中提供的基因列表，将输入文件中的基因计数进行归一化，并输出到指定的输出目录中。这里使用的是基于TPM (transcripts per million) 归一化方法。

4、结果分析

这是一份针对CAZy数据库进行diamond blastp比对的结果，其参数设置为-e 1e-5、--max-target-seqs 1等。每行代表一个比对结果，共有11条。

每一行的含义如下：

列1：序列名
列2：匹配到的数据库记录 ID （包括了家族类别）
列3：相似度（百分比）
列4：比对长度
列5：不匹配的碱基/氨基酸数目
列6：间隙数目
列7：查询序列的起始位置
列8：查询序列的终止位置
列9：数据库记录的起始位置
列10：数据库记录的终止位置
列11：E-value
列12：比对得分

根据数据可知，每个序列都被比对到了至少一个CAZy数据库中的记录中，并且具有相应的匹配和相似度指标。其中第7-10列展示了查询序列与数据库记录之间的比对位置信息，第11-12列评价了比对的置信度和质量。

此外，需要结合实验/研究特定的问题和背景来对这些比对结果进行更深入的解释和分析。

这个结果是根据一个叫做gene_diamond.f6的文件生成的，使用了format_dbcan2list.pl这个perl脚本。它将输出结果保存在gene.list文件中。

这个结果包括了不同基因的名称和对应的CAZy家族（Carbohydrate-Active enZYmes）类别，CAZy是一种用于描述碳水化合物代谢酶的命名系统。每个基因都有一个唯一的标识符，并且与其对应的CAZy家族（CBM50、GT66等）一起显示。

更具体地说，这个结果给出了每个基因所编码的碳水化合物酶的类型，例如CBM（Carbohydrate-Binding Modules）、GH（Glycoside Hydrolase）、GT（Glycosyltransferase）和其他类型的酶。这些信息对于研究微生物的碳水化合物代谢能力以及其在环境中的角色非常重要。

###############################################################################################################

mkdir CAZyDB

# 下载序列和描述
wget -c http://bcb.unl.edu/dbCAN2/download/CAZyDB.07312020.fa
wget -c http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07302020.fam-activities.txt

diamond makedb --in CAZyDB.07312020.fa --db CAZyDB.07312020

# 提取fam对应注释
grep -v '#' CAZyDB.07302020.fam-activities.txt |sed 's/ //'| sed '1 i CAZy\tDescription' > CAZy_description.txt

###位置 /media/ym/desk16/xiaxy/database/CAZyDB

diamond blastp --db /media/database/CAZyDB/CAZyDB.07312020 --query out_pro.fa --threads 10 -e 1e-5 --outfmt 6 --max-target-seqs 1 --quiet --out ./gene_diamond.f6

# 提取基因与dbcan分类对应表
perl ./format_dbcan2list.pl -i gene_diamond.f6 -o gene.list

#按对应表累计丰度
python ./summarizeAbundance.py -i gene.count -m gene.list -c 2 -s ',' -n raw -o ./TPM

####################################################################################################################

标签：CAZy,--,数据库,09,CAZyDB,序列,gene
From： https://www.cnblogs.com/wzbzk/p/17397583.html

相关文章

赞助商

阅读排行