从质谱样本制备到MaxQuant搜库

介绍

液相色谱-质谱串联（LC-MS/MS）是一种高效且灵敏的分析技术，广泛应用于多个领域中的化合物检测、鉴定和定量。在残留化合物检测方面，LC-MS/MS能够精确识别并测定环境样品、农产品和工业产品中残留的微量化学物质，如农药、兽药和化学品等。在有机小分子检测领域，该技术凭借其高分辨率和强选择性的特性，能够有效分离和检测复杂样品中的有机小分子，为化学研究、药物开发和环境监测等领域提供有力支持。

此外，LC-MS/MS在污染物鉴定和定量方面展现出显著优势，能够准确识别并量化环境污染物，如重金属、持久性有机污染物等，对环境保护和污染治理具有重要意义。在医药和食品领域，LC-MS/MS被广泛应用于添加剂检测和生物小分子分析。它可以帮助监测药品中的杂质、辅料和代谢产物，确保药品的安全性和有效性。同时，该技术还可以用于食品中添加剂、营养成分和生物活性物质的检测，为食品安全监管和营养健康评估提供科学依据。

LC-MS/MS一般包含五个步骤：

样本制备；
样本分离：使用液相色谱方法分离；
质谱上机：离子化、LUMOS原理、采集模式（DDA、DIA、SRM/PRM）；
质谱鉴定：谱图格式（Raw、MzXML、MGF）、搜库、打分算法、FDR质控、蛋白推断；
生信分析：谱图校验和下游数据统计分析。

步骤详解

样本制备

在提取样品中的蛋白质后，为了进行后续的质谱分析或其他蛋白质组学研究，通常会对这些蛋白质进行酶切处理。此过程中，常用的蛋白酶是胰蛋白酶（Trypsin），它能够特异性地切割蛋白质中的肽键，从而生成较小的肽段。一般来说，经过胰蛋白酶酶切处理后的肽段长度在35个氨基酸（AA）以内，这样的肽段大小适合用于质谱仪进行分析。通过酶切处理，可以将复杂的蛋白质样品转化为更易于分析和鉴定的肽段混合物。

样本分离

液相色谱包括固定相和流动相的一类分离技术，以液体作为流动相，固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料，流动相是两类液体，液体A可将肽段插入到固定相中。在不断增加液体B的浓度后，肽段可以及液体B的浓度大小呈现梯度整齐分布，最后计算肽段在液相过程的保留时间（Retention time, RT），该指标反应肽段的疏水作用，时间越长疏水效果越强。

质谱上机

质谱仪的构成简要图（Figure 4）

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

基质辅助激光解吸电离（MALDI）
电喷雾电离（ESI）

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

傅立叶变换离子回旋加速器（FT-MS）
线性离子阱(Linear ion trap)
三维离子阱(3D ion trap)
轨道离子阱(Orbitrap)
四极杆(Quadrupole)
飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

微通道板（Microchannel Plate）
电子倍增器（Electron Multiplier）
光电倍增混合管（Hybrid with photomultiplier）

质谱图谱示意图（Figure5）图解：

正面主视图是液相色谱图（以Retention Time作为X轴，intensity可认为是relative abundance作为Y轴），每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子；
侧面黑色X轴是m/Z是一级质谱图，x轴是肽段的质荷比，每一个峰表示该比值下的肽段集合；
侧面蓝色是上一步一级图谱同质荷比下的二级图谱，是分辨率更高的图谱结果；
intensity可以理解为色谱和质谱的响应强度。

数据采集模式

非靶向质谱数据采集模式：Full-scan（全扫描）、DDA（数据依赖采集）和DIA（数据非依赖采集）。

全扫描模式是将肽段一级和二级图谱分开全部扫描，所需时间较长，但获取的峰最多。
DDA数据依赖采集，根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱，但该过程可能后漏掉携带有用信息的峰；优点：DDA采用了较窄m/z窗口，二级质谱图没有干扰离子影响，搜库鉴定容易；缺点：丰度依赖，谱图采样随机性大，重复性差。
DIA数据非依赖采集，在一级图谱扫描过程不对碎裂母离子做筛选，而是设置窗口（窗口大小依据仪器和软件设定），落在该窗口内的母离子全部进入二级碎裂得到二级图谱。优点：全面获取所有离子的碎片信息。缺点：采集点多会导致谱图信息过度，难以解析。鉴定需要依赖于预先lable的DDA库。

由于DIA是一次性放了一堆母离子进来，同时碎裂，所以对于DIA来说，不是一张谱图对应一个母离子，而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此，我们不可能通过对二级谱图的解析来得到一个一个的母离子。

那我们应该如何解析呢？我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对，从中抽取出相同的二级信号，拿这些数据来进行DIA数据的定性以及相应的定量，而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

质谱鉴定

质谱的原始图谱格式通常有：

Thermo RAW（赛默飞二进制加密的图形文件，Thermo Xcalibur Browser软件查看）；

MGF（Mascot Generic Format，是常用格式但仅保留二级谱图信息，原始数据一般不能被肽段图谱比对打分软件识别，需要经过格式转换为打分软件可识别的格式）；

mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

搜库策略：软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切，接着理论肽段又会生成理论图谱，最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较，最终鉴定和定量蛋白质。（Figure7）

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切，得到肽段序列，再对肽段序列进行理论碎裂，形成理论谱图。

然后，用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分，并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

搜库质控：实验图谱和理论图谱匹配不一定正确，一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因：

蛋白质序列库不完整或者存在测序错误；

未知修饰，导致谱图难以被正确鉴定；

酶切实验的偏差，比如错切、漏切等；

母离子或子离子质量偏差；

搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段，因此需要评价肽段鉴定的可靠性，搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后，为了进行蛋白质的定性和定量鉴定，我们通常会使用带有搜库引擎的软件进行数据处理。然而，从仪器中心获得的原始质谱数据通常是Thermo RAW格式的二进制加密文件，这种格式在一般的搜库软件中是无法直接识别的。

为了解决这个问题，我们需要使用特定的工具，如Thermo Raw File Parser或MSconvert，将RAW格式的加密文件转换为搜库软件能够识别的文件格式。这些转换工具能够将原始数据转换为通用的开放格式，如mzML或mzXML，以便后续的分析和鉴定。

值得一提的是，FAIMS（Field Asymmetric Ion Mobility Spectrometry）技术在这个过程中起到了重要的作用。FAIMS技术相当于在现有的质谱图谱分级基础上，对肽段进行了再一次的分级。通过FAIMS技术，我们可以根据肽段的电迁移率差异，在电场中对其进行分离，从而进一步提高质谱数据的分辨率和信噪比。这种技术有助于我们在复杂的样品中更准确地鉴定和定量蛋白质。

PS：在获取图谱过程中，常会用到2018年才推出的FAIMS（High-Field Asymmetric Waveform Ion Mobility Spectrometry）技术以用于加载不同电压（肽段在ESI离子化后，进入质谱之前实现快速气相分离，提高分离的峰容量），直接使用多电压下的raw data做MaxQuant定量分析是错误的，MaxQuant软件只能识别单电压的raw data，因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

ThermoRawFileParser
MSconvert
FAIMS MzXML Generator

搜库软件：

免费：MaxQuant，MSGFplus，Comet（前一个最好用win版本，后两个用linux版本，然后后两个是最好用主流的质控软件）；
收费：Proteome Discoverer， Mascot；
也有基于X!Tandem算法的rTANDEM R包。

结果评估：

PTXQC R包：PTXQC包是2016年发表在J Proteome Res期刊上的R包，它主要是对MaxQuant输出结果进行提取处理从而获得评估蛋白质质量结果。
- 输入数据是MaxQuant结果文件的txt；
- 运行createReport(txt_folder)；
- 结果：
proteoQC R包

数据库

关于蛋白质数据库的选择与构建，可以归纳为以下几点：

常用数据库：来自欧洲生物信息学中心的UniProt KB数据库是目前广泛使用的蛋白质数据库。该数据库整合了蛋白质的所有信息，为全世界的研究者提供服务。
自定义数据库：除了选择公共数据库外，研究者还可以根据实际需求自行添加数据或从头开始构建蛋白质数据库。在构建过程中，通常会加入实验室常见污染物数据库，以便在后续分析中剔除这些污染物的干扰。
无对应物种数据库时的选择：如果所研究的物种没有对应的专门蛋白质数据库，研究者可以选择与该物种亲缘关系最近的物种的序列库作为参考。这种方法可以帮助研究者在缺乏直接相关数据的情况下，仍能进行有意义的蛋白质分析。

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程：

安装数据转换和搜库软件：本教程基于MaxQuant 1.6.17.0版本，该软件可从MaxQuant官网直接下载或从子目录Software直接解压获取。另外，需和仪器中心确定是否使用了FAIMS技术后，再从子目录Software中解压安装FAIMS MzXML Generator软件；

下载蛋白质数据库：Database子目录下已下载23/2/2021年的human的Uniprot蛋白质数据，或者直接上Uniprot官网下载(1.进入官网，选择Proteomes；2.以human作为关键字搜索后，选择Organism的Homo sapiens后进入；3.进入下图后选择Download按钮以FASTA格式下载数据即可)；

转换原始数据格式：若使用FAIMS技术，则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件，否则跳过该步骤；

搜库鉴定蛋白质：我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质，在运行前，需要配置好一下参数和注意以下事项：
- Raw data功能项导入图谱数据(mzXML)，可通过最右侧功能栏设置样本的名称和分组等信息；

* Group-specific parameters：
    
    - "Modifications"：选择样本相关的修饰（LabelFree增加Deamidation(NQ)、Gln->pyro-Glu）；
    
    - "Instrument"：MaxQuant会自动选择机器类型，也可以手动修改，参数选择软件默认的即可；
    
    - "digestion"：选择默认的Trypsin/P；
    
    - "Label-free quantification"：选择LFQ及其默认参数。

* Global parameters：（其他参数选择默认参数即可，也可根据实际情况自行设置）
    
    - "Sequence"：选择"Add"导入蛋白质fasta文件，并点"Identifier"，选择"Up to first space"；
    
    - "Identification"：选择Match between runs；
    
    - "Label-free quantification"：选择iBAQ；
    
    - "Folder locations"：可自行设置Combined结果的输出路径也可使用默认。

* 在设置完所有参数后，点击上面File选择保存parameters files，方便下次重复运行。

* 完成保存设置参数文件后，最左下方提供选择CPU数目，一般设置电脑total(CPU) -1的数目。设置完成后，可在电脑空闲时候选择Start，即可在Performance界面看到软件在运行的状态。

结果

MaxQuant是一款强大的蛋白质组学数据分析软件，它能够完成蛋白质的定性和定量分析。当MaxQuant完成分析后，会生成一个名为“combined”的目录。在这个目录下，有一个名为“txt”的子目录，其中包含了多个文本文件。特别地，proteinGroups.txt文件就是蛋白质结果文件，它包含了所有经过MaxQuant分析后得到的蛋白质组信息。这个文件是蛋白质组学研究中非常重要的输出之一，可以用于后续的生物学解释和数据分析。

致谢

非常感谢张同学在他的seminar中分享的PPT内容。本文中的许多图片和知识点都源自于他的精彩展示，这对我来说非常有帮助。我再次向张同学表示衷心的感谢。

参考

标签：数据分析,MaxQuant,搜库,代谢,质谱,CSDN,蛋白质
From： https://www.cnblogs.com/bioinformatics-hua/p/18493871