技术领域
[0001] 本公开涉及对样品中存在的物质进行量化,由第一分离器(例如,色谱分离器或离子迁移分离器)在时间参数上将该样品分离成组成分析物,然后该组成分析物通过质谱仪进一步分析。这可以体现在方法、计算机程序、用于质谱分析系统的控制器和/或质谱分析系统中。
相关背景技术
[0002] 质谱分析数据的软件分析在对样品中存在的物质进行识别和量化方面越来越有n益。MS1数据的分析通常被认为比MS数据的分析更直接,并且数据非依赖采集(DIA)数据的分析可能甚至更复杂。质量分析可以在初始分离阶段之后进行,例如使用色谱分离器,包括气相色谱‑质谱联用仪(GC‑MS)或液相色谱‑质谱联用仪(LC‑MS),或者通常称为离子迁移谱‑质谱联用仪(IMS‑MS)的离子迁移分离器。这仅增加了分析工作流程的复杂性。
[0003] 通常,存在两种主要的DIA数据分析方法。第一种方法使用基于数据库的搜索引擎,该基于数据库的搜索引擎通常用于分析数据依赖采集(DDA)数据。第二选项是定向分析,也称为SWATH‑MS(所有理论碎片离子质谱的顺序窗口采集)。这些数据分析算法主要侧重于样品识别,但也考虑了量化。
[0004] WO‑2009/146345讨论了将前体离子与一种或多种相关产物离子匹配。从多次注入获得包括关于前体离子的信息的数据集,然后根据单个保留时间进行归一化。通过确定哪些产物离子在相对于单个保留时间的预定保留时间窗口内,此类产物离子的存在允许建立它们与前体离子的关系。
[0005] WO‑2012/035412涉及使用多种产物离子来表征未知样品化合物。色谱峰保留时间可以在产物离子之间进行关联,以提高识别率。
[0006] 针对量化的典型现有方法使用单个原始数据样品(或单个事件)基础。例如,Barkovits、Katalin等人“使用基于光谱库的数据非依赖采集的相对量化的可重复性、特异性和准确性(Reproducibility,specificity and accuracy of relative quantification using spectral library‑based data‑independent acquisition)”(《分子与细胞蛋白质组学(Molecular Cellular Proteomics)》19.1(2020):181‑197)讨论了对用于肽识别和量化的合适光谱库的选择。Searle、Brian C.等人“使用经验校正的肽预测为DIA MS生成高质量文库(Generating high quality libraries for DIA MS with empirically corrected peptide prediction)”《( 自然通讯(Nature communications)》
11.1(2020):1‑10)描述了使用经验数据的文库生成,诸如碎裂和保留时间预测。Demichev、Vadim等人“DIA‑NN:神经网络和干扰校正实现高通量的深度蛋白质组覆盖(DIA‑NN:neural networks and interference correction enabledeep proteome coverage in high throughput)”(《自然方法(Nature methods)》17.1(2020):41‑44)描述了通过选择与其相应产物离子配偶体最佳相关的色谱产物离子峰值来去除干扰产物离子。
[0007] 因此期望改进质谱分析数据的分析以便提供对样品内的物质的更准确量化。在以下情况下尤其如此:首先将样品分离成组成分析物,然后对组成分析物中的每种组成分析物进行质量分析。
具体实施方式
[0031] 首先参考图1,示意性地描绘了根据本公开使用的质谱分析系统。质谱分析系统10接收样品5并且包括:第一分离器20;质谱仪30;以及控制器40。质谱仪30包括:至少一个离子光学设备32(例如,离子导向器、离子阱和/或离子选择器或过滤器);碰撞室34;质量分析器36;以及检测器38。可选地,质量分析器36和检测器38可以组合成单个设备。
[0032] 第一分离器20将样品5分离成组成分析物。该分离随时间发生,其中不同组成分析物在不同时间从第一分离器20输出。因此,存在与第一分离器20相关联的时间参数,每种组成分析物具有针对该时间参数的不同对应值(或范围)。
[0033] 优选地,第一分离器20是色谱分离器,例如气相色谱(GC)装置或液相色谱(LC)装置,使得时间参数可以是保留时间(RT)。然后,质谱分析系统10可以是GC‑MS或LC‑MS系统。在此类情况下(以及可选地与其他类型的分离器一起),质谱仪30还包括离子源31,该离子源有利地被配置为从第一分离器20接收分离的分析物(流出物或洗出液)并且从所接收的分离的分析物产生离子。
[0034] 另选地,第一分离器20可以是离子迁移谱仪(IMS),使得时间参数可以是漂移时间(例如,在漂移管型或行波型离子迁移分离的情况下)或保留时间(例如,在俘获离子迁移分离(TIMS)的情况下)。然后,质谱分析系统10可以是IMS‑MS系统。第一分离器20然后可以包括离子源(未示出),并且在这种情况下第一分离器20的输出包括离子。因此,质谱仪30不需要包括离子源31,并且离子源31因此在图1中被示出为可选的。
[0035] 控制器40被配置为控制第一分离器20和质谱仪30的操作。另外,控制器40接收来自检测器38的质谱数据。可选地,控制器40还可以从第一分离器20接收数据。因此,控制器可以使得质谱分析系统10运行实验,并且然后接收实验的结果以用于分析。该分析可以由控制器或外部处理器或处理系统(未示出)执行。控制器40通常是单个设备,但是它可以包括通常一起操作的多个部分。
[0036] 如上文所讨论的,根据本公开的方法对于分析来自DIA MSn(通常为MS2)实验的质谱数据而言尤其是有利的。在这种情况下(并且由控制器40控制),操作质谱分析系统10以将样品5分离成一种或多种组成分析物,每种组成分析物具有时间参数的相关范围。因此,单个组成分析物可以在时间参数的范围内从第一分离器20输出,因此导致组成分析物从第一分离器20的多次输出。具有相关联的时间参数的组成分析物的每个输出然后被提供给质谱仪30,在该质谱仪中,该组成分析物在碰撞室34中被碎裂,由质量分析器36分析,其中质谱数据由检测器38检测。质谱数据然后被传达到控制器40。每次质量分析通常指示多个碎n片,每个碎片处于不同的质荷比(m/z)并且具有对应的检测强度。这被称为MS质谱。结果,n n
控制器40接收多个MS 质谱,每个MS质谱与来自第一分离器20的一个或多个输出组成分析物有关(并且因此具有相关联的时间参数)。通常,针对每种单个输出组成分析物获得多个n n
MS质谱。换句话说,在每种组成分析物的输出期间获得多个MS质谱。
[0037] 可选地,也可以针对每种单个输出组成分析物获得多个MS1质谱,即,可以在每种组成分析物的输出期间获得多个MS1质谱。
[0038] 通常通过首先在质谱上使用DIA识别工具进行量化,以进行一种或多种组成分析物化合物的初始识别。每次化合物识别提供了该时间参数的点(例如,保留时间点),在该点处已经检测到该化合物以及检测到的产物(即,碎片)离子的列表。该列表可以是详尽的,或者仅仅是最强或最准确的检测产物(碎片)离子的选择。
[0039] 然后,通过以该组产物(碎片)离子的特定m/z和时间参数值为目标,从MSn分析中恢复峰值是可能的。例如,针对由DIA识别工具确定的时间参数的点,可以在产物(碎片)离子的特定m/z值(可选地服从用户定义的或自动估计的容差)处获得该组产物离子的强度。然后,针对在时间参数的相邻值处的光谱,可以检索相同m/z值的强度(再次,可选地服从用户定义的或自动估计的容差)。然后可以重复该检索过程直到达到最小数量的光谱min_s(通常,min_s=5)。在这样做时,可以在时间参数上关联或匹配同一碎片的强度测量结果(基于m/z值或范围)。
[0040] 该数据可以用图形表示。参考图2,绘制了来自DIA分析的三个示例性碎片(每个碎片对应于各自的m/z范围)的测量强度相对于时间的峰值。对应于第一碎片的第一峰值61相对较低(强度大约为3500),其中峰值位置在时间轴上大约为31.58。对应于第二碎片的第一峰值62相对较高(强度大约为32000),其中峰值位置在时间轴上大约为31.57。对应于第三碎片的第三峰值63具有中间强度(大约18000),其中峰值位置在时间轴上大约为31.64。所有三个峰值存在于大约相同的保留时间范围内。
[0041] 期望使用来自这三个峰值的信息来对这三个碎片似乎所源自的物质进行量化。可以通过在时间参数的特定范围内对所鉴别的产物离子的峰值强度求和来进行量化。对所有峰值使用相同的范围是有益的。识别指向时间参数范围上的相对任意点(例如,化合物洗脱的特定时间),这可能不是峰值保留或甚至不是指示合适的范围。
[0042] 返回参考图2,示出了从大约31.53到大约31.62的时间参数的所选择的范围65。来自第一峰值61、第二峰值62和第三峰值63的落入所选择的范围65内的数据点被突出显示。因此期望改进范围65的选择。第二峰值62比第一峰值61稍早地开始。第三峰值63在比第一峰值61和第二峰值62明显更迟的时间开始。还可以看出,第三峰值63的峰值位置稍微不同于第一峰值61和第二峰值62的峰值位置(换句话说,第三峰值63从其他两个峰值偏移)。因此,不清楚对应于第三峰值63的碎片是否来源于与对应于第一峰值61和第二峰值62的相应碎片相同的物质(亲体或前体离子)。
[0043] 已经确定可以使用数学方法来解决这些问题。具体而言,可以使用峰值品质因子(PQF)算法来客观地和量化地评估时间参数的所选择的范围上的每个峰值的品质。更典型地,可以使用多个PQF算法,例如如在“MetaClean:基于机器学习的分类器用于非指定目标LC‑MS代谢组学数据中减少的假阳性峰值检测(MetaClean:a machine learning‑based classifier for reduced false positive peak detection in untargeted LC–MS metabolomics data)”,Chetnik等人,《代谢组学(Metabolomics)》16(2020):1‑13中所讨论的。因此,选择使PQF算法的结果最大化的时间参数的范围可以允许改进对峰值和物质的量化。
[0044] 最初可以仅将来自时间参数的有限范围的数据提供给量化算法。因此,该算法可理想地从相邻时间参数点的质谱中检索离子产物强度。PQF算法还可以通知检索附加数据的方向(关于时间参数的向上和/或向下)以及何时停止检索。该过程可以在实验的所有样品中的相同化合物的所有识别上同时运行,这可以确保在所有样品中使用同一组产物离子。当PQF算法的输出确定产物离子的峰值在样品中的任何样品上不具有足够的(用户定义的)品质时,这允许从所有样品中丢弃产物离子。如果用户需要(换句话说,多个样品使用相同的宽度或范围),这也允许为所有样品定义固定的时间参数范围(或至少宽度)。
[0045] 现在参考图3,示出了根据本公开的第一过程的框图。出于进行物质量化的目的,该过程专门用于选择时间参数的范围。在初始步骤100中,质谱仪提供(或控制器从质谱仪检索)包括针对一种或多种组成分析物中的每种组成分析物的质荷比的强度测量结果的数据。如上所述,每种组成分析物在每个选定的质荷比下的测量强度与时间参数的关系定义了相应峰值(如图2所示)。通常,从DIA实验获得数据,其中已经获得作为时间参数的函数的2
多个MS光谱,例如用于GC‑MS或LC‑MS的保留时间(RT)。结果,通常存在多个峰值(每个峰值对应于不同的m/z值或范围),每个峰值对应于组成分析物中的一种组成分析物的特定碎片。
[0046] 有利地,首先运行可选的识别步骤105。这使用了(已知的)识别算法来处理接收到的数据,以便确定数据中化合物的身份。每次识别可以优选地包括所识别的亲本离子的多2
种(n)产物或碎片离子的m/z比的列表。已知的算法通常允许在MS 光谱的任何一个(但通常
2 2
仅一个)MS光谱内进行每次识别。所使用的MS光谱不一定是对应于随时间的强度峰值的顶
2 2
点的MS 光谱。通常,在MS光谱中以时间参数的任意选定值进行识别,该时间参数可以被称为基准时间(t0)。因此,假定所识别的亲本离子(以及其对应的起始化合物)包括在时间参数的该值下识别的所有碎片。
[0047] 在PQF步骤110中,对在时间参数的所选择的范围内聚集的所检索的数据执行一种或多种PQF算法,以确定PQF结果。所选择的范围期望地包括最小数量的数据点,通常至少5个数据点。为了实现这一点,所选择的范围通常被设置为包括:基准时间(t0);基准时间(t0)之前的两个数据点,即t‑1和t‑2;以及基准时间(t0)之后的两个数据点,即t1和t2。优选丢弃强度低于这些第一最小数量的数据点的预定阈值(例如,5)的峰值中的任何峰值,因为通常需要最小数量的数据点来评估碎片的峰值特性。
[0048] 然后在验证步骤120中将PQF结果与至少一个PQF标准进行比较。一个或多个PQF算法因此可以确定每个峰值形状是否足够好或者产物离子是否不产生用于量化的良好峰值。平坦度检测器算法可以形成PQF算法的一部分,以确定何时在任一方向上或两个方向上都达到了峰值边界。因此,至少一个PQF标准可以包括确定具有足够品质(根据PQF结果)的阈值最小数量的峰值(min_peak)是否可用于量化。该阈值可以是用户定义的或自动定义的。
另一标准可以涉及PQF结果的优化(例如,最大化)。
[0049] 如果不满足至少一个PQF标准,则采用范围改变路径124到达范围改变步骤130。在范围改变步骤130中,确定如何改变时间参数的所选择的范围。例如,时间参数的所选择的范围可以在该范围的一端或两端延伸(例如,包括t‑3和/或t3),在该范围的一端或两端减小,或者在一端延伸而在另一端减小。使用多个PQF算法可以允许做出此类决定。然后相应地更新时间参数的所选择的范围。如上所述,需要最小数量的数据点来评估碎片的峰值特性。因此,如果所选择的范围的变化导致碎片具有不足以满足最小值的高于阈值水平的数据点,则优选地忽略该碎片。
[0050] 基于时间参数的更新的所选择的范围,可以检索额外的数据。这在检索步骤135中完成。应当理解,这并不总是需要的,因此该步骤是可选的(由虚线轮廓指示)。
[0051] 该过程然后通过重复PQF步骤110而继续,但是现在具有时间参数的更新的所选择的范围。应当理解,如果不满足在验证步骤120中考虑的至少一个PQF标准,则该循环可以重复多次。期望可以参考基准时间(t0)在时间上向前和向后调整所选择的范围。
[0052] 如果满足在验证步骤120中考虑的至少一个PQF标准(例如,优化PQF结果和/或满足任何一个或多个其他标准),则采取量化路径126。在量化步骤140中,基于时间参数的所选择的范围(如果适当的话,如紧接在范围改变步骤130中所更新的)来对物质进行量化。这可以通过对由更新的所选择的范围限定的边界之间的剩余碎片的强度进行求和来实现。
[0053] 上述方法侧重于确定用于在量化中使用的时间参数的范围。还考虑被选择用于包括在量化中的碎片。然而,这不是该方法的主要重点。在优选地与上述方法组合的另一方法中,主要重点是在量化中包括哪些碎片。
[0054] 一般来说,可以考虑一种对样品中存在的物质进行量化的方法。由第一分离器在时间参数上将样品分离成组成分析物。然后通过质谱仪进一步分析组成分析物。在实践中,可以在时间参数的范围内(在时间范围内)从第一分离器提供(输出)一种组成分析物。因此,质谱仪可以提供关于每种组成分析物的多个质谱。
[0055] 在一个示例中,样品包括(或是)液相或气相样品。然后,第一分离器可以是色谱分离器并且时间参数涉及保留时间。在这种情况下,组成分析物是在不同的保留时间从色谱分离器中分离出的组分,并且通过电离每种分析物以提供离子来由质谱仪进一步分析组成分析物。然后通过以下方式在质谱仪中分析被电离以提供离子的组成分析物:处理离子,特别是通过碎裂;并且对所处理的(碎片化)离子进行质量分析。
[0056] 另选地,样品包括(或者是)样品离子的混合物,并且第一分离器是离子迁移分离器。然后,时间参数涉及漂移时间或保留时间,并且组成分析物是样品离子的混合物的组成离子。这些样品离子还可以被处理(例如,通过碎裂),并且然后对所处理的(碎片化)进行质量分析。
[0057] 在任何情况下,峰值中的每个峰值可以通常对应于来自组成分析物的DIA MSn(例2
如,MS)分析的相应碎片离子。
[0058] 在根据第一方面的方法中,从质谱仪接收针对一种或多种组成分析物中的每种组成分析物的质荷比的强度测量结果。对于每种组成分析物,在一个或多个所选择的质荷比中的每个所选择的质荷比处的测量强度与时间参数的关系限定了相应峰值。在实施方案中,所选择的质荷比(其可以是质荷比范围)可以基于碎片来确定。然后,基于一个或多个峰值中的每个峰值的相应峰值品质因子来确定用于对物质进行量化的时间参数的特定范围,该峰值品质因子取决于时间参数的范围。通常,可以使用多个峰值品质因子,其中每个峰值品质因子可以提供峰值的统计度量,例如在峰值清晰度、对称性或其他形状特征方面。
[0059] 优选地,识别了对应于至少一个峰值(并且通常是每个峰值)的物质和/或化学成分(在接收测量数据之后)。在后一种情况下,至少一个峰值的一个或多个所选择的质荷比可以对应于所识别的化学成分。峰值和/或物质的识别可以帮助确定每个峰值的时间参数的起点和/或初始范围。
[0060] 有益地,每个峰值包括至少预定数量的强度测量结果,通常为至少5个强度测量结果(但可选地为7个、9个或11个)。可以忽略具有少于预定数量的强度测量结果的峰值。
[0061] 可选地,可以使用平坦度检测算法来进一步确定时间参数的特定范围。这可以允许确定每个峰值的全部范围是否被时间参数的所选择的范围捕获。
[0062] 在一些实施方案中,确定时间参数的特定范围包括:相对于时间参数的第一范围为一个或多个峰值中的每个峰值建立相应第一峰值品质因子;并且相对于时间参数的第二范围为一个或多个峰值中的每个峰值建立相应第二峰值品质因子,时间参数的第二范围比时间参数的第一范围更窄或更宽。然后,可以基于一个或多个第一峰值品质因子和一个或多个第二峰值品质因子来确定用于对物质进行量化的时间参数的特定范围。例如,一个或多个第二峰值品质因子和一个或多个第一峰值品质因子之间的变化可以指示时间参数的特定范围应当是时间参数的第一范围、时间参数的第二范围、低于时间参数的第一范围、高于时间参数的第二范围还是在时间参数的第一范围和时间参数的第二范围之间。
[0063] 有利地,可以基于一个或多个第一峰值品质因子(例如,如果一个或多个第一峰值品质因子太低,则与时间参数的第一范围相比增加时间参数的第二范围)和/或基于预定微分因子(例如,与时间参数的第一范围相比在时间参数的第二范围中的步进增加或减少)来选择时间参数的第二范围。
[0064] 并非确定一个或多个第二峰值品质因子所需的所有数据都可以进行初始评估。例如,针对一种或多种组成分析物中的每种组成分析物的针对质荷比的所接收的强度测量结果可以是针对时间参数的第一范围的初始强度测量结果。然后,在时间参数的第二范围比时间参数的第一范围更宽的情况下,可以评估针对一种或多种组成分析物中的质荷比的附加强度测量。在这种情况下,初始强度测量结果和附加强度测量结果可以一起覆盖时间参数的第二范围。然后,可以基于初始强度测量结果和附加强度测量结果来建立一个或多个峰值中的每个峰值的相应第二峰值品质因子。
[0065] 在优选的实施方案中,通过重复建立与时间参数的第二范围相关的一个或多个峰值中的每个峰值的相应第二峰值品质因子的步骤来迭代地确定时间参数的特定范围。优选地,时间参数的每个第二范围逐渐变宽(使得时间参数的范围迭代地增加,直到发现峰值品质因子满足设定的一个或多个标准)。
[0066] 时间参数的特定范围可以通过根据一个标准(或多个标准)来评估一个或多个峰值中的每个峰值的相应峰值品质因子来确定。时间参数的特定范围可以基于满足的标准来确定。
[0067] 优选地,基于(求和)落入所确定的特定范围内的一个或多个峰值中的每个峰值的强度测量结果来对物质进行量化。
[0068] 可选地,时间参数的所确定的特定范围可以用于对来自不同样品的相同物质进行量化。
[0069] 现在参考图4,沿着这些线示出了第二过程的框图。出于进行物质量化的目的,该过程专门用于确定所包括的碎片。在初始步骤200中,质谱仪提供(或控制器从质谱仪检索)包括针对一种或多种组成分析物中的每种组成分析物的质荷比的强度测量结果的数据。在这种情况下,必然存在多个峰值(每个峰值针对不同的m/z值或范围)。这通常发生在考虑组2
成分析物中的一种组成分析物的碎片(例如,来自DIA MS)时,但也可能存在其他情况,即考虑对物质的多个峰值进行量化。
[0070] 有利地,首先运行可选的识别步骤205。这在上文参考图3中的识别步骤105进行了讨论,因此为了简洁在此不再重复。基于初始步骤200或基于可选的识别步骤205来识别初始的一组峰值以用于量化。
[0071] 在评估步骤210中,对所识别以用于量化的峰值进行评估。这种评估有两个选项。第一选项是对在时间参数范围内聚集的检索数据执行一种或多种PQF算法。第二选项是确定共同峰值位置。这可以通过统计量度来建立,例如确定平均值,其可以包括峰值位置的平均值、中值或众数。这两个选项可以一起使用。
[0072] 然后在验证步骤220中将评估结果与至少一个标准进行比较。例如,可以将每个峰值的一个PQF算法(或多个PQF算法)的结果与阈值进行比较。另外地或另选地,可以将峰值中的每个峰值的峰值位置与所确定的共同峰值位置进行比较。可以针对峰值位置与所确定的共同峰值位置之间的间距对阈值进行预先确定,使得标准可以包括超过阈值的间距。例如,峰值中的一个峰值可以是源自另一亲本离子的干扰峰值。时间参数域中的分离可以足以识别应当从量化中排除峰值。
[0073] 如果不满足至少一个标准,则采用峰值重新选择路径224到达峰值去除步骤230。在峰值去除步骤230中,从先前识别以用于量化的那些峰值中选择至少一个峰值以进行忽略。这通常是基于评估步骤210确定的。例如,如果峰值不满足基于PQF的标准(阈值)和/或具有与所确定的共同峰值位置相距至少(或大于)阈值的峰值位置,则从所识别以用于量化的一组峰值中选择该峰值以进行忽略。
[0074] 该过程然后通过重复评估步骤210而继续,但是现在具有所识别以用于量化的更新的一组峰值。应当理解,如果不满足在验证步骤220中考虑的至少一个标准,则该循环可以重复多次。
[0075] 如果满足在验证步骤220中考虑的至少一个标准(例如,所有峰值具有足够的PQF和/或所有峰值的峰值位置不超过(或小于)来自所确定的共同峰值位置的阈值),则采用量化路径226。在量化步骤240中,基于如在过程期间更新的所识别以用于量化的一组峰值来对物质进行量化。这可以通过将所识别以用于量化的一组峰值中的碎片的强度进行求和来实现,特别是在由所选择的时间范围限定的边界之间。
[0076] 有利地,这两个过程可以同时或依次进行。结果,出于量化目的,可以确定所选择的时间范围和所选择的一组峰值。
[0077] 在任一种或两种方法中,用于对一种样品进行量化的结果(所选择的时间范围和/或所选择的一组峰值)有益地用于对另一样品中的相同物质进行量化。例如,如果在多个实验运行中处理了多个样品复制品,则这可以适用。这可以确保运行之间的一致量化。
[0078] 返回到上文所讨论的一般术语,可以考虑另一方面(其可以与本文所公开的任何其他方面组合)。在该方面,也可以考虑一种对样品中存在的物质进行量化的方法。如上文所讨论的相同考虑可以适用于该方面。
[0079] 在该方法中,从质谱仪接收针对一种或多种组成分析物中的每种组成分析物的质荷比的强度测量结果。对于每种组成分析物,在多个所选择的质荷比中的每个所选择的质荷比处的测量强度与时间参数的关系限定了相应峰值。换句话说,接收了关于多个所选择n的质荷比的峰值。例如,这些可以各自表示来自相同物质的碎片(例如,在DIA MS实验中)。
[0080] 可以为峰值中的每个峰值确定相应峰值品质因子。峰值品质因子取决于时间参数的范围。优选地,可以为峰值中的每个峰值确定多个峰值品质因子。上文已经讨论了关于峰值品质因子确定的可选方面和/或具体实施的进一步细节,并且在这里同样适用。另外地或另选地,为峰值中的至少一些峰值确定关于时间参数的共同峰值位置。然后,基于所确定的峰值品质因子和/或所确定的共同峰值位置来选择峰值的子集以用于对物质进行量化。
[0081] 以这种方式,基于它们的特性(特别是峰值的质量和/或峰值是否通过共同(最大)位置对准)来确定被选择用于对物质进行量化的峰值。可以例如通过平均、加权平均或启发式算法来在统计上确定共同峰值位置。品质差的峰值和/或偏移峰值可以指示干扰,并且在物质量化中忽略此类峰值可以提高准确度。
[0082] 可选地,选择峰值的子集可以包括针对所确定的共同峰值位置来评估每个峰值的峰值位置(例如,确定偏移)。然后,有利地基于该评估来选择峰值的子集(例如,通过忽略具有与所确定的共同峰值位置相距至少或大于阈值的峰值位置的任何峰值)。
[0083] 有利地,选择峰值的子集包括根据标准(例如,是否满足或超过一个或多个阈值,例如,每个阈值可以应用于相应峰值品质因子)评估峰值中的每个峰值的相应一个峰值品质因子(或多个峰值品质因子)。然后,可以基于对于每个峰值是否满足标准来选择峰值的子集。可以存在多个标准,其中每个标准可以应用于相应峰值品质因子。
[0084] 峰值的所选择的子集中的每个峰值优选地被量化(通过在时间参数的所选择的范围上对测量强度进行求和)。然后,可以基于峰值的所选择的子集的量化(例如,对它们进行求和)来对物质进行量化。
[0085] 优选地,识别了对应于至少一个峰值(并且通常是每个峰值)的物质和/或化学成分(在接收测量数据之后)。这可以进一步帮助确定要从中选择子集的一组峰值。
[0086] 如上所述,每个峰值有益地包括至少预定数量的强度测量结果,通常为至少5个强度测量结果(但可选地为7个、9个或11个)。可以忽略具有少于预定数量的强度测量结果的峰值。
[0087] 现在参考图5a至图5d,这些图各自例示了测量强度相对于时间峰值的曲线图,示出了当不同PQF算法的时间范围改变时这些算法的效果。如上所讨论的,这些使用了与图2所示相同的数据,具有三个峰值。使用三个示例性PQF算法:ZigZagId(认为较小的数字更好);对称性(‑1是最佳的,并且越接近该值越好);以及trigPeakSim(1是最佳的,并且越接近该值越好)。
[0088] 为了完整性,现在提供这些示例性PQF算法的简要描述(更完整的细节可以在上文详述的Chetnik等人的“MetaClean:基于机器学习的分类器用于非指定目标LC‑MS代谢组学数据中减少的假阳性峰值检测(MetaClean:a machine learning‑based classifier for reduced false positive peak detection in untargeted LC–MS metabolomics data)”中找到)。ZigZagId是Z字形索引的简称。Z字形索引(ZZ)通过测量任一侧上的点与其紧邻点之间的归一化方差来捕获形状品质。所有Z字形索引值的归一化平均值(对于除了两个极值之外的峰值的每个点,可以计算Z字形索引值)是用作峰值的品质因数的值。其中ZZ是峰值的Z字形索引并且In是第n个强度测量结果(在峰值中存在N个测量结果),这可以在数学上表达为:
[0089] ZZ=ZZ1/ZZ2;
[0090] ZZ1=sum((2In‑In‑1‑In+1)2),从n=2到n=N‑1;
[0091] ZZ2=N*EPI2;以及
[0092] EPI=IA‑avg(I1+I2+IN‑1+IN),其中IA是最大强度的值。
[0093] 对称性(SY)测量峰值的左半部分和右半部分之间的相关性。这可以在数学上表达为:
[0094] SY=cor([I1,...,IN/2],[IN/2,...,IN]),范围:[‑1,1]。
[0095] TrigPeakSim(TPASR)是三角形峰面积对称性或相似性比率的简称。该峰值品质因子通过比较峰面积与由顶点和边界形成的三角形的面积来估计形状品质。这可以在数学上表达为:
[0096] TPASR=abs(三角形_面积‑AUC)/max(三角形_面积,AUC),其中AUC是峰曲线下的面积(或简称为峰面积)。
[0097] 在图5a中,如突出显示的那样选择五个数据点,在图5b中,时间范围扩展到七个数据点,图5c使用九个数据点,并且图5d选择十一个数据点。对于第一峰值(具有最低峰值密度)和第二峰值(具有最高峰值密度),可以看出ZigZagId值和trigPeakSim值随着数据点增加而减小。第一峰值和第二峰值的对称性值变化,但不显著。对于第三峰值(与其他两个峰值相比,具有中间峰值密度和峰值位置的轻微偏移),ZigZagId值随着数据点增加而减小。然而,对称性值是不确定的,直到数据点的数量达到11为止。相反,当数据点的数量为5、7或
9时,trigPeakSim值表现为最佳,但当数据点的数量达到11时,该值较低。
[0098] 因此应当理解,PQF算法的组合有益地用于评估峰值并确定数据点的数量(时间参数的所选择的范围)。
[0099] 回到上文所讨论的一般术语(在任何方面),可以理解的是,质谱仪可以被控制以执行组成分析物中的每种组成分析物的质量分析,并提供针对多种组分中的每种组分的质荷比的强度测量结果。
[0100] 根据本发明的方面可以体现为计算机程序(可选地在计算机可读介质上,其可以是非暂态的)、用于质谱分析系统的控制器(以硬件及/或软件形式)或包括此类控制器的质谱分析系统。应当理解,此类质谱分析系统还可以包括:第一分离器,该第一分离器被配置为在时间参数上将样品分离成组成分析物;和质谱仪,该质谱仪被配置为接收和分析组成分析物。
[0101] 因为对最小数量的强度(其可能是必要的或期望的)进行检索以便具有可靠量化,所以根据本公开的过程、方法或具体实施可以消耗最少的RAM存储器。可以同时对多个样品运行此类过程。这可以允许控制用于量化的产物离子组的一致性和所有样品的类似峰值边界。
[0102] DIA识别和DIA量化的分离可以允许第二验证步骤,从而改善量化并且甚至丢弃不可靠化合物的量化(在来自样品中的共同产物离子组的所有产物离子无法产生任何可靠峰值的情况下)。而且,可以提供(更)一致的量化,因为可在所有样品上使用同一组产物离子。此外,如果任何产物离子无法产生可靠峰值,则可以针对所有样品从共同产物离子组移除产物离子。将识别与量化分离可以特别地给予了在所涉及的所有样品上评估每个所识别的化合物的最佳和最常见产物离子组的机会。
[0103] 尽管已经参考特定类型的设备和应用(具体地讲,质谱分析)描述了根据本公开的实施方案并且这些实施方案在这种情况下具有特定的优势,如本文所讨论的,但是根据本公开的方法可以应用于其他类型的设备和/或应用。具体而言,根据本公开的设备可以用于其他应用。本文所述的过程的具体结构、布置和操作细节(例如,参数)虽然可能是有利的(尤其是在考虑到已知的配置和能力的情况下),但可能会有很大变化以达到具有类似或相同性能的操作模式。可以从本文所公开的那些中考虑其他类型的分离。某些特征可以被省略或替换,例如如本文所示。除非另有说明,否则本说明书中所公开的每个特征均可替换为用于相同、同等或类似目的的替代特征。因此,除非另有说明,否则所公开的每个特征仅是一系列的等价或相似的属性特征的一个示例。
[0104] 上文已经建议,保留时间范围(或等效地,漂移或其他合适的时间范围)可以基于一个样品的测量结果来确定,然后用于另一样品,尤其是如果在多个实验运行中处理多个样品复制品。另选的方法是可能的。例如,可以对所有(或至少多个)样品进行保留时间范围的平行评估。这可以允许确定所评估的样品的共识(其可以是常见的或统计上确定的,例如平均或加权平均)保留时间范围。当使用多个样品的平行分析时,具有少于预定数量的强度测量结果的峰值不需要被忽略,而是可以被整合到量化测量结果中。然后,所确定的时间范围可以用于所有样品(可能包括其他样品,不用于确定范围)的量化。
[0105] 上文所述的方法的变体是将相同的算法应用于MS1全扫描,从而仅搜索每种所识别的化合物的预期(前体)质量。在这种情况下,上文所使用的术语“碎片”可以被所识别的化合物代替,并且该方法可以以相同的方式使用。
[0106] 在上文所讨论的一般术语中,可以可选地考虑被量化的物质的离子具有所选择的质荷比中的一个有所选择的质荷比。然后,峰值的量化可以对应于物质的量化。
[0107] 在各种实施方案的详细描述中,出于解释的目的,阐述了许多特定细节以提供对所公开的实施方案的透彻理解。然而,所属领域的技术人员将理解,可以在具有或不具有这些特定细节的情况下实践这些各种实施方案。此外,本领域技术人员可以容易地理解,其中呈现和执行方法的特定顺序是例示性的,并且预期顺序可以改变并且仍保持在本文所公开的各种实施方案的范围内。
[0108] 如本文所用,包括在权利要求书中,除非上下文另有说明,否则本文中的术语的单数形式应被解释为包括复数形式,反之亦然。例如,除非上下文另外指示,否则本文中(包含在权利要求书中)的单数引用,如“一个/种”(诸如离子多极设备)意指“一个或多个”(例如,一个或多个离子多极设备)。在本公开的说明书和权利要求书中,词语“包括”、“包含”、“具有”和“含有”以及这些词语的变型,例如,“包括”或类似词语意指“包括但不限于”,且并不旨在(且并不)排除其他组分。此外,“或”的使用是包含性的,使得当“A”真实、“B真实”,或“A”和“B”都真实时,短语“A或B”真实。
[0109] 本文提供的任何和所有示例或示例性语言(“举例来说”、“诸如”、“例如”以及类似语言)的使用旨在仅更好地例示本公开,并且除非另有要求,否则并不指示对本公开的范围的限制。本说明书中的任何语言都不应该被解释为指示实践本公开所必需的任何未要求的要素。
[0110] 术语“第一”和“第二”可以颠倒而不改变本公开的范围。即,被称为“第一”元素的元件相反可以被称为“第二”元素,并且被称为“第二”元素的元素相反可以被视为“第一”元素。
[0111] 除非另有说明或上下文另外要求,否则本说明书中所描述的任何步骤可按任何顺序或同时执行。此外,在步骤被描述为在步骤之后执行的情况下,这并不排除正在执行的中间步骤。
[0112] 还应当理解,除非另外隐含地或明确地理解或陈述,否则对于本文所描述的任何给定部件或实施方案,针对该部件列出的任何可能的候选项或替代方案通常可单独地使用或彼此组合使用。应当理解,此类候选或备选项的任何列表仅仅是例示性的,而不是限制性的,除非另有隐含或明确的理解或说明。
[0113] 本公开中所引用的所有文献和类似材料(包含但不限于专利、专利申请、论文、书籍、条约和互联网网页)均以引用的方式明确纳入,以用于任何目的。除非另有说明,否则本文所用的所有技术和科学术语都具有本文所描述的各种实施方案所属领域的一般技术人员通常所理解的含义。