关闭按钮

选择您的区域站点

关闭

天游线路检测中心 使用机器学习从高分辨率 MALDI-TOFMS 质谱中开发峰提取方法,重点关注峰形状及其在合成聚合物分析中的应用

MS 提示第 352 号

简介

基质辅助激光解吸电离飞行时间质谱 (MALDI-TOFMS) 是聚合物分析的强大工具。使用高分辨率MALDI-TOFMS,可以根据重复单元和端基的组成轻松识别聚合物系列,并且可以根据离子强度分布计算聚合物的分子量分布。在实际的工业材料分析中,分析具有不同分子量分布和端基的聚合物的混合物,并且越来越多地使用可以提供复杂质谱概览的肯德里克质量缺陷(KMD)分析。在 KMD 分析中,聚合物系列在称为 KMD 图的图表上表示为直线,从而可以可视化复杂质谱中包含的聚合物系列的数量和相对量。另一个特点是可以轻松发现跟踪组件。创建 KMD 图时,从质谱中提取峰,因此正确识别要分析的峰和噪声峰非常重要。在 MALDI-TOFMS 质谱中,m/z经常观察到增加。它们具有宽峰宽、形状扭曲和重现性差的特点。在使用高分辨率MALDI-TOFMS JMS-S3000“SpiralTOF™”系列进行测量时,待分析的峰具有高分辨率和窄峰宽,因此可以通过视觉将它们与噪声峰区分开,但在整个质谱(包括微量成分)上识别它们的效率很低。另外,在一般的自动峰判定中,使用峰面积值作为离子强度。因此,如果宽噪声峰与待分析峰具有相同的高度,则离子强度会更高,因此可能难以使用阈值来统一选择它。图1表示轮廓质谱、一般峰判定后的分析对象峰以及噪声峰。为了方便起见,在峰列表中分析目标峰用红色进行颜色编码,噪声峰用绿色进行颜色编码。在轮廓光谱中,每1u观察到一个噪声峰作为痕量成分。在轮廓谱中,可以根据分辨率来识别要分析的峰,但是在确定峰之后,噪声峰的离子强度(峰面积)变得相对较大,使得难以识别要分析的峰。在本报告中,为了解决这个问题,我们开发了一种方法,利用机器学习和关注峰形状的监督数据来识别质谱中的峰是分析目标峰还是噪声峰。

实验

对于机器学习数据,将平均分子量为 400、600、1000 和 2000 的聚乙二醇 (PEG) 制备为 10 mg/mL,并以 1:1:2:4 (v/v/v/v) 的比例混合(PEG 混合物)。此外,将PEG混合物稀释100倍制备为低浓度PEG混合物。 DCTB (10 mg/mL) 用作基质,三氟乙酸钠 (1 mg/mL) 用作阳离子化剂。使用 JMS-S3000“SpiralTOF™-plus”在 SpiralTOF 正离子模式下采集质谱。使用机器学习的噪声去除功能在 msPeakFinder 中实现。还使用 msRepeatFinder 执行 KMD 分析。

图 1

图 1 高分辨率 MALDI-TOFMS 的剖面质谱 (a) 和使用传统峰检测方法的峰列表谱。

机器学习方法

我们采用条件生成对抗网络 (cGAN) 进行机器学习。由于cGAN根据输入条件数据输出生成数据,因此可以将其视为从条件数据到生成数据的转换。该方法基于输入观测到的质谱并输出已去除噪声峰的伪质谱的概念,并且已应用于噪声峰去除。图2示出了该方法的机器学习模型创建过程的流程图。流程图中,黄色背景表示人工干预,绿色背景表示自动操作。首先,获取 PEG 混合物的一个质谱作为训练数据(图 3a)。使用常规方法对获得的质谱进行峰识别并创建峰列表后,专家从峰形状中确定并提取要分析的峰(图 3B 中的红色箭头)。对于要分析的提取峰,使用高斯分布创建峰形状,以便无论离子强度如何,高度都保持恒定,并创建伪质谱(图 3c)。在该方法中,测量质谱和伪质谱配对作为训练数据的源数据。现在,获取大量质谱以增加训练数据的数量需要时间和精力。因此,通过将原始数据划分为1,024个点并改变划分的起点五次,从一个源数据总共创建了1,600对训练数据。使用以这种方式创建的训练数据生成机器学习模型。概念图如图4所示。测量的质谱由发生器转换为伪质谱。通过使用鉴别器来确定该测量的质谱、通过生成器转换的伪质谱的真实性以及测量的质谱和训练数据的伪质谱的组合,提高了生成器的质量。

图 2

图2 制作机器学习模型的流程图。

图 3

图3 轮廓质谱(a)、峰列表(b)和伪质谱(c)之间的关系。

图 4

图4 使用cGAN制作机器学习模型的方案。

机器学习模型的验证和应用

接下来,我们将展示使用生成的机器学习模型实际消除噪声的步骤(图 5)。流程图中,黄色背景表示人工干预,绿色背景表示自动操作。使用传统方法在确定峰的同时将获得的质谱分为1,024个点,并使用机器学习模型将其转换为伪质谱。在通过传统方法确定的峰中,仅留下那些与伪质谱的峰位置匹配的峰,并去除噪声以生成峰列表。也就是说,通过该方法提取的峰值列表m/z离子强度和离子强度均采用常规方法。此处,使用用于创建训练数据的 PEG 混合物的质谱进行噪声去除。结果总结于表1中。使用常规方法从PEG混合物的质谱中检测到总共4,390个峰。其中,对于左上方的1,265个和3,105个(占总数的995%),机器学习模型的判断结果与创建训练数据时的判断结果相同。右上方的14个峰值在创建机器学习模型时被确定为分析目标峰值,但被机器学习模型确定为噪声峰值。确认的结果是,这些峰的形状略有变形,即使是专家也难以判断。左下角的六个峰值在创建训练数据时被确定为噪声峰值,但被机器学习模型确定为分析目标峰值。经核实,发现这些都是在创建教师数据时人为失误造成的。然后使用纠正此错误的训练数据再次执行机器学习。我们相信使用用于创建机器学习模型的质谱来验证模型是有效的。最后,使用低浓度PEG的质谱进行峰提取,并将结果展开为KMD图,如图6所示。图6a是测量的质谱图,图6b是KMD图。 KMD图中的红点被机器学习确定为分析目标峰,绿点被确定为噪声峰。从这个结果来看,特别是m/z可以看出,通过去除 < 1,500 的噪声,可以使 PEG 系列可视化。

图 5

图5 机器学习模型制作提取峰列表的流程图。

表 1

表1 用作训练数据的PEG混合物的峰值列表与机器学习模型提取的峰值列表之间的比较。

图 6 (a)
图 6 (b)

图 6 低浓度 PEG 混合物的质谱 (a) 以及由机器学习模型分离的提取峰列表(红色)和噪声剥离列表(绿色)的 KMD 图。

摘要

如上所述,我们能够证明,通过使用机器学习模型消除高分辨率 MALDI-TOFMS 数据中低分子量区域中经常观察到的噪声峰,可以更有效地进行 KMD 分析。

点击此处查看此页面的可打印 PDF。
点击打开新窗口。

PDF 13 MB

相关产品

部门解决方案

关闭按钮
注意图标

您是医疗专业人士吗?

(返回上一屏幕)

以下产品信息页面适用于医疗保健专业人员。
请注意,这并不是为了向公众提供信息。

JEOL设备简介

关于JEOL主要产品的机理和应用
易于理解的解释。

联系我们

在 JEOL,为了让我们的客户安心地使用我们的产品,
我们通过各种支持系统为客户提供支持。请随时与我们联系。