• • 下一篇
姚理进1,张迪1,周丕宇2,曲志坚1,王海鹏3
摘要: 利用串联质谱对蛋白质酶切产生的肽段进行测序(称为肽鉴定)是蛋白质组学研究的支撑技术。现有肽段从头测序算法在鉴定具有重要生物学意义的磷酸化修饰肽段时准确度受限,主要原因是磷酸化修饰导致碎裂模式更复杂,易产生中性丢失峰,且质谱图在常规质谱数据中丰度较低。为此,提出了基于Transformer和门控循环单元(GRU)的从头测序算法TGNovo。TGNovo引入谱峰连接图,显式建模谱峰间的质量差关系,指导Transformer编码器捕捉谱图特征。解码器将谱图特征与氨基酸序列特征关联,结合GRU模块建模谱峰间与氨基酸间关系,共同协作实现肽段重建。相较于完全基于Transformer的从头测序算法Casanovo,TGNovo通过谱峰连接图和GRU模块充分利用谱图先验信息,增强了模型对谱图的建模能力。在跨物种磷酸化肽段评测中,TGNovo在肽水平和氨基酸水平的召回率上相较于Casanovo平均提升16.5和37.1个百分点。免疫肽数据集上的实验结果表明,TGNovo鉴定的高可信抗原肽覆盖了数据库搜索结果的86%。
中图分类号: