English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > DeepSearch——基于深度學(xué)習(xí)的高靈敏串聯(lián)質(zhì)譜數(shù)據(jù)搜庫分析策略

DeepSearch——基于深度學(xué)習(xí)的高靈敏串聯(lián)質(zhì)譜數(shù)據(jù)搜庫分析策略

瀏覽次數(shù):1227 發(fā)布日期:2025-1-23  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
在基于質(zhì)譜(MS)的蛋白質(zhì)組學(xué)中,肽段鑒定是關(guān)鍵挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫搜索方法依賴啟發(fā)式評分函數(shù),存在對某些肽段組成的偏差,需引入統(tǒng)計(jì)估計(jì)提高鑒定率。深度學(xué)習(xí)雖提升了肽段從頭測序的準(zhǔn)確性,但現(xiàn)有方法在處理不同蛋白質(zhì)組成數(shù)據(jù)集及鑒定可變翻譯后修飾(PTM)方面仍存在不足。

為應(yīng)對以上問題,Yonghan Yu和李明教授(Bioinformatics Solution Inc.創(chuàng)始人、加拿大皇家學(xué)會院士)在Nature Machine Intelligence(IF 18.8)發(fā)表了題為“Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry”的最新研究成果,提出了一種新的串聯(lián)質(zhì)譜數(shù)據(jù)庫搜索方法—DeepSearch。在對比學(xué)習(xí)框架下,DeepSearch采用了改進(jìn)的基于Transformer 的編解碼器架構(gòu)。與傳統(tǒng)的離子與離子匹配方法不同,DeepSearch 采用數(shù)據(jù)驅(qū)動的方法對肽段-譜圖匹配進(jìn)行評分,顯著降低了評分偏差,并且支持零樣本變量的可變翻譯后修飾(PTM)鑒定。DeepSearch在各種數(shù)據(jù)集上均表現(xiàn)出較高的準(zhǔn)確性和穩(wěn)定性,包括不同物種的數(shù)據(jù)集以及富含PTM的數(shù)據(jù)集等。DeepSearch 為串聯(lián)質(zhì)譜的數(shù)據(jù)庫搜索方法提供了新的思路。

DeepSearch方法
圖1 DeepSearch搜索模型

傳統(tǒng)的譜圖搜索策略一般是將標(biāo)準(zhǔn)參考序列通過計(jì)算機(jī)模擬酶切(in-silico digestion)后,生成對應(yīng)的理論譜,然后與實(shí)際采集的譜圖進(jìn)行匹配。因此,對于復(fù)雜譜圖來說,就存在一些局限性。

DeepSearch采用改進(jìn)的基于Transformer的編解碼器架構(gòu),從蛋白質(zhì)數(shù)據(jù)庫的計(jì)算機(jī)理論酶解開始,DeepSearch將酶解的肽和實(shí)驗(yàn)MS/ MS譜圖編碼到嵌入中。DeepSearch不依賴于離子間匹配的啟發(fā)式評分函數(shù),而是使用相應(yīng)嵌入之間的余弦相似性來對PSM進(jìn)行評分,這可以通過單個矩陣乘法有效地計(jì)算出來。

為了解決在 PSM 中注釋密切相關(guān)的負(fù)對的挑戰(zhàn),并減少注釋中采用的搜索引擎的偏差,DeepSearch采用了批量內(nèi)對比學(xué)習(xí)框架 。在訓(xùn)練過程中,DeepSearch 隨機(jī)對一批錨定肽段質(zhì)量的PSM 進(jìn)行采樣(正對),并將肽段-譜對(不包括采樣的 PSM)用作負(fù)對(圖 1c),通過對比學(xué)習(xí),使正對之間的余弦相似度更高,而負(fù)對之間的余弦相似度更低。并且,DeepSearch 通過Phred分?jǐn)?shù)對PSMs進(jìn)行重排序,確保最終的匹配更加準(zhǔn)確。在理論譜圖中引入修飾質(zhì)量偏移(mass shift),生成包含修飾信息的肽段嵌入。通過對比學(xué)習(xí),DeepSearch可以直接對具有不同修飾的肽段進(jìn)行鑒定。


實(shí)驗(yàn)結(jié)果

1. PSM 評分偏差較小
擬南芥數(shù)據(jù)集的測試結(jié)果顯示,與 MSFragger、MS- GF+和 MaxQuant 比較,DeepSearch 的評分不受肽段長度影響,對缺失片段較多的短肽段評分較低,且在不同缺失片段數(shù)量下長肽段分?jǐn)?shù)分布無顯著差異。在 1% FDR 控制下,其報(bào)告的 PSM 數(shù)量與其他引擎相比具有優(yōu)勢,不受統(tǒng)計(jì)模型影響(圖2a)。此外,目標(biāo)序列匹配分?jǐn)?shù)(藍(lán)色)在所有肽段長度范圍內(nèi)分布均勻,表明DeepSearch的評分機(jī)制對肽段長度變化的穩(wěn)定性。Decoy匹配(紅色)較低且分布較窄,說明decoy匹配分?jǐn)?shù)的波動較小,質(zhì)控良好。
圖2 不同搜索引擎對擬南芥數(shù)據(jù)集中不同長度肽段的鑒定

2. 肽段鑒定準(zhǔn)確且穩(wěn)健
圖3(a–d)分別展示了擬南芥(A. thaliana)、HEK293細(xì)胞、秀麗隱桿線蟲(C. elegans)和大腸桿菌(E. coli)數(shù)據(jù)集在1%假陽性率(FDR)下的PSM數(shù)量。結(jié)果顯示DeepSearch在不依賴統(tǒng)計(jì)模型的情況下,仍能維持較高的PSM鑒定數(shù)量,說明對于統(tǒng)計(jì)估計(jì)的依賴性已顯著降低。
圖3 不同物種數(shù)據(jù)集通過FDR 1%質(zhì)控的PSM數(shù)量

3. 零樣本可變 PTM 分析
傳統(tǒng)搜庫方法通常需要提前對特定翻譯后修飾(如磷酸化)的數(shù)據(jù)進(jìn)行訓(xùn)練,限制了未知修飾的分析與發(fā)現(xiàn)。而DeepSearch借助深度學(xué)習(xí),結(jié)合譜圖與肽段序列之間的普遍規(guī)律,可以實(shí)現(xiàn)零樣本的翻譯后修飾訓(xùn)練。從圖4 HeLa 磷酸化富集數(shù)據(jù)集的測試結(jié)果看,DeepSearch在零樣本條件下,PTM分析的表現(xiàn)良好。圖4a分別表示對于非修飾肽段、單位點(diǎn)修飾肽段、雙位點(diǎn)修飾肽段的評分分布,可以看出隨著修飾數(shù)量增加,目標(biāo)肽段的匹配(藍(lán)色)評分分布變寬,decoy匹配的得分分布變化較小,說明雖然修飾的復(fù)雜性對target匹配影響較大,但仍能保持較好的decoy質(zhì)控。與MSFragger和MS-GF+相比,DeepSearch的準(zhǔn)確性較高,但修飾肽的鑒定數(shù)量略少一些(圖4b-d),有待進(jìn)一步優(yōu)化。
圖4 Hela磷酸化富集數(shù)據(jù)集的零樣本PTM表征

結(jié)論與展望
DeepSearch 是首個基于深度學(xué)習(xí)的端到端的串聯(lián)質(zhì)譜數(shù)據(jù)庫搜索引擎,評分偏差小、準(zhǔn)確性和穩(wěn)健性高,能實(shí)現(xiàn)零樣本PTM分析,標(biāo)志著AI技術(shù)在蛋白質(zhì)組學(xué)領(lǐng)域的重大應(yīng)用突破。未來,DeepSearch有望作為獨(dú)立引擎或重新評分模塊,整合到現(xiàn)有蛋白質(zhì)組學(xué)分析流程中,推動蛋白質(zhì)組學(xué)尤其是復(fù)雜修飾組學(xué)的快速發(fā)展。

文獻(xiàn)原文
Yu, Y., Li, M. Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry. Nat Mach Intell (2025). https://doi.org/10.1038/s42256-024-00960-1
 
作為生物信息學(xué)的領(lǐng)軍企業(yè),BSI專注于蛋白質(zhì)組學(xué)和生物藥領(lǐng)域,通過機(jī)器學(xué)習(xí)和先進(jìn)算法提供世界領(lǐng)先的質(zhì)譜數(shù)據(jù)分析軟件和蛋白質(zhì)組學(xué)服務(wù)解決方案,以推進(jìn)生物學(xué)研究和藥物發(fā)現(xiàn)。我們通過基于AI的計(jì)算方案,為您提供對蛋白質(zhì)組學(xué)、基因組學(xué)和醫(yī)學(xué)的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數(shù)千家學(xué)術(shù)和工業(yè)用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️ 免疫肽組發(fā)現(xiàn)服務(wù)和抗體綜合表征服務(wù)等。
來源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com