English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > 多肽從頭測(cè)序的深度學(xué)習(xí)方法概述

多肽從頭測(cè)序的深度學(xué)習(xí)方法概述

瀏覽次數(shù):1455 發(fā)布日期:2024-6-11  來(lái)源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)

在自下而上的質(zhì)譜蛋白質(zhì)組學(xué)研究中,來(lái)自復(fù)雜生物樣品的蛋白質(zhì)被酶解成多肽,然后經(jīng)過(guò)多輪質(zhì)譜分析生成譜圖數(shù)據(jù),解析每張MSn譜中的離子信息,從而得到準(zhǔn)確的產(chǎn)生該譜的多肽氨基酸序列,便是質(zhì)譜數(shù)據(jù)分析算法研究人員的使命。最初,我們通過(guò)手動(dòng)注釋單個(gè)MS2譜圖來(lái)解析數(shù)據(jù),費(fèi)時(shí)費(fèi)力,對(duì)解譜人員的要求也比較高。后來(lái),Sakulai[1]Bartels[2]開(kāi)發(fā)了早期的從頭測(cè)序算法。在過(guò)去的幾十年里,多肽從頭測(cè)序算法已經(jīng)有了很大的發(fā)展。如今,與許多其他領(lǐng)域一樣,由于引入了深度學(xué)習(xí)方法,多肽從頭測(cè)序方法也取得了跨越式進(jìn)展。“深度學(xué)習(xí)”是指任何使用多層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法[3]。這些方法通常具有大量的可訓(xùn)練參數(shù),并且需要相應(yīng)的大量訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)已成功應(yīng)用于質(zhì)譜蛋白質(zhì)組學(xué)的各個(gè)領(lǐng)域,包括預(yù)測(cè)碎片離子強(qiáng)度[4-6],識(shí)別MS1數(shù)據(jù)中的多肽特征峰[7,8],對(duì)MS2譜圖進(jìn)行大規(guī)模嵌入和聚類(lèi)[9],以及預(yù)測(cè)多肽理化性質(zhì)[5,10-12]。2017年,滑鐵盧大學(xué)的李明院士團(tuán)隊(duì)和BSI推出首個(gè)用于從頭測(cè)序的深度學(xué)習(xí)方法DeepNovo[13],此后至少有22種其他深度學(xué)習(xí)方法衍生出來(lái) (表1)。除了其優(yōu)越的性能外,深度學(xué)習(xí)方法在質(zhì)譜分析中得到迅速?gòu)V泛應(yīng)用可歸因于三個(gè)因素:神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn)非常適合質(zhì)譜和多肽,硬件的發(fā)展(包括GPU)加速了神經(jīng)網(wǎng)絡(luò)的并行計(jì)算,以及訓(xùn)練這些模型所需的大規(guī)模公共數(shù)據(jù)的公開(kāi)[14-17]。

近日,來(lái)自華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系的William Stafford Noble
教授團(tuán)隊(duì)發(fā)表了關(guān)于多肽從頭測(cè)序的深度學(xué)習(xí)方法的綜述,討論了這些方法的特點(diǎn),并概述該領(lǐng)域的一些主要應(yīng)用與挑戰(zhàn)。

表1 深度學(xué)習(xí)從頭測(cè)序算法列表

(注:表1中引用編號(hào)為文獻(xiàn)原文順序)


不同的深度學(xué)習(xí)方法模型

隨著深度學(xué)習(xí)的廣泛應(yīng)用,各種神經(jīng)網(wǎng)絡(luò)架構(gòu)也已用于多肽從頭測(cè)序。文中作者主要將其分為兩大類(lèi)進(jìn)行討論:卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型。此外,文中還描述了兩種使用深度學(xué)習(xí)對(duì)現(xiàn)有從頭測(cè)序方法結(jié)果進(jìn)行后處理的方法。

卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用滑動(dòng)窗口處理矢量輸入,其中每個(gè)滑動(dòng)窗口(即“filter”)學(xué)習(xí)識(shí)別數(shù)據(jù)中的獨(dú)有特征 (圖2a)。CNN在深度學(xué)習(xí)方法的出現(xiàn)中發(fā)揮了重要作用,部分原因是它提供了強(qiáng)大而通用的模式識(shí)別能力,部分原因是它的計(jì)算可以通過(guò)GPU實(shí)現(xiàn)高效運(yùn)行。首個(gè)用于多肽從頭測(cè)序的深度學(xué)習(xí)模型DeepNovo[13]采用了兩個(gè)并行模型的迭代解碼過(guò)程。根據(jù)訓(xùn)練數(shù)據(jù)的分辨率,使用大小為0.1或0.01 m/z的bin,將訓(xùn)練集中的每張譜圖從m/z軸上分割,轉(zhuǎn)換為向量。這些向量與預(yù)測(cè)的prefix整合,產(chǎn)生一個(gè)維度為128×26×8×10的張量,其中128是batch size,26是氨基酸種類(lèi)數(shù)(包括翻譯后修飾[PTMs]), 8是離子類(lèi)型種類(lèi)數(shù)(包括b/y離子以及各種中性損失),10是每個(gè)目標(biāo)離子周?chē)崛〉膍/z bin的數(shù)量。然后,這個(gè)張量經(jīng)過(guò)第一個(gè)模型ion-CNN處理,譜圖和預(yù)測(cè)的peptide prefix作為輸入數(shù)據(jù),用來(lái)預(yù)測(cè)下一個(gè)氨基酸。第二個(gè)模型是一種被稱為“長(zhǎng)短期記憶”(LSTM)網(wǎng)絡(luò)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)模型[18],以類(lèi)似于ion-CNN的方法迭代地預(yù)測(cè)譜圖中可能存在的氨基酸。

在解碼過(guò)程中,ion-CNN和LSTM通過(guò)一個(gè)單一的、全連接的神經(jīng)網(wǎng)絡(luò)層進(jìn)行連接,該神經(jīng)網(wǎng)絡(luò)層輸出一個(gè)26維對(duì)數(shù)概率向量(logits)。DeepNovo還采用了動(dòng)態(tài)規(guī)劃后處理器,該后處理器使用預(yù)測(cè)logits和knapsack算法來(lái)確保預(yù)測(cè)多肽的質(zhì)量數(shù)落在實(shí)際檢測(cè)的母離子容許誤差范圍內(nèi)。作為該領(lǐng)域的首個(gè)深度學(xué)習(xí)方法,DeepNovo論文被隨后其他多肽從頭測(cè)序的論文廣泛引用(圖1)

圖1 de novo測(cè)序方法引用網(wǎng)絡(luò)圖

DeepNovo-DIA[2]DeepNovo模型推廣到DIA數(shù)據(jù)的從頭測(cè)序分析。該模型的核心類(lèi)似于DeepNovo,包括ion-CNN、spectrum-CNNLSTM。主要區(qū)別在于,由于DIA數(shù)據(jù)可以沿著時(shí)間軸組織,并且包含有關(guān)給定分析物的多個(gè)相鄰掃描信息,因此DeepNovo-DIA的預(yù)處理步驟涉及檢測(cè)3D碎片離子特征和2D母離子特征。在實(shí)際應(yīng)用時(shí),需要首先使用外部工具處理DIA MS1數(shù)據(jù)以提取母離子特征,然后通過(guò)DeepNovo-DIA模型對(duì)每個(gè)特征進(jìn)行預(yù)測(cè)。

此外,諸如SMSNet、RANovo、PepNet和BiATNovo等算法模型也是借鑒了與DeepNovo類(lèi)似的思路。

Transformer模型
另一種多肽從頭測(cè)序的模型是Transformer架構(gòu)(圖2b)。Transformer最初是為自然語(yǔ)言處理而開(kāi)發(fā)的,例如語(yǔ)言翻譯 [19]。Transformer可以處理不固定長(zhǎng)度的輸入,且模型體系結(jié)構(gòu)與輸入信息的順序無(wú)關(guān)。因此,通常需要對(duì)每個(gè)輸入對(duì)象的位置進(jìn)行編碼,并將這些編碼的位置與標(biāo)記本身一起提供。這樣就可以消除離散質(zhì)譜m/z軸的相應(yīng)問(wèn)題。此外transformer的另一個(gè)關(guān)鍵特征是能夠自動(dòng)學(xué)習(xí)輸入特征對(duì)之間的重要語(yǔ)義關(guān)系。因此,transformer模型已經(jīng)在DNA和蛋白質(zhì)序列的建模領(lǐng)域獲得了成功應(yīng)用。

Casanovo[20]使用transformer架構(gòu)將從頭測(cè)序視為序列到序列的翻譯任務(wù),將MS2譜圖中的一系列峰翻譯為一系列氨基酸。該模型包括一個(gè)編碼器和一個(gè)解碼器。編碼器學(xué)習(xí)輸入MS2譜圖的上下文表示,而解碼器根據(jù)譜圖信息和先前預(yù)測(cè)的氨基酸預(yù)測(cè)多肽序列中的下一個(gè)氨基酸。與其他深度學(xué)習(xí)模型一樣,Casanovo每次預(yù)測(cè)多肽序列的一個(gè)氨基酸,最終尋找得分最高的預(yù)測(cè)序列[21]。ContraNovo[22]、π-HelixNovo[23]、NovoB[24]、AdaNovo[25]、InstaNovo[26]、Cascadia[27]均采用了類(lèi)似Casanovo的架構(gòu),各自加入了不同的特征。

DPST[28]引入了一組歸納偏差來(lái)限制search space。首先,它在貝葉斯環(huán)境中重構(gòu)了從頭測(cè)序任務(wù),其中氨基酸后驗(yàn)概率是根據(jù)譜圖信息和先驗(yàn)氨基酸預(yù)測(cè)的。將較高的先驗(yàn)概率給予氨基酸,使母離子質(zhì)量與動(dòng)態(tài)規(guī)劃計(jì)算的預(yù)期多肽質(zhì)量之間的差異最小。其次,DPST編碼器根據(jù)其與相鄰峰的一致性為每個(gè)峰分配置信值,優(yōu)先考慮編碼譜中氨基酸質(zhì)量分開(kāi)的峰。

GraphNovo[29]包括三個(gè)階段的處理。首先,將觀測(cè)到的譜圖轉(zhuǎn)換成圖,其中節(jié)點(diǎn)對(duì)應(yīng)峰,邊表示峰與峰之間的質(zhì)量關(guān)系。該圖隨后由兩個(gè)網(wǎng)絡(luò)依次處理:GraphNovo-PathSearcher和GraphNovo-SeqFiller。前者根據(jù)邊緣編碼的質(zhì)量差產(chǎn)生與部分肽預(yù)測(cè)和未解析質(zhì)量標(biāo)簽對(duì)應(yīng)的最優(yōu)節(jié)點(diǎn)序列,后者輸出完整氨基酸序列。兩種網(wǎng)絡(luò)都采用了六層Graphormer[30]編碼器架構(gòu),該架構(gòu)將tranformer和圖形神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。

Transformer-DIA[31]是在DeepNovo-DIA上進(jìn)行擴(kuò)展的,用transformer自關(guān)注計(jì)算層取代了譜圖編碼器中的卷積層。在提取與DeepNovo-DIA相同的MS1 profile和理論碎片離子陣列后,該模型使用位置嵌入對(duì)連續(xù)MS2掃描的時(shí)間信息進(jìn)行編碼,從而允許LSTM解碼被標(biāo)準(zhǔn)transformer解碼層所取代。此外,Transformer-DIA還包括一個(gè)類(lèi)似于Casanovo所采用的beam search解碼程序。

圖2 Transformer模型示意圖
 

其他模型

PointNovo[32]是DeepNovo同一團(tuán)隊(duì)在其基礎(chǔ)上衍生的新架構(gòu)。PointNovo的主要?jiǎng)?chuàng)新在于消除了離散譜圖m/z軸的依賴,從而使模型能夠利用高質(zhì)量精度的數(shù)據(jù),而無(wú)需占用大量?jī)?nèi)存。DeepNovo使用長(zhǎng)度為150,000的輸入向量來(lái)表示譜圖,而PointNovo則將每張譜圖表示為一組(m/z,intensity)對(duì)。該模型采用了一種新穎的體系結(jié)構(gòu),該結(jié)構(gòu)使用了PointNet體系結(jié)構(gòu)[56]的思想,旨在以一種順序不可知的方式處理一組這樣的元組。與DeepNovo不同,PointNovo的LSTM成分是可選的,盡管經(jīng)驗(yàn)結(jié)果表明,包括LSTM往往會(huì)提供更高質(zhì)量的預(yù)測(cè)結(jié)果。PGPointNovo[33]是PointNovo的改進(jìn)版,支持在多個(gè)GPU上并行處理。

還有一些其他模型,如DEPS[34]使用類(lèi)似于PointNovo的架構(gòu),做了一些性能提升。Denovo-GCN[35]是類(lèi)似于DeepNovo的模型架構(gòu)。SeqNovo[36]使用由編碼器和解碼器組成的RNN架構(gòu)[37]



數(shù)據(jù)后處理方法
文章中討論了兩種對(duì)現(xiàn)有從頭測(cè)序方法的輸出結(jié)果進(jìn)行后處理的深度學(xué)習(xí)方法。
pNovo 3算法[38]通過(guò)使用深度學(xué)習(xí)模型對(duì)給定的de novo預(yù)測(cè)數(shù)據(jù)集進(jìn)行重新排序。該方法建立在pNovo+[39]的基礎(chǔ)上,pNovo+使用基于譜圖的算法進(jìn)行從頭測(cè)序。在pNovo 3中,前10個(gè)預(yù)測(cè)的候選肽被保留并作為輸入數(shù)據(jù)提供給pDeep深度學(xué)習(xí)模型,該模型預(yù)測(cè)碎片離子強(qiáng)度[40];趐Deep輸出一組特征向量,并使用其來(lái)訓(xùn)練支持向量機(jī)(SVM)用作排序[41]。訓(xùn)練模型的最終輸出結(jié)果是得分最高的候選肽。

Spectralis[42]模型旨在通過(guò)“bin分類(lèi)”的輔助任務(wù)來(lái)對(duì)給定的從頭測(cè)序預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化。Spectralis模型利用現(xiàn)有的從頭預(yù)測(cè)方法(Casanovo和Novor)做出的預(yù)測(cè),將其轉(zhuǎn)化為更準(zhǔn)確的預(yù)測(cè)。其中作者還提出了一種方法,Spectralis-score,用于使用機(jī)器學(xué)習(xí)后處理器重新校準(zhǔn)Novor和Casanovo的分?jǐn)?shù)。

算法性能評(píng)估標(biāo)準(zhǔn)
許多從頭測(cè)序方法借用了precision(精度)recall(召回率)的概念,但附加了一些特殊的定義。尤其是由于de novo測(cè)序不是一個(gè)二元分類(lèi)任務(wù),因此傳統(tǒng)的真陽(yáng)性(TP)、假陽(yáng)性(FP)、真陰性(TN)和假陰性(FN)分類(lèi)并不適用。對(duì)于de novo,只有三種分類(lèi):高于閾值的預(yù)測(cè)為“正確”或“不正確”,低于閾值的預(yù)測(cè)為“不可預(yù)測(cè)”(圖3a)。使用這些分類(lèi)方法,我們可以做出如下新的定義:

(C 是正確預(yù)測(cè)的譜圖數(shù)量,I是不正確預(yù)測(cè)的譜圖數(shù)量,U是不可預(yù)測(cè)的譜圖數(shù)量)

這種precision(精度)的替代定義與來(lái)自二進(jìn)制分類(lèi)設(shè)置的傳統(tǒng)定義一致,后者是分?jǐn)?shù)大于指定分?jǐn)?shù)閾值的預(yù)測(cè)的正確比例。然而,recall(召回率)的定義則不同。在二元分類(lèi)設(shè)置中,“召回率”是帶有正確標(biāo)簽的樣本被正確預(yù)測(cè)為正的比例,新的定義是被正確預(yù)測(cè)的全部樣本的比例。因此,使用替代定義的precision-recall曲線與傳統(tǒng)precision-recall曲線有質(zhì)的不同。特別是,當(dāng)閾值移動(dòng)到排名列表的最末尾時(shí),U的值變?yōu)榱,此時(shí)精度和召回率相等。因此,采用上述替代定義的precision-recall曲線終止于x = y線,而傳統(tǒng)的precision-recall曲線終止于x = 1, y等于數(shù)據(jù)集中陽(yáng)性預(yù)測(cè)的比例(圖3b)。

為了避免這種術(shù)語(yǔ)混淆,一些從頭測(cè)序的研究采用了precision-coverage曲線,其中precision的定義如上所述,但coverage的定義是分?jǐn)?shù)大于某個(gè)閾值的預(yù)測(cè)的比例,而不管預(yù)測(cè)是否正確, 這樣生成的曲線總是終止于x = 1(圖3C)。

圖3 肽段召回率和覆蓋度曲線
 

DeepNovo原始論文中使用的九種基準(zhǔn)數(shù)據(jù)集,采用的是統(tǒng)計(jì)在特定精度閾值(95%或99%)下正確預(yù)測(cè)的譜圖數(shù)量的方法[13]。該基準(zhǔn)在隨后的研究中被廣泛使用[43-46,23-25,47-48]。然而存在的問(wèn)題是,這種簡(jiǎn)單的譜圖水平分類(lèi)方法并不能確保訓(xùn)練集中的多肽序列不會(huì)出現(xiàn)在測(cè)試集中。因此,如果機(jī)器學(xué)習(xí)算法“記憶”了訓(xùn)練集中序列的特征,那么在處理測(cè)試集中相同肽段產(chǎn)生的譜圖時(shí),就會(huì)帶來(lái)不公平的優(yōu)勢(shì)。為了避免這個(gè)問(wèn)題,一些研究選擇了多肽水平的分類(lèi),從而防止序列信息從訓(xùn)練集泄漏到測(cè)試集。但是這種情況不考慮PTMs,因?yàn)橥粭l肽段的修飾譜與非修飾譜極為相似。
然而,即使在多肽水平考慮,如果訓(xùn)練集和測(cè)試集都包含由同一多肽產(chǎn)生的譜圖,也難以避免會(huì)產(chǎn)生算法“記憶”導(dǎo)致的偏好。因此,適當(dāng)?shù)挠?xùn)練/測(cè)試設(shè)置應(yīng)確保訓(xùn)練集和測(cè)試集在任何一種意義上都不重疊。


不同算法性能比較
表1列舉了23種深度學(xué)習(xí)多肽從頭測(cè)序的方法,那問(wèn)題是“哪種方法效果最好?”然而,由于不同的算法使用的評(píng)估指標(biāo)、訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集等都不盡相同,沒(méi)辦法絕對(duì)的說(shuō)哪個(gè)好,哪個(gè)不好,只能說(shuō)在不同的場(chǎng)景下,哪種方法更適合。例如,具有數(shù)百萬(wàn)個(gè)參數(shù)的模型在數(shù)百萬(wàn)個(gè)PSMs規(guī)模上訓(xùn)練時(shí)可能表現(xiàn)最佳,而在相對(duì)較小的數(shù)據(jù)集上訓(xùn)練時(shí)就不如人意了。此外,如AdaNovo[25],其重點(diǎn)是改進(jìn)PTM預(yù)測(cè),可能只有在相應(yīng)的數(shù)據(jù)集中才能得到較好的預(yù)測(cè)效果。

在實(shí)踐中,每項(xiàng)研究通常都會(huì)與少數(shù)其他方法進(jìn)行比較,從圖1中的引用圖便可看出。顯然系統(tǒng)的基準(zhǔn)研究才更有意義,其中所有模型都在相同的數(shù)據(jù)上進(jìn)行訓(xùn)練,并在具有明確定義的度量的獨(dú)立測(cè)試數(shù)據(jù)上進(jìn)行評(píng)估。下面列舉兩項(xiàng)外部數(shù)據(jù)上評(píng)估從頭測(cè)序方法的研究。

首先,Beslic等[49]比較了Novor、pNovo3、DeepNovo、SMSNet、PointNovo和Casanovo在抗體發(fā)現(xiàn)從頭測(cè)序分析上的表現(xiàn)。為了避免使用不同的訓(xùn)練數(shù)據(jù)集造成的偏差,他們首先在MassIVE-KB人類(lèi)譜圖庫(kù)上重新訓(xùn)練了上述6種模型 [50]。通過(guò)對(duì)人類(lèi)和小鼠抗體數(shù)據(jù)的評(píng)估,結(jié)果顯示,Casanovo和PointNovo在不同酶和數(shù)據(jù)集上顯示出更高的肽段召回率

第二項(xiàng)研究中,Tran等人[51]在人類(lèi)酶切、人非酶切、擬南芥,HLA-I型和Prosit生成的模擬數(shù)據(jù)的5個(gè)數(shù)據(jù)集上評(píng)估了PEAKS、PointNovo、Casanovo和GraphNovo。與之前的基準(zhǔn)測(cè)試工作相反,不對(duì)模型進(jìn)行重新訓(xùn)練,而是直接使用。因?yàn)樗泄ぞ咦畛醵际窃谌祟?lèi)數(shù)據(jù)上進(jìn)行訓(xùn)練的,所以它們?cè)谌祟?lèi)測(cè)試數(shù)據(jù)上也取得了最好的預(yù)測(cè)結(jié)果。然而,當(dāng)對(duì)擬南芥數(shù)據(jù)進(jìn)行評(píng)估時(shí),性能有所下降,表明測(cè)試集與訓(xùn)練集完全不同時(shí),算法上還是存在一些不通用性的?偟膩(lái)說(shuō),Casanovo和GraphNovo在所有評(píng)估數(shù)據(jù)集中都取得了最佳的預(yù)測(cè)效果

深度學(xué)習(xí)從頭測(cè)序方法的應(yīng)用
由于許多從頭測(cè)序方法都是近幾年發(fā)表的,所以應(yīng)用范圍并不是很廣,然而,表1列舉的方法中,也有幾種相對(duì)來(lái)說(shuō)具有比較明確的應(yīng)用方向。其中,DeepNovo應(yīng)用最為廣泛。DeepNovo方法及其后續(xù)方法PointNovo已被納入商業(yè)軟件PEAKS中,表2列舉的應(yīng)用案例中的大多數(shù)都使用了PEAKS。在表2所有27項(xiàng)應(yīng)用案例中,最常見(jiàn)的應(yīng)用是檢測(cè)新生抗原和非典型抗原,其次是抗體測(cè)序,毒液蛋白組和宏蛋白質(zhì)組。其次,還有些研究通過(guò)從頭測(cè)序研究短肽。隨著該領(lǐng)域軟件工具質(zhì)量的不斷提升,未來(lái),de novo測(cè)序的應(yīng)用可能會(huì)擴(kuò)展到其他領(lǐng)域。

表2 深度學(xué)習(xí)從頭測(cè)序方法的主要應(yīng)用

(注:表2中引用編號(hào)為文獻(xiàn)原文順序)


挑戰(zhàn)
如上所述,從頭測(cè)序領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)是對(duì)現(xiàn)有方法結(jié)果的合理評(píng)估。理想的性能評(píng)估方案應(yīng)該包括將從頭測(cè)序算法的預(yù)測(cè)與實(shí)際生成譜圖的多肽序列進(jìn)行比較。但在實(shí)踐中,不可能對(duì)所有譜圖都一一進(jìn)行評(píng)價(jià)。以下是幾種可供參考的評(píng)價(jià)方法。
第一種是使用ProteomeTools等數(shù)據(jù)庫(kù)中的合成多肽譜圖進(jìn)行比較[52]。這種方法可以很明確的鑒定采集到的譜圖,但是由于數(shù)據(jù)本身不是來(lái)自復(fù)雜樣本,因此會(huì)比自然生物樣本的噪音低很多。盡管如此,合成肽的數(shù)據(jù)也已被多種從頭測(cè)序方法采用進(jìn)行模型訓(xùn)練[53]。

第二種方法是應(yīng)用最廣泛的,即使用搜庫(kù)的方式將多肽與采集到的譜圖進(jìn)行匹配,然后將這些匹配結(jié)果作為基礎(chǔ)事實(shí)。該方法成功的關(guān)鍵在于,采用嚴(yán)格的統(tǒng)計(jì)方法來(lái)控制搜庫(kù)結(jié)果的錯(cuò)誤發(fā)現(xiàn)率(FDR)[54-55]。通常,用于從頭測(cè)序方法訓(xùn)練和驗(yàn)證的數(shù)據(jù)集在PSM水平設(shè)定1% FDR閾值。然而,數(shù)據(jù)庫(kù)搜索仍然可能會(huì)導(dǎo)致錯(cuò)誤的肽段標(biāo)簽。例如,九種基準(zhǔn)數(shù)據(jù)最初沒(méi)有考慮到錯(cuò)誤分配的同位素峰[13],導(dǎo)致從譜圖中錯(cuò)誤地識(shí)別了脫酰胺肽,因?yàn)椴捎昧说谝粋(gè)同位素峰而不是使用單同位素峰作為母離子的m/z(圖4),這個(gè)錯(cuò)誤已經(jīng)得到了修正。因此,使用最新的譜圖注釋方法產(chǎn)生盡可能高質(zhì)量的訓(xùn)練數(shù)據(jù)尤為重要。

圖4 錯(cuò)誤的肽段標(biāo)簽

此外,作者在一系列不同質(zhì)量的數(shù)據(jù)集上評(píng)估了預(yù)訓(xùn)練的Casanovo模型,每個(gè)數(shù)據(jù)集包含20,000張譜圖。結(jié)果如圖5,模型的表觀性能如何取決于用于評(píng)估的數(shù)據(jù)的質(zhì)量:隨著總離子強(qiáng)度的降低,肽段平均精度變化從0.99也隨之降到0.84,再到0.37。如果采用不同質(zhì)量的數(shù)據(jù)集進(jìn)行訓(xùn)練,這種現(xiàn)象應(yīng)該會(huì)更加明顯。

圖5 高質(zhì)量PSMs預(yù)測(cè)更準(zhǔn)確

第三種方法是使用FDR的統(tǒng)計(jì)方法,這也是評(píng)估數(shù)據(jù)庫(kù)搜索算法的標(biāo)準(zhǔn)方法。比如,如果在固定的FDR閾值(例如1%)下,A從同一組譜圖中檢測(cè)到比B更多的肽,則認(rèn)為方法A比方法B更好。但目前,還沒(méi)有成熟的用于從頭測(cè)序結(jié)果的FDR評(píng)估方法,開(kāi)發(fā)新的FDR方法是該領(lǐng)域最關(guān)鍵的挑戰(zhàn)之一。不久前,Tran等[50]提出來(lái)一種解決方案。

評(píng)估從頭測(cè)序方法的另一個(gè)挑戰(zhàn)是嵌合譜的存在,以一種全新的方式預(yù)測(cè)嵌合譜是具有挑戰(zhàn)性的,而評(píng)估這種預(yù)測(cè)則更加復(fù)雜。另一個(gè)重要的復(fù)雜因素是PTMs。為了包括新的PTMs和擴(kuò)展氨基酸字母表,大多數(shù)從頭測(cè)序工具必須完全重新訓(xùn)練,納入包括這些新的PTMs的額外數(shù)據(jù)。然而許多與生物學(xué)相關(guān)的PTMs含量低且為可變的,就導(dǎo)致很難收集到足夠的訓(xùn)練數(shù)據(jù)。識(shí)別包含多種PTMs的多肽仍然是深度學(xué)習(xí)從頭測(cè)序工具的一個(gè)巨大挑戰(zhàn)。

目前,深度學(xué)習(xí)從頭測(cè)序的方法通常以自回歸的方式生成肽,按順序預(yù)測(cè)每個(gè)氨基酸。這種方法存在的問(wèn)題是如果前序氨基酸發(fā)生了預(yù)測(cè)錯(cuò)誤,無(wú)法進(jìn)行糾正,或者長(zhǎng)肽中存在不連續(xù)碎片峰時(shí)無(wú)法進(jìn)行預(yù)測(cè),并且由于自回歸解碼不能并行化,因此計(jì)算效率很低。

最后,在對(duì)新工具進(jìn)行評(píng)價(jià)時(shí),一個(gè)經(jīng)常被忽視的方面是基準(zhǔn)測(cè)試的實(shí)際實(shí)施,特別是涉及到對(duì)相同數(shù)據(jù)的再訓(xùn)練時(shí)。為了確保每個(gè)模型的最佳訓(xùn)練條件,訓(xùn)練過(guò)程可能需要針對(duì)這個(gè)特定的數(shù)據(jù)集進(jìn)行調(diào)整。另外,原始方法提出的默認(rèn)超參數(shù)可能不是最優(yōu)的,導(dǎo)致性能降低并影響基準(zhǔn)測(cè)試結(jié)果。

盡管這個(gè)領(lǐng)域面臨著許多挑戰(zhàn),但都是可以通過(guò)算法的進(jìn)步逐一克服的。自DeepNovo引領(lǐng)性論文發(fā)表以來(lái),這一領(lǐng)域的發(fā)展相當(dāng)迅速。隨著新的機(jī)器學(xué)習(xí)策略、越來(lái)越多的公開(kāi)可用數(shù)據(jù)和質(zhì)譜儀器的性能提升,從頭測(cè)序工具的使用將變得更加普遍,使許多具有挑戰(zhàn)性或不可能進(jìn)行的分析成為可能。

彩蛋
如上所述,多肽從頭測(cè)序的各種方法通常是用一些簡(jiǎn)單的指標(biāo)來(lái)評(píng)估測(cè)序結(jié)果,但這些指標(biāo)并不能完全反映它們的總體性能。而迄今為止,還沒(méi)有一種方法可以用來(lái)評(píng)估de novo PSM的錯(cuò)誤發(fā)現(xiàn)率(FDR)和顯著性。針對(duì)這一局限,BSI開(kāi)發(fā)了全面的NovoBoard模型框架,來(lái)評(píng)估de novo sequencing方法的性能。該框架涵蓋了不同的基準(zhǔn)數(shù)據(jù)集(包括酶切、非酶切、免疫肽組學(xué)和不同物種數(shù)據(jù)),以及一套用于de novo結(jié)果碎片離子、氨基酸和肽段準(zhǔn)確度的評(píng)估標(biāo)準(zhǔn)。更重要的是,NovoBoard創(chuàng)新性地基于target-decoy對(duì)de novo peptide sequencing方法進(jìn)行評(píng)估,并計(jì)算其FDR。我們綜合評(píng)估了PEAKS de novo、PointNovo、CasanovoGraphNovo方法在特定應(yīng)用場(chǎng)景和數(shù)據(jù)類(lèi)型下的性能,結(jié)果表明,GraphNovo總體表現(xiàn)優(yōu)于其他方法。Novoboard方法文章已上線Biorxiv。

什么,算法太復(fù)雜了看不懂?不用擔(dān)心,我們已將相關(guān)算法應(yīng)用到最新的PEAKS 12系列軟件中,只需將待分析的數(shù)據(jù)提交給PEAKS,分析完直接看結(jié)果就好啦,并且可以借助PEAKS優(yōu)秀的可視化界面對(duì)譜圖進(jìn)行手動(dòng)校驗(yàn)。欲了解軟件詳情或者申請(qǐng)軟件試用,可通過(guò)如下聯(lián)系方式咨詢我們~。

參考文獻(xiàn)

1. Sakurai, T., Matsuo, T., Matsuda, H., Katakuse, I. Paas 3: A computer program to determine probable sequence of peptides from mass spectrometric data. Biomedical mass spectrometry 1984, 11, 396–399.
2. Bartels, C. Fast algorithm for peptide sequencing by mass spectroscopy. Biomed. Environmental Mass Spectrometry 1990, 19, 363–368.
3. Y, L., Bengio, Y., nature, H. .-. G. Deep learning. nature 2015, DOI: 10.1038/nature14539
4. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
5. Gessulat, S., Schmidt, T., Zolg, D. P., Samaras, P., et al. Prosit: proteome-wide prediction of peptide tandem mass spectra by deep learning. Nature Methods 2019, 16, 509.
6. Tiwary, S., Levy, R., Gutenbrunner, P., Soto, F. S., et al. High-quality MS/MS spectrum prediction for data-dependent and data-independent acquisition data analysis. Nature Methods 2019, 16, 519–525.
7. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. DeepIso: a deep learning model for peptide feature detection from LC-MS map. Scientific Reports 2019, 9, 17168.
8. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. Deep neural network for detecting arbitrary precision peptide features through attention based segmentation. Scientific Reports 2021, 11, 18249.
9. Bittremieux, W., May, D. H., Bilmes, J., Noble, W. S. A learned embedding for efficient joint analysis of millions of mass spectra. Nature Methods 2022, 19, 675–678.
10. Bouwmeester, R., Gabriels, R., Hulstaert, N., Martens, L., et al. DeepLC Can Predict Retention Times for Peptides That Carry As-yet Unseen Modifications. Nature Methods 2021, 18, 1363–1369.
11. Plante, P.-L., Francovic-Fontaine, ´E., May, J. C., McLean, J. A., et al. Predicting Ion Mobility Collision Cross-Sections Using a Deep Neural Network: DeepCCS. Analytical Chemistry 2019, 91,5191–5199.
12. Meier, F., K¨ohler, N. D., Brunner, A.-D., Wanka, J.-M. H., et al. Deep Learning the Collisional Cross Sections of the Peptide Universe from a Million Experimental Values. Nature Communications 2021,12, 1185.
13. Tran, N. H., Zhang, X., Xin, L., Shan, B., et al. De novo peptide sequencing by deep learning. Proceedings of the National Academy of Sciences of the United States of America 2017, 31, 8247–8252.
14. Perez-Riverol, Y., Csordas, A., Bai, J., Bernal-Llinares, M., et al. The PRIDE database and related tools and resources in 2019: improving support for quantification data. Nucleic Acids Res 2019, 47, D442–D450.
15. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
16. Deutsch, E. W., Bandeira, N., Sharma, V., Perez-Riverol, Y., et al. The ProteomeXchange Consortium in 2020: Enabling ’Big Data’ Approaches in Proteomics. Nucleic Acids Research 2019, 48,D1145–D1152.
17. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
18. Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural computation 1997, DOI: 10.1162/neco.1997.9.8.1735.
19. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., et al. Attention Is All You Need. Advances in Neural Information Processing Systems 2017, 30.
20. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
21. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Nelson, R., et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model. bioRxiv 2023, DOI: 10.1101/2023.01.03.522621.
22. Jin, Z., Xu, S., Zhang, X., Ling, T., et al. ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing. arXiv preprint arXiv:2312.11584 2023.
23. Yang, T., Ling, T., Sun, B., Liang, Z., et al. Introducing π-HelixNovo for practical large-scale de novo peptide sequencing. Briefings in Bioinformatics 2024, 25, bbae021.
24. Lee, S., Kim, H. Bidirectional de novo peptide sequencing using a transformer model. PLOS Computational Biology 2024, 20, e1011892.
25. Xia, J., Chen, S., Zhou, J., Lin, T., et al. AdaNovo: Adaptive De Novo Peptide Sequencing with Conditional Mutual Information, arXiv:2043.07013v1, 2024.
26. Eloff, K., Kalogeropoulos, K., Morell, O., Mabona, A., et al. De novo peptide sequencing with InstaNovo: Accurate, database-free peptide identification for large scale proteomics experiments. bioRxiv 2023, 2023–08.
27. Sanders, J., Oh, S., Noble, W. S. A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data, Manuscript in preparation.
28. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
29. Mao, Z., Zhang, R., Xin, L., Li, M. Mitigating the missing fragmentation problem in de novo peptide sequencing with a two stage graph-based deep learning model. Nature Machine Intelligence 2023, 5.
30. Ying, C., Cai, T., Luo, S., Zheng, S., et al. Advances in Neural Information Processing Systems,Curran Associates, Inc.: 2021; Vol. 34, pp 28877–28888.
31. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
32. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
33. Xu, X., Yang, C., He, Q., Shu, K., et al. PGPointNovo: an efficient neural network-based tool for parallel de novo peptide sequencing. Bioinformatics Advances 2023, 3.
34. Ge, C., Lu, Y., Qu, J., Xie, L., et al. DePS: an improved deep learning model for de novo peptide sequencing. arXiv preprint arXiv:2203.08820 2022.
35. Wu, R., Zhang, X., Wang, R., Wang, H. Denovo-GCN: De Novo Peptide Sequencing by GraphConvolutional Neural Networks. Applied Sciences 2023, 13.
36. Wang, K., Zhu, M., Boulila, W., Driss, M., et al. SeqNovo: De Novo Peptide Sequencing Prediction in IoMT via Seq2Seq. IEEE Journal of Biomedical and Health Informatics 2023.
37. Cho, K., Van Merri¨enboer, B., Gulcehre, C., Bahdanau, D., et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078 2014.
38. Yang, H., Chi, H., Zeng, W., Zhou, W., et al. pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework. Bioinformatics 2019, 35, i83–i90.
39. Chi, H., Chen, H., He, K., Wu, L., et al. pNovo+: de novo peptide sequencing using complementary HCD and ETD tandem mass spectra. Journal of Proteome Research 2013, 12, 615–625.
40. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
41. Joachims, T., Finley, T., Yu, C.-N. J. Cutting-plane training of structural SVMs. Machine learning 2009, 77, 27–59.
42. Klaproth-Andrade, D., Hingerl, J., Bruns, Y., Smith, N. H., et al. Deep learning-driven fragment ion series classification enables highly precise and sensitive de novo peptide sequencing. Nature Communications 2024, 15, 151.
43. Liu, Z., Zhao, C. 2020 16th International Conference on Control, Automation, Robotics and Vision (ICARCV), 2020, pp 1165–1170.
44. Wu, S., Luan, Z., Fu, Z., Wang, Q., et al. BiATNovo: A Self-Attention based Bidirectional Peptide Sequencing Method. bioRxiv 2023, 2023–05.
45. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
46. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
47. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
48. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
49. Beslic, D., Tscheuschner, G., Renard, B. Y., Weller, M. G., et al. Comprehensive evaluation of peptide de novo sequencing tools for monoclonal antibody assembly. Briefings in Bioinoformatics 2022, Advance online access.
50. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
51. Tran, N. H., Qiao, R., Mao, Z., Pan, S., et al. NovoBoard: a comprehensive framework for evaluating the false discovery rate and accuracy of de novo peptide sequencing. bioRxiv 2024, 2024–04.
52. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
53. Karunratanakul, K., Tang, H.-Y., Speicher, D. W., Chuangsuwanich, E., et al. Uncovering Thousands of New Peptides with Sequence-Mask-Search Hybrid De Novo Peptide Sequencing Framework. Molecular and Cellular Proteomics 2019, 18, 2478–2491.
54. Elias, J. E., Gygi, S. P. Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry. Nature Methods 2007, 4, 207–214.
55. Lin, A., See, D., Fondrie, W. E., Keich, U., et al. Target-decoy false discovery rate estimation using Crema. Proteomics 2023, 2300084.
56. Qi, C. R., Su, H., Mo, K., Guibas, L. J. Proceedings of the IEEE Conference On Computer Vision and Pattern Recognition, 2016, pp 652–660.
 


-掃碼關(guān)注-

www.bioinfor.com (EN)
www.deepproteomics.cn(CN)

作為生物信息學(xué)的領(lǐng)軍企業(yè),BSI專(zhuān)注于蛋白質(zhì)組學(xué)和生物藥領(lǐng)域,通過(guò)機(jī)器學(xué)習(xí)和先進(jìn)算法提供世界領(lǐng)先的質(zhì)譜數(shù)據(jù)分析軟件和蛋白質(zhì)組學(xué)服務(wù)解決方案,以推進(jìn)生物學(xué)研究和藥物發(fā)現(xiàn)。我們通過(guò)基于AI的計(jì)算方案,為您提供對(duì)蛋白質(zhì)組學(xué)、基因組學(xué)和醫(yī)學(xué)的卓越洞見(jiàn)。旗下著名的PEAKS®️系列軟件在全世界擁有數(shù)千家學(xué)術(shù)和工業(yè)用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️免疫肽組發(fā)現(xiàn)服務(wù)和抗體綜合表征服務(wù)等。
聯(lián)系方式:021-60919891;sales-china@bioinfor.com

 

來(lái)源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com