English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > GlycanFinder:結(jié)合數(shù)據(jù)庫搜索和從頭測序的糖蛋白組學(xué)分析

GlycanFinder:結(jié)合數(shù)據(jù)庫搜索和從頭測序的糖蛋白組學(xué)分析

瀏覽次數(shù):1999 發(fā)布日期:2023-8-7  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
近日,來自于加拿大Bioinformatics Solutions Inc.的PEAKS團(tuán)隊、滑鐵盧大學(xué)David R. Cheriton計算機(jī)科學(xué)學(xué)院的李明教授團(tuán)隊以及百蓁生物的研究者,在Nature Communication發(fā)表了結(jié)合數(shù)據(jù)庫搜索和從頭測序?qū)崿F(xiàn)高靈敏度糖蛋白組學(xué)分析的PEAKS GlycanFinder軟件工具。GlycanFinder集成了基于肽段和基于聚糖,二者兼顧的搜索策略,以解決來自糖肽極為復(fù)雜的碎片離子的解析問題。通過深度學(xué)習(xí)策略對聚糖復(fù)雜的分枝結(jié)構(gòu)及其產(chǎn)生的碎片離子進(jìn)行聚糖的從頭測序;谶@樣的策略,GlycanFinder還可以鑒定現(xiàn)有數(shù)據(jù)庫中沒有發(fā)現(xiàn)的糖肽。

隨著液相與串聯(lián)質(zhì)譜(LC-MS /MS)的技術(shù)發(fā)展,糖蛋白組學(xué)中的研究中,已經(jīng)能夠?qū)ν暾奶请倪M(jìn)行位點(diǎn)特異性糖譜學(xué)分析,包括蛋白質(zhì)、修飾位點(diǎn)、 聚糖結(jié)構(gòu),并可對其進(jìn)行定量分析。但是對于糖肽鑒定仍然存在的挑戰(zhàn),糖肽產(chǎn)生的譜圖非常的復(fù)雜,碎片離子類型眾多,包括了來自于多肽的b/y,c/z,來自于聚糖的B/Y等。對于N-link和O-link的糖肽分析,同時考慮譜圖中所呈現(xiàn)的肽段碎片信息或者聚糖碎片信息,基于蛋白和聚糖的數(shù)據(jù)庫挑選出所有可能的候選。當(dāng)來自于多肽的信號或者聚糖的信號較差時,造成難以挑選出候選糖肽的不利局面,則可被改善。另外,作者通過整合了動態(tài)規(guī)劃,圖形神經(jīng)網(wǎng)絡(luò),Transformer神經(jīng)網(wǎng)絡(luò)構(gòu)建了學(xué)習(xí)糖結(jié)構(gòu)和基于質(zhì)譜數(shù)據(jù)重建聚糖分枝結(jié)構(gòu)的深度學(xué)習(xí)模型。并且對于糖肽的鑒定結(jié)果,從多肽水平和聚糖水平分別通過Target-Decoy的策略進(jìn)行FDR的評估。

1. 完整糖肽分析的工作流程
為了提高靈敏度,GlycanFinder同時應(yīng)用基于肽和糖的搜索。如果在基于多肽的搜索后譜圖仍未被鑒定,則會進(jìn)行基于聚糖的搜索。基于肽和聚糖搜索的組合利用了肽和聚糖碎片離子,因此減少了因為碎片信號差而錯過一些候選的概率。確定了候選糖肽,在第二輪打分時,會綜合考慮肽主鏈產(chǎn)生的離子、糖肽 Y 離子和 B 離子評估糖肽譜匹配 (glycoPSM) 并估計其 FDR。
糖肽分析中的一個常見問題是,在一個肽序列中可能存在多個糖基化位點(diǎn)或具有相同組成的多個異構(gòu)體的聚糖,這增加了糖肽匹配的不確定性。通過A-score計算位點(diǎn)特異性,由排名第一和第二候選位點(diǎn)的分?jǐn)?shù)差獲得。類似地,當(dāng)具有相同組成的多個異構(gòu)體聚糖匹配一個譜圖時,它們的結(jié)構(gòu)分?jǐn)?shù)是用它們各自的糖肽Y離子來計算的。通過排名第一和排名第二的糖結(jié)構(gòu)分?jǐn)?shù)差來計算S-score,然后選擇得分最高的多糖。glycoPSM的A-score和S-score反映了其糖基化位點(diǎn)和糖鏈結(jié)構(gòu)分配的置信度,因為第一和第二候選得分之間的較大差異意味著最好得分(方法)的分配得到了更有力的支持證據(jù)。
glycoPSM的S得分定義為:
 
2. 基于深度學(xué)習(xí)的N-link糖肽從頭測序
與先前報道的一些聚糖從頭測序的方法不同,GlycanFinder遵循數(shù)據(jù)驅(qū)動的方法,并應(yīng)用機(jī)器學(xué)習(xí)模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)聚糖結(jié)構(gòu)。
給定一張譜圖以及聚糖的質(zhì)量數(shù)(通過母離子質(zhì)量數(shù)-多肽質(zhì)量數(shù)),作者通過動態(tài)規(guī)劃的方法計算糖的組成,樹狀的糖結(jié)構(gòu)從“根”到“葉”進(jìn)行構(gòu)建。深度學(xué)習(xí)模型用于預(yù)測下一個單糖。將五種單糖(Hex、HexNAc、Fuc、NeuAc、NeuGc)或其可能產(chǎn)生的每一種組合添加到部分樹中創(chuàng)建候選樹池,然后用兩個神經(jīng)網(wǎng)絡(luò)(其中一個Graphormer神經(jīng)網(wǎng)絡(luò)用來捕獲候選樹的結(jié)構(gòu),另一個用來捕獲候選樹和譜圖之間匹配糖肽的Y,B離子)對每個候選樹進(jìn)行評分,選擇得分最高的樹進(jìn)行下一次迭代。直到由動態(tài)規(guī)劃計算出的聚糖組成的所有單糖均已被使用。該模型的核心思想和多肽從頭測序一樣,希望借由 Transformer 圖神經(jīng)網(wǎng)絡(luò)捕獲的候選樹的結(jié)構(gòu),在碎片離子之外提供額外的證據(jù)來預(yù)測下一個單糖。

Glycan從頭測序的評估
基于五種小鼠組織(腦、心臟、腎、肝、肺)的數(shù)據(jù)集,作者評估了聚糖從頭測序的深度學(xué)習(xí)模型。首先進(jìn)行N-link糖庫搜索,并以 1% FDR 識別出 139,208 個 glycoPSM,隨后用于訓(xùn)練和測試(以五次交叉驗證方式進(jìn)行,其中四種組織的 glycoPSM 用于訓(xùn)練,其余組織的 glycoPSM 用于測試),例如肺的數(shù)據(jù)用與測試時,其他四種(腦、腎、心、肝臟)的數(shù)據(jù)用于訓(xùn)練。從訓(xùn)練集中排除了測試集的所有聚糖,以確保訓(xùn)練集和測試集沒有任何共同的聚糖。
對于每個 glycoPSM,de novo 聚糖與目標(biāo)聚糖(從數(shù)據(jù)庫搜索中識別)基于三個級別:組成、碎片離子和結(jié)構(gòu)進(jìn)行比較。
第一級的評估在于de novo 和目標(biāo)的糖是否具有相同的組成,第二,從頭測序的糖和目標(biāo)的糖匹配的糖碎片離子的數(shù)量,第三,計算de novo和目標(biāo)糖結(jié)構(gòu)是否完全匹配。
GlycanFinder 在結(jié)構(gòu),碎片離子和組成三個層次上的平均準(zhǔn)確度分別為 32%、83% 和 89%,而 StrucGP 的準(zhǔn)確度分別為 23%、84% 和 85%。雖然這兩種軟件顯示的碎片離子和成分的準(zhǔn)確性相當(dāng),但 GlycanFinder 的平均結(jié)構(gòu)準(zhǔn)確性大大高于 StrucGP,在所有五種組織中都是如此。結(jié)果證明GlycanFinder 深度學(xué)習(xí)模型在聚糖從頭測序的樹結(jié)構(gòu)學(xué)習(xí)和預(yù)測方面具有優(yōu)勢。

3. 多肽和聚糖的FDR評估
對于多肽的FDR評估,一般采用標(biāo)準(zhǔn)的target-decoy方法,通過對目標(biāo)庫蛋白序列進(jìn)行隨機(jī)打散的方式構(gòu)建誘餌庫蛋白。而對于聚糖的 FDR,由于其非線性結(jié)構(gòu),則應(yīng)用碎片離子的質(zhì)量隨機(jī)偏移來創(chuàng)建誘餌譜圖。僅當(dāng) glycoPSM 的肽和聚糖 FDR 均小于或等于 1% 時,它才能通過 1% FDR 閾值。
通過對裂殖酵母糖蛋白組樣本數(shù)據(jù)集進(jìn)行 N糖肽分析,對GlycanFinder,pGlyco3(版本 20210615)、MetaMorpheus(版本 0.0.320)和 MSFragger(版本 19.0)進(jìn)行FDR評估后的對比。所有軟件均使用相同的數(shù)據(jù)庫和參數(shù)。結(jié)果如圖所示,GlycanFinder 鑒定出 4035 個 glycoPSMs,比pGlyco3 (3553)多13.6%,比 MSFragger (4720) 低 17.0%。MetaMorpheus 鑒定最多glycoPSM(5232),但它FDR高達(dá) 51.6%。當(dāng)GlycanFinder的Glycan 和Peptide FDR閾值放寬,調(diào)整為 0.3% 和 0.2%,以便GlycanFinder與MSFragger的 FDR進(jìn)行比較,此時GlycanFinder 鑒定出 4518 個 glycoPSM,比MSFragger少4.5%。但值得注意的是MSFragger報告的是聚糖成分,而 GlycanFinder 和 pGlyco3 報告的是聚糖結(jié)構(gòu),可提供聚糖更全面的信息。
GlycanFinder還鑒定到70種別的軟件沒有鑒定到的糖肽。如圖所示,在蛋白質(zhì)PO13781|YEO3_SCHPO上的糖基化位點(diǎn)N234處鑒定到的glycoPSMs。GlycanFinder 在該位點(diǎn)鑒定了三個裂殖酵母中常見的聚糖,包括具有高甘露糖結(jié)構(gòu)的 (HexNAc)2(Hex)11 和 (HexNAc)2(Hex)13 ( HexNAc)2(Hex)n。并且在樣品2的編號56,805譜圖中,GlycanFinder在同樣譜圖上鑒定到的高甘露糖聚糖 H11N2比pGlyco3鑒定的H6N6有更好的糖肽B/Y離子。而MSFragger 則沒有在該糖基化位點(diǎn)的報告任何鑒定結(jié)果。

 
4. 基于HUPO人類糖蛋白組學(xué)計劃的研究綜合評估
Kawahara等人最近描述了HUPO 人類糖蛋白組學(xué)計劃 (HGI)研究,評估來自9個開發(fā)團(tuán)隊和13個用戶團(tuán)隊的11個糖蛋白組學(xué)軟件的性能,以進(jìn)行完整的糖肽分析。
他們的研究提供了來自人類血清的標(biāo)準(zhǔn)糖蛋白組學(xué)數(shù)據(jù)集和全面的評價標(biāo)準(zhǔn)。在這里,我們還在相同的基準(zhǔn)上對GlycanFinder進(jìn)行了評估,并與Kawahara報告的結(jié)果進(jìn)行了比較,研究中的結(jié)果包括IQ-GPA v2.5,Prospector v5.20.23,GlyXtoolMS v0.1.4,Byonic v2.16.16,Sugar Qb,Glycopeptide Search v2.0alpha、GlyCopeptideGraphMS v1.0、GlycoPAT v2.0和GPQuest v2.0。我們還將我們的結(jié)果與Kawahara等人報告的最佳用戶團(tuán)隊的結(jié)果進(jìn)行了比較。
結(jié)果顯示,總體而言,GlycanFinder的性能略好于報告的最佳結(jié)果 (0.789 vs 0.777),并超過了其他九個軟件。此外,GlycanFinder在N1-N3、N5、N6(0.833-0.952)的五個標(biāo)準(zhǔn)中始終得分很高,鑒定N-連接糖肽和糖蛋白方面具有很高的準(zhǔn)確性,同時適當(dāng)?shù)乜刂屏薋DR。然而,在N4測試中,GlycanFinder在識別的N-連接糖肽的數(shù)量方面表現(xiàn)不佳。我們進(jìn)一步檢查了GlycanFinder和其他工具的結(jié)果之間的一致性。左圖顯示GlycanFinder的83%的N-連接的糖鏈成分和78%的N-連接的糖蛋白也被至少三個其他工具報告。右圖顯示了GlycanFinder報告的N-連接聚糖與其他高評分工具(如User Team 15、Prospector或Byonic)報告的N-連接聚糖的一致分類。


5. O-連接糖肽分析方法的評價
O-連接糖是通過絲氨酸(S)或蘇氨酸(T)殘基的羥基連接到蛋白上的。因此,在一個肽序列中通常有不止一個的O-糖基化位點(diǎn)。GlycanFinder允許每個肽最多兩個O-連接的聚糖,并使用內(nèi)部碎片離子來確定最佳糖基化位點(diǎn),計算其糖基化位點(diǎn)分配的特定位點(diǎn)定位分?jǐn)?shù)(A-Score)。
GlycanFinder的總體得分為0.730,在超過了Kawahara等人之前的研究中,其他9個軟件報告的最好結(jié)果。總體而言,基于HGI研究的benchmark結(jié)果表明,GlycanFinder代表了N-糖蛋白組學(xué)和O-糖蛋白組學(xué)的高性能信息解決方案。


參考文獻(xiàn)
Sun, W., Zhang, Q., Zhang, X. et al. Glycopeptide database search and de novo sequencing with PEAKS GlycanFinder enable highly sensitive glycoproteomics. Nat Commun 14, 4046 (2023). https://doi.org/10.1038/s41467-023-39699-5

悄悄劇透一下,GlycanFinder 2.0 版本即將發(fā)布,敬請期待!
(點(diǎn)擊圖片即可查看活動詳情)

如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容,歡迎掃描下方二維碼關(guān)注我們!
來源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com