English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術(shù)文章 > 序列數(shù)據(jù)庫搜索評分基本原理詳解

序列數(shù)據(jù)庫搜索評分基本原理詳解

瀏覽次數(shù):1240 發(fā)布日期:2023-8-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負
LDF評分
PEAKS DB中的評分計算如下圖所示
PEAKS DB在內(nèi)部使用LDF評分(線性判別函數(shù))來評判肽譜圖的匹配質(zhì)量。LDF評分不僅使用碎片離子與譜圖中碎片峰之間的匹配,還考慮許多其他因素,例如de novo測序的多肽和數(shù)據(jù)庫搜索得到的多肽序列之間的相似性。
LDF評分可以實現(xiàn)以下兩個目標:
  • 對于MS/MS數(shù)據(jù)集中的每個譜圖,從數(shù)據(jù)庫中找到最有可能正確的肽;
  • 對于整個數(shù)據(jù)集,盡可能分出正確匹配與錯誤匹配。

P-Value
LDF分數(shù)將轉(zhuǎn)換為P值,以便更好地進行人工詮釋。
P值:對于一個給定的評分x, 其相應(yīng)的P值是“一個錯誤匹配得到的分值>x”的概率。
P值越小,肽-譜圖匹配是隨機匹配的概率就越小。下圖更好地解釋了P值的含義。
請注意,盡管許多軟件包中都使用“P-value”,它們的含義可能各不相同。P值的另一個流行的定義是“肽段與當前譜圖匹配得分>x是隨機匹配的概率”。然而,在數(shù)據(jù)庫搜索中,錯誤鑒定是數(shù)據(jù)庫中許多隨機肽的結(jié)果,而不僅僅是一個隨機肽。因此,PEAKS DB中的P值定義對于控制結(jié)果的質(zhì)量更加有用。



-10logP
將P值轉(zhuǎn)換為 -10*log10(P值),使其更加“人性化”。在PEAKS中,該值用-10lgP表示,因為lg是log10的ISO保留表示法。通過此轉(zhuǎn)換,更顯著的匹配將對應(yīng)更高的-10lgP值。此外,P值為1% 時,即-10lgP 為 20。
下圖是PEAKS數(shù)據(jù)庫搜索結(jié)果的屏幕截圖。x軸是 -10lgP 分數(shù),y 軸是在該分數(shù)下的肽譜匹配數(shù)量。通常,大于20的分數(shù)具有相對較高的置信度(如圖中所示有許多目標,但很少有誘餌匹配超過該閾值)。對于大型數(shù)據(jù)集,建議使用FDR(錯誤發(fā)現(xiàn)率)來選擇正確的 -10lgP分數(shù)閾值(這在PEAKS中很容易)。但是,當數(shù)據(jù)集很小時(#譜圖“<100或蛋白質(zhì)數(shù)據(jù)庫僅包含少量蛋白質(zhì)),直接選擇-10lgP=20是更合適的篩選方法。

 
參考文獻
  • Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).  
  • Xin, L., Qiao, R., Chen, X. et al. A streamlined platform for analyzing tera-scale DDA and DIA mass spectrometry data enables highly sensitive immunopeptidomics. Nat Commun 13, 3108 (2022). doi:10.1038/s41467-022-30867-7
(點擊圖片即可查看活動詳情)

如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容,歡迎掃描下方二維碼關(guān)注我們!
來源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com