序列數(shù)據(jù)庫搜索評分基本原理詳解

瀏覽次數(shù)：1240　發(fā)布日期：2023-8-4　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責任自負

LDF評分
PEAKS DB中的評分計算如下圖所示

PEAKS DB在內(nèi)部使用LDF評分（線性判別函數(shù)）來評判肽譜圖的匹配質(zhì)量。LDF評分不僅使用碎片離子與譜圖中碎片峰之間的匹配，還考慮許多其他因素，例如de novo測序的多肽和數(shù)據(jù)庫搜索得到的多肽序列之間的相似性。
LDF評分可以實現(xiàn)以下兩個目標：

對于MS/MS數(shù)據(jù)集中的每個譜圖，從數(shù)據(jù)庫中找到最有可能正確的肽；
對于整個數(shù)據(jù)集，盡可能分出正確匹配與錯誤匹配。

P-Value
LDF分數(shù)將轉(zhuǎn)換為P值，以便更好地進行人工詮釋。
P值:對于一個給定的評分x, 其相應(yīng)的P值是“一個錯誤匹配得到的分值>x”的概率。
P值越小，肽-譜圖匹配是隨機匹配的概率就越小。下圖更好地解釋了P值的含義。

請注意，盡管許多軟件包中都使用“P-value”，它們的含義可能各不相同。P值的另一個流行的定義是“肽段與當前譜圖匹配得分>x是隨機匹配的概率”。然而，在數(shù)據(jù)庫搜索中，錯誤鑒定是數(shù)據(jù)庫中許多隨機肽的結(jié)果，而不僅僅是一個隨機肽。因此，PEAKS DB中的P值定義對于控制結(jié)果的質(zhì)量更加有用。

-10logP

將P值轉(zhuǎn)換為 -10*log10（P值），使其更加“人性化”。在PEAKS中，該值用-10lgP表示，因為lg是log10的ISO保留表示法。通過此轉(zhuǎn)換，更顯著的匹配將對應(yīng)更高的-10lgP值。此外，P值為1% 時，即-10lgP 為 20。
下圖是PEAKS數(shù)據(jù)庫搜索結(jié)果的屏幕截圖。x軸是 -10lgP 分數(shù)，y 軸是在該分數(shù)下的肽譜匹配數(shù)量。通常，大于20的分數(shù)具有相對較高的置信度（如圖中所示有許多目標，但很少有誘餌匹配超過該閾值）。對于大型數(shù)據(jù)集，建議使用FDR（錯誤發(fā)現(xiàn)率）來選擇正確的 -10lgP分數(shù)閾值（這在PEAKS中很容易）。但是，當數(shù)據(jù)集很小時（#譜圖“<100或蛋白質(zhì)數(shù)據(jù)庫僅包含少量蛋白質(zhì)），直接選擇-10lgP=20是更合適的篩選方法。

參考文獻

Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).
Xin, L., Qiao, R., Chen, X. et al. A streamlined platform for analyzing tera-scale DDA and DIA mass spectrometry data enables highly sensitive immunopeptidomics. Nat Commun 13, 3108 (2022). doi:10.1038/s41467-022-30867-7

（點擊圖片即可查看活動詳情）

如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容，歡迎掃描下方二維碼關(guān)注我們！

索取資料

來源：百蓁生物科技（上海）有限公司
聯(lián)系電話：021-60919881
E-mail：sales-china@bioinfor.com

【點擊可查看百蓁生物科技（上海）有限公司相關(guān)產(chǎn)品】

標簽：定性分析；搜庫

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞