English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術文章 > CNVkit工具詳解:既簡又快地檢測外顯子拷貝數(shù)變異

CNVkit工具詳解:既簡又快地檢測外顯子拷貝數(shù)變異

瀏覽次數(shù):1114 發(fā)布日期:2024-12-12  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負

人類染色體在遺傳過程中,有時候會丟失或增加一部分,遺傳學將這種DNA的增減現(xiàn)象稱為拷貝數(shù)變異(CNV)。CNV通常為長度大于1kb的片段變異,里面往往包含一個或多個基因,若變異片段包含功能特別重要、對劑量水平敏感的基因,就會導致疾病的發(fā)生,可導致智力低下、發(fā)育異常等癥狀,引起殘疾、甚至死亡。

外顯子不同于基因組,由于是捕獲測序,本身就是各個外顯子區(qū)域分割開來,這樣造成2個影響:(1)大片段的CNV被切開形成多個假陽性;(2)只能檢測小的CNV。因此對檢測軟件要求很靈敏。

目前有很多檢測CNV的工具,比如CNVseq、CNVnator/CNVpytor、Conifer、WisecondorX等,但這些工具要么是安裝難度大,要么是不適合外顯子CNV檢測,又或者使用繁瑣。有沒有一種安裝方便、用法簡單、適合外顯子CNV檢測的工具?就是今天要說的CNVkit。

CNVkit于2016年發(fā)表在PLOS computational biology上,詳見《CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing》。CNVkit是基于Python3.7+開發(fā)的一款專門用于基因組高通量測序數(shù)據(jù)拷貝數(shù)變異(CNV)檢測工具,并提供多種可視化方法。

img1

CNVkit分析流程示意圖

 
該方法將in-target和off-target區(qū)域劃分成小的bin區(qū)間,統(tǒng)計每個bin區(qū)間內(nèi)的測序深度、GC含量,并通過GC含量、目的區(qū)域的大小和分布密度等對原始測序深度進行校正,去除腫瘤樣本中的背景噪音,然后計算腫瘤樣本相對正常樣本對應位置拷貝數(shù)的log2 ratio值, 最后采用segment算法進行過濾,得到最終的腫瘤樣本拷貝數(shù)變異結果。


軟件安裝使用介紹

1、通常我們使用conda安裝,另外需要額外安裝R包DNAcopy,因為CNVkit內(nèi)部需要借助DNAcopy包進行拷貝數(shù)估算,安裝沒什么幺蛾子,比較順利。
2、需要下載基因注釋文件,用于對CNV結果進行基因注釋,這倒省了我們單獨注釋的麻煩。該文件可以在UCSC上下載
PS:如果需要做hg38或其他物種,可以從NCBI下載物種基因組注釋文件(gtf或gff格式),提取信息自行制作refFlat.txt.gz文件,格式跟UCSC下載的保持一致即可。
3、參考基因可在NCBI或UCSC上下載,需要與refFlat.txt.gz文件基因信息一致。
4、樣本bam數(shù)據(jù),參考BWA流程獲得。
5、一鍵運行:
$cnvkit access $ref -s $window -o $out/access-${window}.bed
$cnvkit.py batch --method hybrid $Tumor.bam \
--normal $Normal.bam\
--annotate $refFlat \
--fasta $ref \
-t $target.bed \
--access $out/access-${window}.bed \
-d $output \
--segment-method hmm \
--diagram \
--scatter \
-p 6
PS:使用CNVkit的batch命令,可以一步完成所有分析步驟,最后用--diagram和--scatter用于繪制拷貝數(shù)變異總覽圖和染色體分布圖,不需要可以不使用。


文獻摘錄

這里介紹一篇發(fā)表于2022年的文章《Gliosarcoma: The Distinct Genomic Alterations Identified by Comprehensive Analysis of Copy Number Variations》,研究者使用CNVkit對膠質(zhì)母細胞瘤(GBM)和膠質(zhì)肉瘤(GSM)的DNA拷貝數(shù)變異(CNV)進行了全面分析,下圖就展示了21例GBM 和15例GSM 樣本拷貝數(shù)變異在染色體上的分布(該圖使用CNVkit自帶參數(shù)heatmap生成)。

img2

Figure 1 橫坐標是染色體,縱坐標是樣本,紅色表示拷貝數(shù)擴增,藍色表示拷貝數(shù)缺失,顏色越深,表示拷貝數(shù)擴增/缺失越多

來源:上海生物芯片有限公司
聯(lián)系電話:400-100-2131
E-mail:marketing@shbiochip.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com