人類染色體在遺傳過程中,有時候會丟失或增加一部分,遺傳學將這種DNA的增減現(xiàn)象稱為拷貝數(shù)變異(CNV)。CNV通常為長度大于1kb的片段變異,里面往往包含一個或多個基因,若變異片段包含功能特別重要、對劑量水平敏感的基因,就會導致疾病的發(fā)生,可導致智力低下、發(fā)育異常等癥狀,引起殘疾、甚至死亡。
外顯子不同于基因組,由于是捕獲測序,本身就是各個外顯子區(qū)域分割開來,這樣造成2個影響:(1)大片段的CNV被切開形成多個假陽性;(2)只能檢測小的CNV。因此對檢測軟件要求很靈敏。
目前有很多檢測CNV的工具,比如CNVseq、CNVnator/CNVpytor、Conifer、WisecondorX等,但這些工具要么是安裝難度大,要么是不適合外顯子CNV檢測,又或者使用繁瑣。有沒有一種安裝方便、用法簡單、適合外顯子CNV檢測的工具?就是今天要說的CNVkit。
CNVkit于2016年發(fā)表在PLOS computational biology上,詳見《CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing》。CNVkit是基于Python3.7+開發(fā)的一款專門用于基因組高通量測序數(shù)據(jù)拷貝數(shù)變異(CNV)檢測工具,并提供多種可視化方法。
CNVkit分析流程示意圖
該方法將in-target和off-target區(qū)域劃分成小的bin區(qū)間,統(tǒng)計每個bin區(qū)間內(nèi)的測序深度、GC含量,并通過GC含量、目的區(qū)域的大小和分布密度等對原始測序深度進行校正,去除腫瘤樣本中的背景噪音,然后計算腫瘤樣本相對正常樣本對應位置拷貝數(shù)的log2 ratio值, 最后采用segment算法進行過濾,得到最終的腫瘤樣本拷貝數(shù)變異結果。
軟件安裝使用介紹
1、通常我們使用conda安裝,另外需要額外安裝R包DNAcopy,因為CNVkit內(nèi)部需要借助DNAcopy包進行拷貝數(shù)估算,安裝沒什么幺蛾子,比較順利。
2、需要下載基因注釋文件,用于對CNV結果進行基因注釋,這倒省了我們單獨注釋的麻煩。該文件可以在UCSC上下載
PS:如果需要做hg38或其他物種,可以從NCBI下載物種基因組注釋文件(gtf或gff格式),提取信息自行制作refFlat.txt.gz文件,格式跟UCSC下載的保持一致即可。
3、參考基因可在NCBI或UCSC上下載,需要與refFlat.txt.gz文件基因信息一致。
4、樣本bam數(shù)據(jù),參考BWA流程獲得。
5、一鍵運行:
$cnvkit access $ref -s $window -o $out/access-${window}.bed
$cnvkit.py batch --method hybrid $Tumor.bam \
--normal $Normal.bam\
--annotate $refFlat \
--fasta $ref \
-t $target.bed \
--access $out/access-${window}.bed \
-d $output \
--segment-method hmm \
--diagram \
--scatter \
-p 6
PS:使用CNVkit的batch命令,可以一步完成所有分析步驟,最后用--diagram和--scatter用于繪制拷貝數(shù)變異總覽圖和染色體分布圖,不需要可以不使用。
文獻摘錄
這里介紹一篇發(fā)表于2022年的文章《Gliosarcoma: The Distinct Genomic Alterations Identified by Comprehensive Analysis of Copy Number Variations》,研究者使用CNVkit對膠質(zhì)母細胞瘤(GBM)和膠質(zhì)肉瘤(GSM)的DNA拷貝數(shù)變異(CNV)進行了全面分析,下圖就展示了21例GBM 和15例GSM 樣本拷貝數(shù)變異在染色體上的分布(該圖使用CNVkit自帶參數(shù)heatmap生成)。
Figure 1 橫坐標是染色體,縱坐標是樣本,紅色表示拷貝數(shù)擴增,藍色表示拷貝數(shù)缺失,顏色越深,表示拷貝數(shù)擴增/缺失越多