人類基因組中的變異和人類的演化、疾病風(fēng)險等方面都有著密切的聯(lián)系;蚪M變異主要包括單核苷酸突變、插入缺失和結(jié)構(gòu)變異三大類。而受技術(shù)限制,
結(jié)構(gòu)變異分析仍然是一大塊“神秘土地”,齊碳通過總結(jié)近幾年人類基因組結(jié)構(gòu)變異相關(guān)的研究成果,與大家分享目前基于納米孔測序技術(shù)長讀長優(yōu)勢的結(jié)構(gòu)變異測序與分析方法,為更好地從群體及個體角度解析結(jié)構(gòu)變異提供新思路。
結(jié)構(gòu)變異
結(jié)構(gòu)變異(Structural variation, SV)是指序列長度大于50 bp的基因組序列變化,可以分為缺失(Deletion)、插入(Insertion)、重復(fù)(Duplication)、倒位(Inversion)和易位(Translocation)以及復(fù)雜結(jié)構(gòu)變異等。其中,缺失和重復(fù)事件也稱為拷貝數(shù)變異(Copy number variation/alteration, CNV/CNA)。
圖1 結(jié)構(gòu)變異類型[1]
值得一提的是,在人類基因組中,結(jié)構(gòu)變異的數(shù)量雖然遠少于單核苷酸變異(Single-nucleotide variant,SNV)的數(shù)量(表1),但研究發(fā)現(xiàn)
結(jié)構(gòu)變異對基因組的影響卻更大。這是由于DNA序列變化越大,其有害性通常也越大。
如表1所示,人類基因組結(jié)構(gòu)變異的數(shù)量約占SNV數(shù)量的0.5%,但受結(jié)構(gòu)變異影響的堿基數(shù)卻是SNV總和的10倍之多。與SNV相比,大片段結(jié)構(gòu)變異與全基因組關(guān)聯(lián)信號相關(guān)的可能性高出3倍,影響基因表達的可能性則達30倍以上。
表1人類遺傳變異的類別與其影響基因組長度占比[2]
隨著結(jié)構(gòu)變異成為越來越多研究關(guān)注的熱點,目前主要檢測方法呈現(xiàn)多樣化。但由于技術(shù)限制,
如何更準確檢測大片段結(jié)構(gòu)變異(如拷貝數(shù)變異、大片段InDel、染色體倒位、染色體內(nèi)部或染色體之間的序列易位等)依然充滿挑戰(zhàn)。
相比于其他檢測技術(shù),
三代測序發(fā)揮長讀長的優(yōu)勢可跨越基因組中大片段結(jié)構(gòu)變異,為結(jié)構(gòu)變異的準確分析提供了新平臺。
一方面,
三代測序技術(shù)有效增加了結(jié)構(gòu)變異檢測的數(shù)量和類型,例如復(fù)雜結(jié)構(gòu)變異、串聯(lián)重復(fù)和轉(zhuǎn)座元件插入等;另一方面,
可以幫助獲取結(jié)構(gòu)變異更完整的信息,例如斷點位置和完整的變異序列等。

圖2 長讀長測序和短讀長測序檢測結(jié)構(gòu)變異數(shù)量
[3]
納米孔測序檢測結(jié)構(gòu)變異方法
納米孔測序檢測結(jié)構(gòu)變異的方法可分為
全基因組納米孔測序和
目標區(qū)域納米孔測序。
全基因組納米孔測序
全基因組納米孔測序可以全面檢測基因組中發(fā)生的結(jié)構(gòu)變異,但通常所需數(shù)據(jù)量較大,例如能夠檢測到人類樣本約在15x測序深度下的可靠胚系結(jié)構(gòu)變異。
2020年,針對3622個冰島人樣本進行全基因組納米孔測序(深度:~17.2x)揭示了冰島人群結(jié)構(gòu)變異特征,同時還發(fā)現(xiàn)與LDL膽固醇和身高等性狀相關(guān)的基因結(jié)構(gòu)變異
[4]。
2021年,另一篇針對405個中國人樣本的全基因組納米孔測序研究(深度:~17x),將檢測到的結(jié)構(gòu)變異與其臨床性狀(生化、血液和血清成分等指標)進行關(guān)聯(lián)分析,發(fā)現(xiàn)14號染色體的22個SV事件與13個表型呈顯著相關(guān)。研究還揭示了中國南北方人在免疫相關(guān)基因上面臨著不同的選擇壓力
[5]。

圖3 中國南北方人人群分層
目標區(qū)域納米孔測序
目標區(qū)域納米孔測序則是僅對獲取的目標區(qū)域測序,研究針對性強且所需數(shù)據(jù)量少。獲取目標區(qū)域序列方式是多樣化的,包含PCR擴增、探針捕獲和Cas9富集。PCR擴增和探針捕獲方式獲取的目標區(qū)域測序深度較高,但在擴增過程中往往無法保留堿基的修飾信息;而Cas9富集測序的目標區(qū)域深度波動范圍較大,但可以相對完整地保留堿基修飾信息。
一項對林奇綜合征的研究,
通過探針捕獲相關(guān)基因全長序列和納米孔測序(深度:~1000x),能夠檢測到MLH1和MSH2基因上的缺失或重復(fù)事件[6];另一項研究利用PCR對視網(wǎng)膜母細胞瘤病人
RB1基因的序列擴增和納米孔測序,檢測到
RB1基因
exon23缺失,并在缺失位置檢測到85bp的插入序列
[7]。

圖4 林奇綜合征患者MLH1和MSH2基因的結(jié)構(gòu)變異
納米孔測序結(jié)構(gòu)變異數(shù)據(jù)分析方法
由于測序數(shù)據(jù)前期可以采用比對法或組裝法處理,使得結(jié)構(gòu)變異分析方法也有所不同。
·基于
比對法主要利用比對到斷點位置的Split reads識別結(jié)構(gòu)變異,即一條read被分割成多個區(qū)域比對在參考基因組不同位置。該方法常用的檢測軟件如表2所示。
·基于
組裝法是先對個體基因組組裝,再比較組裝后的基因組和參考基因組的差異分析結(jié)構(gòu)變異。
表2 SV檢測軟件匯總表
[1]

支持數(shù)據(jù)僅為研究文章所用數(shù)據(jù)
相關(guān)文章基于納米孔測序數(shù)據(jù)對Snifffles、cuteSV、pbsv、NanoVar、NanoSV和SVIM等分析軟件進行測評。
利用數(shù)據(jù)模擬軟件得到含24600個SVs的納米孔測序數(shù)據(jù),對已檢測出的結(jié)構(gòu)變異的位置、長度、類型和基因型信息進行軟件表現(xiàn)評估。結(jié)果顯示:測序深度超過20x后(10x、20x、30x和50x),以上軟件檢測結(jié)構(gòu)變異檢測數(shù)量的增速均有所減緩。其中,cuteSV的綜合表現(xiàn)較為穩(wěn)定。
表3 SV分析軟件檢測能力測評
[8]

combiSV(6): 整合6個軟件檢測結(jié)果
perfect matches代表檢測到SV的類型、基因型、完整的長度和位置均正確
中國人群大規(guī)模結(jié)構(gòu)變異的研究中也發(fā)現(xiàn),當測序深度達到15x ,若繼續(xù)增加測序深度,結(jié)構(gòu)變異檢測數(shù)量將逐漸趨于穩(wěn)定。

圖5 不同測序深度下結(jié)構(gòu)變異檢測數(shù)量
[4-5]
左:HG002在不同深度(8~40x)和軟件下檢測SV的數(shù)量;Combine代表兩個軟件交集結(jié)果
右:利用sniffles檢測3622個冰島人結(jié)構(gòu)變異的數(shù)量;每一個點代表一個個體的測序深度和檢測SV數(shù)量
由此可見,納米孔測序檢測結(jié)構(gòu)變異的測序方法和分析方法是多樣化的。而在實際研究應(yīng)用中,挖掘基因組結(jié)構(gòu)變異硬實力(技術(shù)平臺)和軟實力(數(shù)據(jù)算法)缺一不可,隨著檢測技術(shù)的不斷成熟和軟件算法的不斷進步,研究者可以根據(jù)自己的研究目的、數(shù)據(jù)特征和軟件檢測力選擇合適的檢測技術(shù),或者通過不同技術(shù)組合和不同算法組合從而達到增效作用。
參考資料:
[1] van Belzen IAEM, Schönhuth A, Kemmeren P, Hehir-Kwa JY. Structural variant detection in cancer genomes: computational challenges and perspectives for precision oncology. NPJ Precis Oncol. 2021. 2;5(1):15.
[2] Eichler EE. Genetic Variation, Comparative Genomics, and the Diagnosis of Disease. N Engl J Med. 2019. 381(1):64-74.
[3] Zhao X, Collins RL, Lee WP, et al. Expectations and blind spots for structural variation detection from long-read assemblies and short-read sequencing technologies.Am J Hum Genet. 2021. 108(5):919-928.
[4] Beyter D, Ingimundardottir H, Oddsson A, et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits. Nat Genet. 2021. 53(6):779-786.
[5] Wu Z, Jiang Z, Li T, et al. Structural variants in the Chinese population and their impact on phenotypes, diseases and population adaptation. Nat Commun. 2021. 12(1): 6501.
[6] Yamaguchi K, Kasajima R, Takane K, et al. Application of targeted nanopore sequencing for the screening and determination of structural variants in patients with Lynch syndrome. J Hum Genet. 2021. 66(11):1053-1060.
[7] Watson CM, Holliday DL, Crinnion LA, Bonthron DT. Long-read nanopore DNA sequencing can resolve complex intragenic duplication/deletion variants, providing information to enable preimplantation genetic diagnosis. Prenat Diagn. 2022. 42(2):226-232
[8] Dierckxsens N, Li T, Vermeesch JR, Xie Z. A benchmark of structural variation detection by long reads through a realistic simulated model. Genome Biol. 2021. 15;22(1):342.
2021年12月,齊碳科技通過5年的自主研發(fā),成功推出國內(nèi)首臺商業(yè)化的納米孔基因測序儀QNome-3841,并宣布首個生產(chǎn)基地竣工,正式開啟納米孔基因測序國產(chǎn)化時代。2022年6月,齊碳科技發(fā)布納米孔基因測序儀QNome-3841hex,標志著國產(chǎn)納米孔基因測序儀開始了矩陣化發(fā)展,這也為靈活測序場景提供全新的解決方案,將更好地滿足市場應(yīng)用的多元需求。
齊碳秉承從上游推動行業(yè)發(fā)展的理念和對前沿技術(shù)的探索精神,保持開放、合作的態(tài)度,期待和產(chǎn)業(yè)同仁攜手共進,探索國產(chǎn)納米孔基因測序技術(shù)在多場景中的優(yōu)勢和廣闊的市場前景,構(gòu)建納米孔基因測序的生態(tài)平臺,共同為中國醫(yī)療健康事業(yè)的穩(wěn)健發(fā)展貢獻智慧和力量。