斯坦福大學(xué)醫(yī)學(xué)院的遺傳學(xué)教授Michael Snyder及其同事利用Pacific Biosciences系統(tǒng),對三個(gè)家庭成員的類淋巴母細(xì)胞轉(zhuǎn)錄組進(jìn)行了測序,并將獲得的reads與Illumina平臺上獲得的較短reads進(jìn)行比較。通過這些轉(zhuǎn)錄組,他們開發(fā)出一名家庭成員的等位基因特異的全長轉(zhuǎn)錄組。
斯坦福大學(xué)的研究人員利用一種基于long-read的方法,生成了個(gè)人的轉(zhuǎn)錄組。這項(xiàng)成果于近日發(fā)表在《美國國家科學(xué)院院刊》上。
文章的通訊作者是斯坦福大學(xué)醫(yī)學(xué)院的遺傳學(xué)教授Michael Snyder。他的實(shí)驗(yàn)室主要利用各種方法來分析基因組及調(diào)控網(wǎng)絡(luò)。他們的研究對象包括酵母和人類。Snyder教授曾在《Cell》、《Science》、《Nature》等雜志上發(fā)表了多篇具有影響力的文章。
在這項(xiàng)研究中,Snyder及其同事利用Pacific Biosciences系統(tǒng),對三個(gè)家庭成員的類淋巴母細(xì)胞轉(zhuǎn)錄組進(jìn)行了測序,并將獲得的reads與Illumina平臺上獲得的較短reads進(jìn)行比較。通過這些轉(zhuǎn)錄組,他們開發(fā)出一名家庭成員的等位基因特異的全長轉(zhuǎn)錄組。他們能夠區(qū)分兩個(gè)等位基因,即使是復(fù)雜的基因如HLA。
研究人員在文章中寫道:“據(jù)我們所知,我們生成了最深且最長的單分子long-read數(shù)據(jù)集!彼麄冋J(rèn)為,這種個(gè)人的轉(zhuǎn)錄組,將對了解個(gè)體生物學(xué)和疾病很重要。
Snyder及其同事利用PacBio平臺,對GM12878細(xì)胞系的大約711,000個(gè)環(huán)化一致分子(circular consensus read molecules)進(jìn)行測序。他們產(chǎn)生了較長的reads(平均讀長為1,188 bp),這比去年他們在《Nature Biotechnology》上展示的人體器官panel的數(shù)據(jù)集更長(平均讀長為999.9 bp)。
他們也指出,盡管兩個(gè)數(shù)據(jù)集都同樣產(chǎn)生了較短的分子(長度介于0.8 kb和1.3 kb),但是現(xiàn)有的數(shù)據(jù)集更好地代表了長于1.7 kb的分子。
此外,這個(gè)斯坦福的團(tuán)隊(duì)也在Illumina的平臺上對100 M個(gè)101 bp的雙端reads進(jìn)行測序,并利用Cufflinks開展分析。
這兩種技術(shù)都發(fā)現(xiàn)了約99,000個(gè)帶注釋的外顯子-外顯子接頭,且Illumina的reads發(fā)現(xiàn)了額外92,000個(gè)注釋接頭,而PacBio的reads發(fā)現(xiàn)了額外992個(gè)。此外,對于22,600個(gè)被Gencode歸為蛋白編碼基因或lincRNA的剪接基因,long-read的單分子測序和101 bp的雙端測序同時(shí)鑒定出其中的9,200個(gè)。long-read還發(fā)現(xiàn)了40個(gè)基因,雙端測序發(fā)現(xiàn)了6,400個(gè)基因,而還有7,000個(gè)基因利用兩種方法都未發(fā)現(xiàn)。
研究人員推測,由于環(huán)狀一致read的產(chǎn)生需要讀長至少是cDNA長度的兩倍,故consensus split-mapped molecules(CSMM)不包含大量較長的基因。
研究人員表示,轉(zhuǎn)錄組學(xué)研究的目標(biāo)是能夠指定表達(dá)RNA分子的等位基因。他們認(rèn)為,long-read測序應(yīng)該能夠確定影響單個(gè)RNA分子的每個(gè)SNV。
為了追蹤在GM12878子細(xì)胞系中發(fā)現(xiàn)的這些等位基因的來源,他們合并了GM12891和GM12892母細(xì)胞系的數(shù)據(jù),并研究了子代中存在的SNV是否存在于親代數(shù)據(jù)中。
通過主成分分析,他們能夠分離出兩個(gè)等位基因。對于166個(gè)注釋有兩個(gè)雜合SNP的基因,研究人員發(fā)現(xiàn)其中的158個(gè)有兩個(gè)或以上的SNP,2個(gè)基因有一個(gè)SNP,而6個(gè)基因似乎不是雜合的。
一些基因,尤其是HLA基因,包含多個(gè)SNP,而對于它們,研究人員基本能夠確定相位。“即使是復(fù)雜的基因(如HLA基因,其序列可能與參考序列相差甚遠(yuǎn)),兩個(gè)等位基因通常也是清晰可辨的,”Snyder及其同事寫道。
原文檢索
Defining a personal, allele-specific, and single-molecule long-read transcriptome
Published online before print June 24, 2014, doi: 10.1073/pnas.1400447111 PNAS June 24, 2014
了解PacBio單分子測序儀的更多信息