2.1.3 剪切后的短片段作圖軟件包
要將RNA的逆轉錄片段cDNA重新定位到基因組當中需要更加復雜的專業(yè)化算法。要將不同外顯子經(jīng)過剪切拼接之后生成的RNA短片段重新定位到基因組中和將一個外顯子生成的RNA短片段重新定位到基因組中是完全不一樣的(圖14)。
在RNA逆轉錄產物cDNA的定位操作中用到的諸如ERANGE(http://woldlab.caltech.edu/rnaseq)這類軟件 包都會用到已知基因的外顯子位置和內含子位置信息作為參考。這樣,ERANGE軟件包就能“橫跨”多個外顯子構建新的參考序列,然后再調用Maq程序或者 Bowtie程序將剪切后的RNA片段定位到參考序列中了。因為這種方法不能發(fā)現(xiàn)新的(人們未知的)剪切模式,所以有些科研人員就使用了一種“機器學習法 ”(machine learning method)來預測新的剪切模式。該方法借助現(xiàn)有的參考序列注釋信息在統(tǒng)計模型(statistical model)上進行過演練。與此相反,TopHat軟件包(http://tophat.cbcb.umd.edu)則不需要借助任何注釋信息,它使用的 是Bowtie軟件來發(fā)現(xiàn)包含有短片段的外顯子,然后再將余下的短片段定位到前面發(fā)現(xiàn)的各種外顯子連接體當中。還有一款程序G-Mo.R-Se(http://s.fr/externe/gmorse)使用的也是這種策略,不過它是借助RNA測序數(shù)據(jù)而不是 通過Bowtie軟件來發(fā)現(xiàn)外顯子的。
2.2 局限性及存在的問題
現(xiàn)有的用于短片段作圖的方法都有其各自的局限性。比如,Maq和Bowtie軟件在處理插入或缺失片段時就幾乎不起作用。
有些軟件,例如SHRiMP(http://compbio.cs.toronto.edu/shrimp,圖15)就能支持ABI公司的“彩色空 隙(color space)”測序結果,但大部分軟件都是不支持該結果的。剪切后短片段作圖軟件同樣存在類似問題,而且它們還有自己的特殊問題。例如,基于注釋信息的軟件當然最多只能獲得和注釋信息相當?shù)慕Y果,但很多物種的全基因組注釋信息都僅僅只是同源預測信息或計算機預測信息。如果“機器學習方法”受到錯誤的注釋信息“操練”的話,也不會得出好結果。
因此,對于短片段作圖軟件的開發(fā)設計人員來說,還有很多問題需要去解決。所有的測序儀器生產廠家都在努力得到更長的測序片段結果,現(xiàn)有的短片段作圖 軟件能應付這些“大家伙”嗎?Maq、Bowtie以及其它幾種短片段作圖軟件都可以處理長度超過100bp的測序片段結果,但這只是在特定的情況下,而 且只有原本就是針對長片段設計的軟件,例如BLAT才能更好地處理這類測序結果。另外,如果測序的樣品物種序列和現(xiàn)有的參考序列差異很大,那該如何調整作 圖軟件的參數(shù)呢?軟件能夠自動調整參數(shù)嗎?這樣做出來的圖質量又如何呢?上述這些問題的解決方案都依賴于采用的檢測方法和分析范圍。不過,隨著技術的進步,相信所有這些問題很快都會被攻克的。
原文檢索:Cole Trapnell & Steven L Salzberg. (2009) How to map billions of short reads onto genomes. Nature Biotechnology, 27(5): 455-457.
小詞典1
“參考”基因組(‘reference’ genome)
每一個種內的物種的基因組都有數(shù)量一定且相對恒定的基因和基因排列方式,但由于某些基因或基因片段的突變形成了不同的物種。通?梢栽诜N內以某一代表性物種的基因組作為模式基因組,以利于對其它物種的研究。這種“某一代表性物種的基因組”就是“參考”基因組了。
3. 更快——只需15分鐘、更便宜——只需100美元的人類基因組測序技術即將面世
很快,我們就會看到最新的人類基因組測序技術問世。有了這種新技術,人類基因組測序的費用將大為降低,平均每個樣品只需要花費 100美元。同時,該技術的測序速度要比目前市場上廣泛應用的第二代測序技術快2萬倍,而且我們可以借助該技術實時的觀測到人類基因組DNA被擴增的過程。
Stephen Turner是太平洋生物科技公司(Pacific Biosciences)的首席技術官(Chief Technology Officer),他表示,最新的商業(yè)化單分子實時測序儀(Single Molecule Real-Time sequencing,SMRT)將于2010年上市。
十年前,塞萊拉基因公司(Celera Genomics)和人類基因計劃組(Human Genome Project)都花費了數(shù)年的時間才得到完整的人類基因組序列圖。但到了2008年,由于有了新一代的測序儀,所以我們只用了幾個月的時間就獲得了James Watson的個人完整基因組序列。
現(xiàn)在,有了SMRT測序儀,Pacific Biosciences公司希望可以用這款測序儀在幾分鐘之內完成人體基因組測序的工作。
我們在進行人類基因組計劃工作時采用的研究策略,就是利用了細胞復制DNA的天然機制。
使用DNA聚合酶復制DNA鏈的方法獲得了數(shù)十億計,各種長度的DNA片段分子。然后在每一個片段末端都加上一小段熒光標記分子,該熒光標記分子只 能對DNA鏈末端最后一個堿基進行標記,然后根據(jù)DNA片段的長度將這些分子排列整齊,我們就可以像讀書一樣,按照長短順序把DNA序列末端的堿基一個一個給讀出來了。
不過SMRT測序儀采用的并不是這種方法——等DNA聚合酶完成了復制工作之后再判讀序列的方法,該技術采用的是實時對DNA聚合酶的工作狀態(tài)進行 監(jiān)測的方法,每一個DNA鏈分子都被吸附在小孔的底部,在DNA聚合酶復制的同時,SMRT測序儀就會實時讀出每一個堿基,這樣就能得到完整的序列。
在SMRT測序儀使用的每一個堿基上都帶上了特有的熒光標記,一旦某個堿基摻入了新合成的DNA鏈,就會發(fā)出特異性的熒光信號,實時探測儀就可根據(jù)該熒光信號判斷出該位點是A、C、G、T中的哪一個堿基。
發(fā)明SMRT技術的科研人員們希望能夠將該技術進一步改進,成為芯片式的多通道并行處理測序儀,這樣還可以進一步加快測序速度。
“如果我們能同時處理100萬個片段分子,那么我們就能夠在15分鐘之內獲得完整的人類基因組序列圖,”Turner說道。
SMRT測序儀在提高測序速度的同時還能夠提高測序的準確率。由于用SMRT測序儀進行測序時出錯是隨機發(fā)生的,也就是說每個位點出錯的概率都一樣,沒有哪個位點會更容易出錯,因此如果進行多次重復測序應該能夠提高準確率。
SMRT測序儀剛剛在第51界美國醫(yī)學物理學家協(xié)會年會(Annual Meeting of American Association of Physicists in Medicine)2009年工業(yè)物理學大會(Industrial Physics Forum)上第一次亮相。
原文檢索:http://www.freshnews.in/coming-soon-15-minute-100-human-genome-sequencing-157761
相關閱讀:
DNA測序技術的現(xiàn)狀和發(fā)展(上)
DNA測序技術的現(xiàn)狀和發(fā)展(中)