生物醫(yī)學(xué)知識發(fā)現(xiàn)平臺
生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)藏著各種各樣的生物醫(yī)學(xué)知識,通過借助不同的數(shù)據(jù)挖掘/文獻(xiàn)挖掘方法,文獻(xiàn)挖掘可以選擇性的從中提取出特定主題的知識。作為一個完整的文 獻(xiàn)挖掘平臺,需要完成兩類功能:數(shù)據(jù)處理與文獻(xiàn)挖掘。數(shù)據(jù)處理包括文獻(xiàn)數(shù)據(jù)處理和其他數(shù)據(jù)處理,如從文獻(xiàn)數(shù)據(jù)庫中獲取文獻(xiàn)數(shù)據(jù),驗(yàn)證數(shù)據(jù)的完整性,提取文 獻(xiàn)數(shù)據(jù)中的特定信息,以及提取其他類型的數(shù)據(jù)中的指定信息。在數(shù)據(jù)處理系統(tǒng)提供的規(guī)范化數(shù)據(jù)的基礎(chǔ)之上,文獻(xiàn)挖掘系統(tǒng)對其進(jìn)行統(tǒng)計或者NLP方面的分析處 理,進(jìn)而挖掘出實(shí)體名稱、實(shí)體關(guān)聯(lián)模式和實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)等知識。
根據(jù)文獻(xiàn)挖掘的處理流程,生物醫(yī)學(xué)知識發(fā)現(xiàn)平臺包括六個子系統(tǒng):1)文獻(xiàn)獲取系統(tǒng),主要功能包括文獻(xiàn)下載、文獻(xiàn)校驗(yàn)、數(shù)據(jù)更新和數(shù)據(jù)日志分析等;2)數(shù)據(jù) 預(yù)處理系統(tǒng),主要功能為從原始數(shù)據(jù)中提取出指定的信息,并按照需求保存為合適的格式;3)NLP系統(tǒng),加工文本數(shù)據(jù),將文本數(shù)據(jù)轉(zhuǎn)換為可以進(jìn)行知識推理的 素材,主要功能為分詞、實(shí)體名稱識別、詞性標(biāo)注和實(shí)體名稱映射等;4)關(guān)系挖掘系統(tǒng),主要功能為計算實(shí)體共出現(xiàn)頻率,提取實(shí)體關(guān)聯(lián)模式,提取關(guān)聯(lián)實(shí) 體;5)網(wǎng)絡(luò)構(gòu)建系統(tǒng),主要功能是提供實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)的基本性質(zhì)以及連通子圖、Hub子圖和關(guān)聯(lián)子網(wǎng)絡(luò)的提;6)網(wǎng)絡(luò)可視化系統(tǒng),圖形化展示網(wǎng)絡(luò)分析結(jié) 果。系統(tǒng)的部分成果發(fā)布在http://lifecenter.sgst.cn/textweb。
技術(shù)基礎(chǔ)
生物醫(yī)學(xué)知識發(fā)現(xiàn)平臺是一個JavaEE系統(tǒng),整合了GeniaTagger、Mallet、ABner和Standford Parser等自然語言處理相關(guān)的軟件,能夠完成常見的文本挖掘任務(wù)。由于文本挖掘任務(wù)是高計算量的工作,知識發(fā)現(xiàn)平臺在多線程處理方面進(jìn)行了大量的優(yōu)化 工作。
服務(wù)方式
依托知識發(fā)現(xiàn)平臺,我們能夠提高如下的服務(wù):
生物醫(yī)學(xué)文獻(xiàn)注釋與服務(wù):從文獻(xiàn)中識別出實(shí)體,從而實(shí)現(xiàn)文獻(xiàn)注釋的目的,并能夠在傳統(tǒng)的文獻(xiàn)查詢功能基礎(chǔ)之上,提高基于實(shí)體的查詢;
特定疾病相關(guān)的文本挖掘:能夠提供疾病及其相關(guān)疾病的信息,以及疾病相關(guān)的基因、蛋白質(zhì)、小分子等信息;
多個基因/蛋白質(zhì)的關(guān)聯(lián)網(wǎng)絡(luò)分析:依托全文獻(xiàn)數(shù)據(jù)庫的文本挖掘結(jié)果,構(gòu)建實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),從而能夠從網(wǎng)絡(luò)中找出指定的基因/蛋白質(zhì)之間的關(guān)系,并以網(wǎng)絡(luò)的形式展示這種關(guān)系;
生物醫(yī)學(xué)數(shù)據(jù)整合服務(wù):借助實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)和實(shí)體名稱-生物醫(yī)學(xué)數(shù)據(jù)映射技術(shù),我們能夠提供基于文獻(xiàn)的數(shù)據(jù)整合服務(wù);
其它文本挖掘定制服務(wù):我們可以依照用戶需求,分析文獻(xiàn)的內(nèi)容,為用戶定制特定的文本挖掘服務(wù)。
bio-equip.com
無錫眾信科技有限公司(Shorigen Technology Wuxi Co,.Ltd)是在無錫市引進(jìn)領(lǐng)軍型海外留學(xué)歸國創(chuàng)業(yè)人才計劃(簡稱“530”計劃)中創(chuàng)建的。公司以上海生物信息技術(shù)研究中心為依托,以中心主持和參與的國家重大科技專項(xiàng)、973、863等項(xiàng)目的科研成果為技術(shù)支撐,著重于科研成果的轉(zhuǎn)化。
目前,公司正致力于醫(yī)療衛(wèi)生信息化技術(shù)的研究、開發(fā)和服務(wù),已研制出擁有自主知識產(chǎn)權(quán)的多套醫(yī)療信息化軟件系統(tǒng),已在全國多個醫(yī)療、科研機(jī)構(gòu)廣泛使用。
未來,公司將繼續(xù)秉承以信息技術(shù)為引領(lǐng),著重科研成果轉(zhuǎn)化,全方位提供面向醫(yī)療、健康和生物醫(yī)藥產(chǎn)業(yè)的專業(yè)化服務(wù),促進(jìn)公眾健康產(chǎn)業(yè)的發(fā)展,實(shí)現(xiàn)“服務(wù)大眾健康、立足信息技術(shù)”。
資質(zhì)與榮譽(yù)
2009年10月31日榮獲中國醫(yī)藥生物技術(shù)協(xié)會“生物醫(yī)學(xué)信息技術(shù)分會常務(wù)委員”聘書
2010年04月11日榮獲中國醫(yī)藥生物技術(shù)協(xié)會“組織生物樣本庫分會會員”聘書
2010年3月榮獲無錫市人民政府“2009年530計劃C類項(xiàng)目”
2010年12月30日“眾信樣本庫信息管理系統(tǒng)軟件”榮獲國家版權(quán)局“計算機(jī)軟件著作權(quán)”
2011年01月21日“眾信樣本庫信心管理系統(tǒng)軟件”通過江蘇省軟件產(chǎn)品檢測中心“軟件產(chǎn)品登記檢測”
2011年01月07日通過“ISO9001質(zhì)量管理體系認(rèn)證”
2011年05月18日通過江蘇省經(jīng)濟(jì)和信息化委員會“軟件企業(yè)認(rèn)定”
2011年05月18日“眾信樣本庫信息管理系統(tǒng)軟件”榮獲江蘇省經(jīng)濟(jì)和信息化委員會“軟件產(chǎn)品登記證書”
2011年06月01日“肺結(jié)節(jié)圖像過濾軟件系統(tǒng)” 榮獲國家版權(quán)局“計算機(jī)軟件著作權(quán)”
2011年06月01日“肺癌智能輔助診斷軟件系統(tǒng)” 榮獲國家版權(quán)局“計算機(jī)軟件著作權(quán)”
2011年06月08日“肺癌影像學(xué)導(dǎo)航學(xué)習(xí)軟件系統(tǒng)” 榮獲國家版權(quán)局 “計算機(jī)軟件著作權(quán)”
2011年06月21日“眾信科研電子病例管理系統(tǒng)軟件” 榮獲國家版權(quán)局“計算機(jī)軟件著作權(quán)”
2011年06月23日“眾信科研電子病例管理系統(tǒng)軟件”通過江蘇省軟件產(chǎn)品檢測中心“軟件產(chǎn)品登記檢測”
2011年07月05日“眾信實(shí)驗(yàn)室信息管理系統(tǒng)軟件” 榮獲國家版權(quán)局“計算機(jī)軟件著作權(quán)”
2011年07月06日榮獲無錫市科學(xué)技術(shù)局、無錫市財政局“2011年無錫市第六批科技發(fā)展計劃(創(chuàng)新基金-創(chuàng)新項(xiàng)目)項(xiàng)目(項(xiàng)目編號CBE011107)”