作者姓名:沈紅斌?
  論文題目:數(shù)據(jù)挖掘的建模及在生物信息學(xué)中的應(yīng)用研究
  作者簡介:沈紅斌,男,1979年8月出生,2004年4月師從于上海交通大學(xué)楊杰教授,于2007年3月獲博士學(xué)位。

  中文摘要
  隨著科學(xué)技術(shù)的飛速發(fā)展,經(jīng)濟(jì)和社會都取得了極大的進(jìn)步,與此同時,在各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如何從這些數(shù)據(jù)中發(fā)現(xiàn)有價值的知識及規(guī)律,成為目前理論與實(shí)踐研究的熱點(diǎn)與難點(diǎn)。與此同時,生命科學(xué)技術(shù)的快速發(fā)展也產(chǎn)生了大量的生物數(shù)據(jù),單純地利用傳統(tǒng)的生物實(shí)驗(yàn)方法將很難快速且全面的處理如此多生物數(shù)據(jù),從而必然制約了生命科學(xué)及制藥工程的快速發(fā)展。在這種情況下,生物信息學(xué)應(yīng)運(yùn)而生。生物信息學(xué)是一門生物學(xué)與信息科學(xué)交叉而形成的年輕學(xué)科,旨在運(yùn)用信息學(xué)、物理學(xué)、化學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、系統(tǒng)科學(xué)的理論和方法來研究生物系統(tǒng)和生物過程的信息量和信息流,在已有數(shù)據(jù)的基礎(chǔ)之上發(fā)現(xiàn)相應(yīng)的規(guī)律和知識并進(jìn)而用來進(jìn)一步指導(dǎo)與解釋生物實(shí)驗(yàn)與生命現(xiàn)象,加速對生命本質(zhì)特征的認(rèn)識。本論文在數(shù)據(jù)挖掘及生物信息學(xué)理論與方法上進(jìn)行了深入的研究與探索。
  聚類分析是數(shù)據(jù)挖掘研究中的重要內(nèi)容,成為各學(xué)科研究中的重要工具。但在現(xiàn)實(shí)生活中,常常遇到高維數(shù)據(jù)集的處理且在大多數(shù)情況下,這些數(shù)據(jù)集對于各個聚類存在屬性不平衡的現(xiàn)象。根據(jù)這一點(diǎn),本文創(chuàng)新性提出了在核特征空間中的屬性加權(quán)核聚類算法,實(shí)驗(yàn)表明新聚類算法能很好地反映各屬性對于各個聚類的重要性,因而取得了比傳統(tǒng)聚類算法更好的結(jié)果。傳統(tǒng)聚類算法的應(yīng)用對象往往局限于單一獨(dú)立的數(shù)據(jù)集,但在很多情況下一個數(shù)據(jù)集要和其他數(shù)據(jù)集相互發(fā)生關(guān)聯(lián)?;谛畔⒗碚摚疚氖紫忍岢隽艘缓献骶垲愃惴?,反映了數(shù)據(jù)集間的相互作用關(guān)系,結(jié)果表明聚類結(jié)果將受到其他數(shù)據(jù)集的影響。我們同時也從理論上證明了這兩個算法的收斂性。
  蛋白折疊是比蛋白的三維結(jié)構(gòu)更深層次的知識信息,因而是更加困難的研究課題,同時,從蛋白序列預(yù)測蛋白折疊類型能夠進(jìn)一步為預(yù)測該蛋白的三維結(jié)構(gòu)提供極有價值的信息。本文從生物系統(tǒng)的復(fù)雜性角度出發(fā),創(chuàng)新性地提出了基于集成分類器框架的蛋白折疊預(yù)測系統(tǒng),從多個生物特征角度對序列信息源及特征進(jìn)行融合決策預(yù)測,結(jié)果證明所得到的集成預(yù)測系統(tǒng)是非常有效的,把蛋白折疊的預(yù)測精度提高了6-21%。
  蛋白的三維結(jié)構(gòu)是標(biāo)識所有蛋白折疊類型的重要屬性。即使蛋白之間所包含的序列信息或者其功能特性有所不同,其所包含的折疊類型或者結(jié)構(gòu)類型也可能是相似的。鑒于此,Levitt和Chothia把蛋白分成以下的4種結(jié)構(gòu)類型:(1)?all-?,(2)?all-?,(3)?和?(4)?。從蛋白序列出發(fā),預(yù)測蛋白的結(jié)構(gòu)類型是蛋白質(zhì)科學(xué)中的重要研究課題。本文首次有機(jī)地將有監(jiān)督聚類算法與模糊系統(tǒng)學(xué)習(xí)算法結(jié)合在一起進(jìn)行蛋白三級結(jié)構(gòu)預(yù)測,提高了蛋白結(jié)構(gòu)預(yù)測的精度,該工作第一次將模糊系統(tǒng)學(xué)習(xí)方法引入到蛋白結(jié)構(gòu)預(yù)測中,為生物信息學(xué)進(jìn)一步的研究開辟了新的思路。
  膜蛋白是一種非常重要的蛋白,占人體蛋白總數(shù)的約1/3,但目前已經(jīng)知道的膜蛋白結(jié)構(gòu)只占1%左右。膜蛋白的主要功能之一是離子通道,我們的認(rèn)知、感覺、情緒等的產(chǎn)生都是由于這些通道在不停地開關(guān),所以,膜蛋白對人體的重要性是不言而喻的,如phospholamban離子通道蛋白對心臟功能有著重要作用。絕大多數(shù)疾病都是由于某一特定的膜蛋白不足引起的,現(xiàn)在市場上銷售的80%的藥物都集中在膜蛋白上。因此,研究膜蛋白的序列特征以及其三維結(jié)構(gòu)對于了解膜蛋白的功能起著重要的作用,已經(jīng)成為結(jié)構(gòu)生物學(xué)中的研究熱點(diǎn),但同時由于膜蛋白不溶于水的特性也使得生物實(shí)驗(yàn)方法求解膜蛋白結(jié)構(gòu)非常困難,這就為我們利用計(jì)算方法從序列預(yù)測膜蛋白拓?fù)浣Y(jié)構(gòu)提出了挑戰(zhàn)及嶄新的課題。本文創(chuàng)新性地提出了基于集成分類器模型及蛋白序列進(jìn)化信息的新穎PsePSSM離散化模型,提出了融合序列功能域特征及PsePSSM特征的蛋白屬性預(yù)測框架,并成功應(yīng)用于膜蛋白拓?fù)浣Y(jié)構(gòu)預(yù)測及酶蛋白功能家族預(yù)測,新預(yù)測模型在8類膜蛋白的拓?fù)浣Y(jié)構(gòu)上準(zhǔn)確率達(dá)到了85%以上,比傳統(tǒng)方法的預(yù)測精度提高了約30%。
  蛋白在細(xì)胞中的位置信息與其功能特性是密切相關(guān)的,甚至即使我們知道了一個蛋白的功能特性,了解該蛋白在細(xì)胞中行使功能的位置也是非常重要的。例如,細(xì)胞核包含了細(xì)胞的遺傳因子DNA,控制著細(xì)胞的整個活動過程等。但隨著人類基因項(xiàng)目的成功實(shí)施,人類所發(fā)現(xiàn)的新蛋白數(shù)目呈現(xiàn)指數(shù)增長的趨勢,根據(jù)國際蛋白數(shù)據(jù)庫UniProtKB/Swiss-Prot的統(tǒng)計(jì),2006年6月份的蛋白數(shù)目達(dá)到了223,100,比1986年增加了56倍多。面對如此快的蛋白合成速度,單純依靠生物實(shí)驗(yàn)方法測定蛋白的亞細(xì)胞位置是幾乎不可能完成的任務(wù),迫切希望能通過生物信息學(xué)的研究在已經(jīng)掌握的相關(guān)知識的基礎(chǔ)上提出預(yù)測分析新蛋白的亞細(xì)胞位置,為加快生命科學(xué)研究及制藥工程服務(wù)。本文首次在國際上提出并探討了a)?蛋白在細(xì)胞中多個位置出現(xiàn)的預(yù)測模型;b)?蛋白在細(xì)胞核中出現(xiàn)的位置的預(yù)測模型,即?“亞亞細(xì)胞位置預(yù)測模型”,獲得國際學(xué)術(shù)界的認(rèn)可;c)?本文首次將亞細(xì)胞定位的預(yù)測研究推廣到覆蓋22個亞細(xì)胞位置,極大地提高了預(yù)測模型的實(shí)用價值,并提出了融合蛋白序列高層基因本體特征及序列自身氨基酸特征的蛋白亞細(xì)胞位置預(yù)測方法,提出了面向不同物種的亞細(xì)胞定位的預(yù)測新思路;結(jié)果表明新算法方法在嚴(yán)格的數(shù)據(jù)集上獲得了比傳統(tǒng)算法方法高出35%以上的預(yù)測精度,所開發(fā)的工具被廣泛應(yīng)用于生物實(shí)驗(yàn)中。
  為了推廣理論研究成果的應(yīng)用,我們在科學(xué)研究中還建立了15個在線的生物信息學(xué)網(wǎng)站平臺:,全世界的相關(guān)領(lǐng)域生物學(xué)家只要通過互聯(lián)網(wǎng)提交生物數(shù)據(jù),就能得到網(wǎng)站即時運(yùn)算返回的結(jié)果。經(jīng)不完全統(tǒng)計(jì),網(wǎng)站已被使用了1,100,000余次,極大地推動了生物信息學(xué)理論研究的應(yīng)用成果化。國際上許多生物學(xué)家在發(fā)表的學(xué)術(shù)論文中應(yīng)用了經(jīng)我們所開發(fā)的生物信息學(xué)應(yīng)用平臺分析運(yùn)算得到的相關(guān)數(shù)據(jù)來驗(yàn)證他們的實(shí)驗(yàn)結(jié)果,獲得了良好的評價。

  關(guān)鍵詞:數(shù)據(jù)挖掘,聚類分析,生物信息學(xué),機(jī)器學(xué)習(xí),信息理論,證據(jù)理論,集成分類器,蛋白結(jié)構(gòu)預(yù)測,蛋白亞細(xì)胞位置預(yù)測,膜蛋白識別,細(xì)胞網(wǎng)絡(luò),蛋白進(jìn)化理論