近年來,隨著人類基因組計劃(HGP)在世界范圍內(nèi)的開展,破譯人類及多種模式生物的遺傳密碼已成為生物學領(lǐng)域的重要學科。同時產(chǎn)生了巨量的基因組信息。分析這些信息是人類基因組研究*的重要內(nèi)容,從而也促成了生物信息學的產(chǎn)生與發(fā)展。生物信息學作為一門新的學科領(lǐng)域,它是把基因組DNA序列信息分析作為源頭,在獲得了蛋白質(zhì)編碼區(qū)的信息之后進行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測,然后依據(jù)特定蛋白質(zhì)的功能進行必要的藥物設(shè)計。因此在基因組研究時代,基因組信息學、蛋白質(zhì)的結(jié)構(gòu)模擬以及藥物設(shè)計必然有機地連接在一起,它們是生物信息學的三個重要組成部分。當前,生物信息學已在理論生物學領(lǐng)域占有了核心的地位,并提出了大量的緊迫任務(wù)。 1 基因組相關(guān)信息的收集、儲存、管理與提供 到1998年12月GenBank中收集的核酸序列已達3044000條,它們包含的堿基數(shù)目是2162000000個。與此同時有二十個生物體的完整基因組已被破譯,約有至少40個完整基因組正在破譯當中。大量基因數(shù)據(jù)的出現(xiàn)促進了數(shù)據(jù)庫、分析工具以及網(wǎng)絡(luò)連接等的快速發(fā)展。 1.1 生物信息數(shù)據(jù)庫 建立數(shù)據(jù)庫是存儲基因組相關(guān)信息的重要步驟,當前在互聯(lián)網(wǎng)絡(luò)上可找到與基因組信息相關(guān)的大量重要數(shù)據(jù)庫、服務(wù)器。其中:GenBank、EMBL、GDB、PDB、PIR等數(shù)據(jù)庫更是頻繁地被用戶檢索。在基因組織關(guān)數(shù)據(jù)庫的發(fā)展中,以及幾方面特別引起人們的重視: a)、建立基因組信息的評估與檢測系統(tǒng) b)、數(shù)據(jù)標準化 c)、進行基因組信息的可視化和專家系統(tǒng)的研究 d)、發(fā)展次級與專業(yè)數(shù)據(jù)庫 原始數(shù)據(jù)是龐大的。在原始數(shù)據(jù)的基因上,根據(jù)不同的特征將其加工,而構(gòu)建出若干數(shù)據(jù)庫,這不僅會給用戶帶來很多方便,更重要的是專業(yè)人員注入的知識會對用戶有很大的啟發(fā)。的二級數(shù)據(jù)庫象:蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCoP),受體數(shù)據(jù)庫,克隆載體數(shù)據(jù)庫等……。 1.2 以因特網(wǎng)(Internet)為基礎(chǔ)的基因組信息學傳輸網(wǎng)絡(luò) 用戶與數(shù)據(jù)庫間迅速、有效地傳遞信息是基因組信息的收集、管理與使用的另一要素。目前與基因組信息相關(guān)的數(shù)據(jù)庫都有了自己的Internet地址和主頁(Homepage),同時在網(wǎng)上還出現(xiàn)了很多相關(guān)的在線(online)服務(wù)器。 我國在基因組信息的收集與提供方面也有了一定的工作:北京大學物理化學研究所建立的PDB數(shù)據(jù)庫的中國節(jié)點;北京大學生命科學院建立的EMBL數(shù)據(jù)庫的中國節(jié)點。中國科學院生物物理所與日本JIPID的合作,收集了我國科學家測定的DNA和蛋白質(zhì)序列并與相應(yīng)數(shù)據(jù)庫進行交流。中國醫(yī)學科學院腫瘤研究所建立的MEE-HOW服務(wù)器等。在數(shù)據(jù)庫研究中有兩點特別重要,一是構(gòu)建我國自己的數(shù)據(jù)庫;二是與常用數(shù)據(jù)庫的有效連接和及時更新。經(jīng)過努力,相信這一領(lǐng)域在我國會迅速發(fā)展。 2 新基因的發(fā)現(xiàn)與鑒定 發(fā)現(xiàn)一個新的基因就能了解與其相關(guān)的生理功能或疾病的本質(zhì),從而為新藥的開發(fā)、設(shè)計奠定基礎(chǔ)。使用基因組信息學的方法是發(fā)現(xiàn)新基因的重要手段,比如在啤酒酵母完整基因組(約1200萬bp)所包含的5932個基因中,大約60%是通過信息分析得到的。使用EST序列信息尋找新基因是當前上基因爭奪戰(zhàn)的熱點。 2.1 利用EST數(shù)據(jù)庫(dbEST)發(fā)現(xiàn)新基因 eST序列(Expressed sequence Tags)是從基因表達的短c-DNA序列,它們攜帶著完整基因某些片段的信息。到1998年12月中在GenBank的EST數(shù)據(jù)庫中已收集了EST序列2,020,608條,其中人EST序列為1,201,241條,它大約覆蓋了人類基因的80%。由于EST序列中包括了大量未發(fā)現(xiàn)的人類基因的信息,因此如何利用這些信息發(fā)現(xiàn)新基因成了近幾年的重要研究課題。 2.2 從基因組DNA測序數(shù)據(jù)中確定編碼區(qū) 這一研究已經(jīng)進行了很多年,并建立了多種方法。這些方法概括說來分為兩類,一類是基于編碼區(qū)所具有的*信號,比如起始密碼子、終止密碼子等,另一類是基于編碼區(qū)的堿基組成不同于非編碼區(qū)。這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率不同,每種氨基酸的密碼子兼并度不同,同一種氨基酸的兼并密碼子使用頻率不同等原因造成的。近年來一批新的確定編碼區(qū)的方法出現(xiàn)了,例如,考慮高維分布的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法、分形方法等。將密碼學方法用于識別編碼區(qū),也取得了較好的結(jié)果。 3 非編碼區(qū)信息結(jié)構(gòu)分析 雖然對約占人類基因組95%的非編碼區(qū)的作用人們還不清楚,但從生物進化的觀點看來,這部分序列必定具有重要的生物功能。普遍的認識是,它們與基因在四維時空的表達調(diào)控有關(guān)。因此尋找這些區(qū)域編碼特征,信息調(diào)節(jié)與表達規(guī)律是未來相當長時間內(nèi)的熱點課題。 3.1 非編碼區(qū)中各種組分的分類與確定 非編碼區(qū)(“Junk”DNA)占據(jù)了人類基因組的大部分,研究表明“Junk”是許多對生命過程富有活力的不同類型的DNA的復合體,它們至少包含如下類型的DNA成份或由其表達的RNA成分:內(nèi)含子(intron)、衛(wèi)星(Salite)DNA、小衛(wèi)星(minisalite)DNA、微衛(wèi)星(Microsalite)DNA、非均一核RNA(簡稱hmRNA)短散置元(short interspersed elements,簡稱SINE)、長散置元(long interspersed elements,簡稱LINE)、偽基因(pseudogenes)等。除此之外順式調(diào)控元件,如啟動子、增強子等也屬于非編碼序列。一些科學家認為應(yīng)當把染色體稱為信息細胞器(information organelle)。了解“JunK”DNA是了解信息細胞器的關(guān)鍵步驟。 3.2 尋找新的非三聯(lián)體的編碼方式 是否在基因組中僅存在三聯(lián)體的編碼方式呢?是否傳遞不同的信息應(yīng)有不同字長的碼呢?人們熟知三聯(lián)碼是用于將4個字符組成的基因中的信息傳遞給由20個字符組成的蛋白質(zhì)。只有堿基三聯(lián)體數(shù)(43=64)才是大于20(氨基酸的種類數(shù))且zui接近20的堿基組合。所以三聯(lián)體是DNA與蛋白質(zhì)間傳遞信息的編碼。按照這樣的推理人們可以認為由DNA到結(jié)構(gòu)RNA間的信息傳遞是單聯(lián)體碼,因為DNA與RNA的結(jié)構(gòu)單元是一一對應(yīng)的。如果考慮到人類基因的總數(shù)約為5萬到10萬,那么要調(diào)節(jié)單獨的一個基因的調(diào)節(jié)單元的數(shù)目也要與此相應(yīng),達到若干萬個。此時三聯(lián)體編碼方式的區(qū)分度就遠為不足。這就是生物信息學家尋找其他非三聯(lián)體編碼方式的原因。 3.3 編碼區(qū)和非編碼區(qū)中信息調(diào)節(jié)規(guī)律的研究 雖然Jacob和Monod的乳糖操縱子模型給出了基因表達調(diào)控的zui基本模式,但近年來很多發(fā)現(xiàn)表明基因的調(diào)節(jié)是遠為復雜與豐富的。隨著基因組研究進入后基因組時代,功能基因的表達譜得以測定,這些深刻的問題會逐步得到解決。 4 生物進化的研究 自1859年Darwin的物種起源(Origin of Species)發(fā)表以來,進化是對人類自然科學和自然哲學發(fā)展的zui重要貢獻之一。自本世紀中葉以來,隨著分子生物學的不斷發(fā)展,進化論的研究也進入了分子水平。并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。現(xiàn)在隨著序列信息的大量出現(xiàn)開展分子進化的研究具有了*時機。 5 完整基因組的比較研究 在后基因組時代,生物信息學家面對的不僅是序列和基因而是越來越多的完整基因組??茖W家們對zui早的七個完整基因組所做的分析得到了很多有意義的結(jié)論。這些生物體都是能獨立存活的,zui大的是啤酒酵母,它有5932個基因,zui小的是生殖道枝原體,它只有470個基因。有了這些資料人們就能估計,zui小獨立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?基因組研究還發(fā)現(xiàn),鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數(shù)目也類似??墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學家估計不同人種間基因組的差別不大于0.1%;人猿間差別不大于1%。因此其表型差異不僅應(yīng)從基因、DNA序列找原因,也應(yīng)考慮染色體組織上的差異??傊?,由完整基因組研究所導致的比較基因組學必將為后基因組研究開辟新的領(lǐng)域。 6 基因組信息分析的方法研究 6.1 發(fā)展有效的能支持大尺度作圖與測序需要的軟件和數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,包括互聯(lián)網(wǎng)絡(luò)上的遠程通訊工具,使之能容易地處理日益增長的物理圖、遺傳圖和序列信息。改進現(xiàn)有的理論分析方法,象統(tǒng)計方法、隱含馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復雜性分析方法、密碼學方法等。創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。 6.2 建立快速、嚴格的多序列比較方法 多序列比較是解決同源性分析等重要問題的關(guān)鍵手段,但迄今為止只有近似方法。雖然兩個序列比較有動態(tài)規(guī)劃算法這樣的方法,但要把它推廣到多序列的情況是不現(xiàn)實的。為此發(fā)展的多序列比較方法是當務(wù)之急。 7 大規(guī)?;蚬δ鼙磉_譜的分析 目前,基因組的研究已從結(jié)構(gòu)基因組(structural genome)逐漸過度到功能基因組(functional genome)。因此獲得基因的功能表達譜,將存在于人類基因組上的靜的基因圖譜,向時間、空間維上展開是新一階段基因組研究的核心。為了得到基因表達的功能譜,上在核酸和蛋白質(zhì)兩個層次上都發(fā)展了新技術(shù)。在核酸層次上的新技術(shù)是DNA芯片,在蛋白質(zhì)層次上則是二維凝膠電泳和測序質(zhì)譜技術(shù)。由此導致了大規(guī)模基因功能表達譜的分析問題。它們從數(shù)學角度看不是簡單的NP問題、動力系統(tǒng)問題或不確定性問題,因此需要發(fā)展新的方法和工具。所以無論是生物芯片還是蛋白質(zhì)組技術(shù)的發(fā)展都更強烈地依賴于生物信息學的理論、技術(shù)與數(shù)據(jù)庫。 8 蛋白質(zhì)分子空間結(jié)構(gòu)的預(yù)測、模擬和分子設(shè)計 隨著人類基因組計劃的執(zhí)行,找到人類5萬到10萬個基因的堿基序列是指日可待的事,因而確定人的上千個原癌基因和幾萬個與疾病相關(guān)基因表達產(chǎn)物的氨基酸順序也會逐漸實現(xiàn)。這無疑給人類疾患的治療帶來了很大的希望。然而要了解他們的功能、要找到這些蛋白質(zhì)致病的分子基礎(chǔ),只有氨基酸順序的知識是不夠的,必要知道它們的三維結(jié)構(gòu)。與此同時,要設(shè)計藥物治療這些疾患也需要了解蛋白質(zhì)的三維結(jié)構(gòu)。這是擺在科學家面前的緊迫任務(wù)。 當前不論是還是國內(nèi),蛋白質(zhì)空間結(jié)構(gòu)預(yù)測和蛋白質(zhì)分子的改性設(shè)計都在廣泛而快速地展開。近年來對蛋白質(zhì)構(gòu)象模式的研究取得了很大進展。比較*的看法是:蛋白質(zhì)的折疊類型是有限的,目前估計為幾百至幾千種。這要遠小于蛋白質(zhì)所具有的自由度數(shù)目。同時蛋白的折疊類型是與它們的組分和一級序列相關(guān)的,這樣就有可能從蛋白質(zhì)的初級信息中確定它們的zui終折疊類型。 9 藥物設(shè)計 傳統(tǒng)的藥物研制主要是從大量的天然產(chǎn)物,如動物、植物、微生物和合成有機、無機化合物中進行篩選。往往得到一個可供臨床使用的藥物要篩選1萬種不同的化合物,要經(jīng)過10年左右的時間和耗資2.5-3.0億美元。當前隨著組合化學和群集篩選的發(fā)展,這一狀況有了一定程度的改善,但耗資、耗時仍然是巨大的。近年來由于結(jié)構(gòu)生物學的發(fā)展,相當數(shù)量的蛋白質(zhì)以及一些核酸、多糖的三維結(jié)構(gòu)已被了解。因此,基于生物大分子結(jié)構(gòu)知識的藥物設(shè)計成為了當前的熱點。生物信息學的研究不僅可提供生物大分子空間結(jié)構(gòu)的信息,還能提供電子結(jié)構(gòu)的信息,如能級、表面電荷分布、分子軌道相互使用等以及動力學行為的信息,如生物化學反應(yīng)中的能量變化、電荷遷移、構(gòu)象變化等。理論模擬還可研究包括生物分子及其周圍環(huán)境(如水、離子等)的復雜體系和生物分子的量子效應(yīng)。上述的不少方面當前是難以直接用分子生物學的實驗手段加以研究的。這些模擬的結(jié)構(gòu)對于在分子、亞分子和電子結(jié)構(gòu)層次上了解生命現(xiàn)象的基本過程具有重要意義。并為天然生物大分子的改性和基于受體結(jié)構(gòu)的藥物分子設(shè)計提供了依據(jù)。 10 應(yīng)用與發(fā)展研究 基因組信息學的研究結(jié)果不僅具有重要的理論價值,也可直接應(yīng)用到工農(nóng)業(yè)生產(chǎn)和醫(yī)療實踐當中去。 10.1 與疾病相關(guān)的人類基因信息的匯集以及病人樣品序列信息檢測技術(shù)的發(fā)展 很多的人類基因是和疾病有關(guān),有人估計與癌癥相關(guān)的原癌基因約有一千個,抑癌基因約有一百個。約有六千種以上的人類疾患與各種人類基因的變化相關(guān)聯(lián)。隨著人類基因組計劃的深入,當我們知道了全部八萬到十萬個人類基因在染色體上的位置和它們的序列特征以后,人們就可以有效地判定各種分子疾患。為了實現(xiàn)這一目標有兩項工作是重要的,一是構(gòu)建與疾病相關(guān)的人類基因信息數(shù)據(jù)庫,二是發(fā)展快速、有效的對患者血液、體液、組織等樣品進行測試和序列信息檢測的技術(shù)。近幾年上已出現(xiàn)了若干與疾病相關(guān)的數(shù)據(jù)庫,其他技術(shù)也在發(fā)展中。 10.2 建立與動、植物良種繁育相關(guān)的基因組數(shù)據(jù)庫。 隨著人類基因組、水稻基因組以及各種模式生物基因組的解譯,根據(jù)不同物種間的進化距離和功能基因的同源性,可以容易地找到各種家畜、經(jīng)濟作物與其經(jīng)濟效益相關(guān)的基因,進而對它們按照人們的愿望加以改造。 10.3 發(fā)展基于序列信息的分子生物學技術(shù) 分子生物學常用的表達載體、PCR引物以及各種試劑盒的設(shè)計必須依賴于核酸的序列信息?;蚪M信息學提供的大量信息為這類技術(shù)的發(fā)展提供了廣闊的天地。 總之,當前是人類基因組研究的一個有活力的新時代。不少科學家還說它是人類基因組研究的收獲時代,它不僅將賦予人們基因研究重要成果,也會帶來巨大的經(jīng)濟效益和社會效益。在未來的幾年中DNA序列數(shù)據(jù)將以意想不到的速度增長,這是一個難得的機會,盡早利用這些數(shù)據(jù)就可能走在科學界的zui前沿。 |