11月22日,Nature News發(fā)布了一篇有關(guān)數(shù)據(jù)挖掘的有趣的文章。
Peter Kerpedjiev是一位軟件工程師,但受過(guò)一些生物信息學(xué)方面的培訓(xùn)。在他攻讀博士學(xué)位期間,因?yàn)樾枰粋€(gè)遺傳學(xué)速成課程,Kerpedjiev便好奇一個(gè)問(wèn)題“如果我想和遺傳學(xué)專業(yè)的人有一場(chǎng)看起來(lái)自己特別專業(yè)的對(duì)話,我需要了解哪些基因?”。
出于軟件工程師對(duì)數(shù)據(jù)的敏感性,Peter立即想到了Pubmed這一龐大的數(shù)據(jù)庫(kù)。從2002年開始,美國(guó)國(guó)家醫(yī)學(xué)圖書館(NLM)一直在對(duì)PubMed數(shù)據(jù)庫(kù)中的文章進(jìn)行信息標(biāo)記。Kerpedjiev提取了所有標(biāo)記為描述基因或其編碼蛋白質(zhì)的結(jié)構(gòu),功能或位置的論文,進(jìn)行了一些有趣的可視化信息展示。
通過(guò)記錄排序,Kerpedjiev整理出如下的榜單—人類基因組被研究最多的基因Top10。
這個(gè)名單的榜首,他發(fā)現(xiàn)是一個(gè)叫TP53的基因。三年前,Kerpedjiev首先做了有關(guān)TP53的分析,他發(fā)現(xiàn)研究人員在約6600份論文中仔細(xì)研究了TP53基因或其編碼蛋白p53?,F(xiàn)在,這個(gè)數(shù)字已經(jīng)達(dá)到了8,500個(gè)左右。平均來(lái)看,每天就有兩篇描述TP53基礎(chǔ)生物學(xué)新細(xì)節(jié)的論文發(fā)表。當(dāng)然,這個(gè)基因成為榜首對(duì)生物學(xué)家來(lái)說(shuō)都在意料之中。該基因是一種腫瘤抑制因子,被廣泛稱為“基因組的守護(hù)者”。它在大約一半的人類癌癥中突變。馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)醫(yī)學(xué)院癌癥遺傳學(xué)家Bert Vogelstein說(shuō):“這個(gè)榜單揭示了它的持久力。他說(shuō),在癌癥中,“沒(méi)有更重要的基因”。
但再讓我們看看榜單里其它基因的功能,就有很多意料之外的出現(xiàn)了。Kerpedjiev現(xiàn)在是馬薩諸塞州波士頓哈佛醫(yī)學(xué)院(Harvard Medical School)研究基因組數(shù)據(jù)可視化的博士后,他也說(shuō):“這個(gè)列表令人驚訝,有些基因是可以預(yù)測(cè)的,有些基因則完全出乎意料。
在人類基因組中大約有20,000個(gè)蛋白質(zhì)編碼基因,而其中100個(gè)就占據(jù)了NLM標(biāo)記的四分之一以上的論文。這意味著,很多基因都是被冷漠對(duì)待的。英國(guó)劍橋大學(xué)(University of Cambridge)的科學(xué)史家海倫·安妮·庫(kù)里(Helen Anne Curry)表示:“這揭示了我們不了解還有很多,因?yàn)槲覀儾蝗パ芯克?/span>
1. 不同時(shí)期,有不同的基因引領(lǐng)“潮流”。20世紀(jì)80年代,血紅蛋白(haemoglobin)的編碼基因是血液疾病,遺傳學(xué)會(huì)議的討論熱點(diǎn)。但隨著研究人員掌握測(cè)序和操作DNA的新技術(shù),他們開始轉(zhuǎn)向其他基因和疾病,其中包括當(dāng)時(shí)主要見于男同性戀者的一種神秘感染疾病。
2. 在1983年發(fā)現(xiàn)艾滋病毒是艾滋病的原因之前,臨床免疫學(xué)家,例如大衛(wèi)·克拉茨曼(David Klatzmann)就表示:“我對(duì)這些患者沒(méi)有T4細(xì)胞感到震驚”。他在細(xì)胞培養(yǎng)實(shí)驗(yàn)中發(fā)現(xiàn),HIV似乎選擇性地感染和破壞這些細(xì)胞,但問(wèn)題是:病毒是如何進(jìn)入細(xì)胞的?Klatzmann推斷,免疫學(xué)家用來(lái)定義這組細(xì)胞的表面蛋白(后來(lái)稱為CD4)也可以作為HIV進(jìn)入細(xì)胞的受體。后來(lái)證明,他的推斷是正確的。在后續(xù)三年內(nèi),CD4是生物醫(yī)學(xué)文獻(xiàn)中的出現(xiàn)頻率最高基因。它從1987年到1996年一直保持這樣的狀態(tài),這個(gè)時(shí)期占了NLM所有標(biāo)簽的1-2%。
3. 九十年代初,TP53已經(jīng)開始登上歷史舞臺(tái)。但在它爬到人類基因階梯頂端之前的幾年時(shí)間,一種名為GRB2的鮮為人知的基因卻是研究的焦點(diǎn)。當(dāng)時(shí),研究人員開始確定與細(xì)胞通訊有關(guān)的特定蛋白質(zhì)的相互作用。由于細(xì)胞生物學(xué)家Tony Pawson的開創(chuàng)性工作,科學(xué)家們知道一些小的細(xì)胞內(nèi)蛋白質(zhì)含有一個(gè)稱為SH2的模塊,它可以與細(xì)胞表面的活化蛋白質(zhì)結(jié)合并將信號(hào)傳遞給細(xì)胞核。1992年,位于康涅狄格州紐黑文的耶魯大學(xué)醫(yī)學(xué)院的生物化學(xué)家約瑟夫·施萊辛格(Joseph Schlessinger)指出,由GRB2 - 生長(zhǎng)因子受體結(jié)合蛋白2編碼的蛋白質(zhì)就是這個(gè)接力點(diǎn)。它包含一個(gè)SH2模塊以及兩個(gè)激活參與細(xì)胞生長(zhǎng)和存活的蛋白質(zhì)的結(jié)構(gòu)域?!斑@是一個(gè)分子媒介,”施萊辛格說(shuō)。GRB2之所以受人關(guān)注,部分是因?yàn)?/span>GRB2“是信號(hào)傳導(dǎo)級(jí)聯(lián)的兩個(gè)部分之間的第一個(gè)物理連接”,加州圣地亞哥州立大學(xué)的生物化學(xué)家Peter van der Geer說(shuō)。此外,“它涉及細(xì)胞調(diào)控的許多不同方面”。但在TOP10基因中,GRB2又是一個(gè)異常值。這不是疾病的直接原因;也不是藥物靶點(diǎn),這也許可以解釋為什么它在“火爆期”是短暫的。泰晤士報(bào)卡羅林斯卡研究所(Karolinska Institute),皮埃爾和瑪麗居里大學(xué)(Pierre and Marie Curie University)的TP53長(zhǎng)期研究員Thierry Soussi說(shuō):“一些冉冉升起的新星因?yàn)闆](méi)有臨床價(jià)值而快速倒下。具有持久力的基因通常表現(xiàn)出吸引資助機(jī)構(gòu)支持的治療潛力。Soussi說(shuō)?!盎虻闹匾耘c其臨床價(jià)值有關(guān),這顯而易見”。
4. 1979年已經(jīng)確定了TP53基因編碼p53。然而,TP53在2000年左右才成為研究最多的基因。它與許多主宰生物學(xué)研究的基因一樣,在最初的發(fā)現(xiàn)之后并沒(méi)有得到正確的理解。起初,癌癥研究界把它誤認(rèn)為癌基因 - 當(dāng)癌癥突變時(shí),它驅(qū)動(dòng)了癌癥的發(fā)展。直到1989年Vogelstein實(shí)驗(yàn)室的研究生Suzanne Baker才發(fā)現(xiàn),它實(shí)際上是一種抑癌劑。
5. 人類對(duì)癌癥的研究也使得TNF基因獲得了亞軍,成為即TP53之后最受關(guān)注的人類基因之一,在NLM數(shù)據(jù)中有超過(guò)5,300次被引用(參見“Top基因”)。它編碼一種蛋白質(zhì) - 腫瘤壞死因子 - 因其能殺死癌細(xì)胞而于1975年命名。但是抗癌作用并不是TNF的主要功能。當(dāng)在人體中測(cè)試時(shí),TNF蛋白的治療形式是高度毒性的。
美國(guó)國(guó)家醫(yī)學(xué)圖書館跟蹤了數(shù)十種物種的基因,包括小鼠,蒼蠅和其他重要的模式生物,以及病毒。從所有物種的基因來(lái)看,在過(guò)去的50年中,100個(gè)研究最多的基因中有超過(guò)三分之二是人類基因。但是,一些非人類基因也在名單上排名非??壳?。通常,這些與人類健康有明確的聯(lián)系,如TP53的小鼠版本,或env,編碼參與進(jìn)入細(xì)胞過(guò)程的包膜蛋白的病毒基因。
一個(gè)基因之所以比別的基因更受關(guān)注,融合了生物學(xué),社會(huì)壓力,商業(yè)機(jī)會(huì)和醫(yī)療需求等多方面的因素。但是,一旦它進(jìn)入這個(gè)所謂“明星陣列”,英國(guó)利茲大學(xué)(University of Leeds)的科學(xué)史學(xué)家格雷戈里·拉迪克(Gregory Radick)說(shuō):“這些基因會(huì)被認(rèn)為是更保險(xiǎn)的下注目標(biāo),除非發(fā)生條件改變”?,F(xiàn)在的問(wèn)題是條件如何改變。什么樣的新發(fā)現(xiàn)可能會(huì)把一個(gè)新的基因送上Top列表 - 并將今天的頂級(jí)基因從list上剔除呢?
1.