「基因研究简史」基因组上那些基因最popular?

「基因研究简史」基因组上那些基因最popular?

Kerpedjiev—-一位在生物信息学方面有过培训的软件工程师,他正在攻读博士学位,需要一个遗传学速成课程。并认为这将有助于了解生物学的一些基础知识。 “如果我想和某人进行一次明智的对话,我需要了解哪些基因?”他想知道。

Kerpedjiev直奔数据。多年来,美国国家医学图书馆(NLM)一直在其流行的PubMed数据库中系统地标记几乎所有的文章,其中包含关于基因的一些信息。 Kerpedjiev提取了所有标记为描述基因或其编码蛋白质的结构,功能或位置的论文。

通过记录排序,他编辑了一个有史以来研究最多的基因列表 。

在标题名单中,他发现,是一个叫TP53的基因。三年前,Kerpedjiev首先做了他的分析,研究人员在约6600份论文中仔细研究了它产生的基因或蛋白质p53。现在,这个数字已经达到了8,500个左右。平均每天发表两篇论文,描述TP53基础生物学的新细节。

该基因是一种肿瘤抑制因子,被广泛称为“基因组的守护者”。它在大约一半的人类癌症中突变。马里兰州巴尔的摩市约翰霍普金斯大学医学院的癌症遗传学家Bert Vogelstein说:“这就解释了它的持久力。他说,在癌症中,“没有更重要的基因”。

但是一些基因的知名度还不是很高,包括一些在过去的基因研究中突显出来的基因,但随着技术的进步,这些基因只会脱落。 Kerpedjiev现在是马萨诸塞州波士顿哈佛医学院(Harvard Medical School)研究基因组数据可视化的博士后,他说:“这个列表令人惊讶。 “有些基因是可以预测的。其他则完全出乎意料。“

为了了解更多信息,Nature与Kerpedjiev一起分析了有史以来研究最多的基因(参见“前十名”)。这个练习提供的不仅仅是一个对话的开始:它揭示了生物医学研究的重要趋势,揭示了对特定疾病或公共健康问题的关注如何将研究重点转移到潜在基因。

「基因研究简史」基因组上那些基因最popular?

「基因研究简史」基因组上那些基因最popular?

在人类基因组中大约20,000个蛋白质编码基因中,100个占据了NLM标记的论文的四分之一以上。在任何一年里,数千个都不会被研究。英国剑桥大学(University of Cambridge)的科学史家海伦·安妮·库里(Helen Anne Curry)表示:“这揭示了我们不了解多少。

2002年,在人类基因组第一次测序之后,NLM开始系统性地将“基因参考功能”(GeneRIF)添加到论文中。它把这个注释延伸到了20世纪60年代,有时使用其他数据库来帮助填写细节。这不是一个完美的策划记录。 “一般来说,数据集有点乱,”马里兰州贝塞斯达NLM的科学家Terence Murphy说。他警告说,在2002年以前发表的论文可能存在一些取样偏差。这意味着一些基因被过度代表,一些基因可能错过了。墨菲说:“但这并不糟糕。 “当你聚合多个基因,这可能会减少这些偏见。”

有一点需要注意的是,PubMed记录揭示了几个不同的历史时期,其中基因相关的论文倾向于关注特定的热门话题(参见“多年来的时尚基因”)。例如,在20世纪80年代中期之前,许多以血红蛋白为基础的基因研究,血红蛋白是在红细胞中发现的携氧分子。 1985年以前,人类遗传学研究中有超过10%的研究是关于血红蛋白的。

「基因研究简史」基因组上那些基因最popular?

「基因研究简史」基因组上那些基因最popular?

当时,研究人员还在继续研究Linus Pauling和Vernon Ingram的早期工作,他们开创了以分子水平研究疾病的生物化学家,并在20世纪40年代和50年代发现了血红蛋白异常导致镰状细胞病的发现。分子生物学家马克斯·佩鲁茨(Max Perutz)在1962年的诺贝尔化学奖获得了他的血红蛋白结构三维图谱的份额,他继续探讨几十年后蛋白质的形状与其功能的关系。

根据美国马里兰州贝塞斯达的美国国家卫生研究院的医学家和高级历史顾问Alan Schechter的说法,血红蛋白基因 – 当时比任何其他基因 – 都提供了“理解和可能治疗分子疾病的入口”。

一位镰状细胞研究人员Schechter自己说,在20世纪70年代和80年代早期的重大遗传学会议和血液疾病会议上,这样的基因是谈话的焦点。但随着研究人员获得测序和操作DNA的新技术,他们开始转向其他基因和疾病,其中包括当时以男同性恋为主的神秘感染。

甚至在1983年发现HIV是艾滋病的原因之前,临床免疫学家,例如大卫·克拉茨曼(David Klatzmann)就已经注意到这种疾病患者中有一种特殊的模式。现在在巴黎皮埃尔和玛丽居里大学的克拉茨曼回忆说:“我对这些人没有T4细胞感到震惊。他在细胞培养实验中表明,HIV似乎选择性地感染和破坏这些细胞,这是免疫系统T细胞的一个子集。问题是:病毒如何进入细胞?

Klatzmann推断,免疫学家用来定义这组细胞的表面蛋白(后来称为CD4)也可以作为HIV进入细胞的受体。他是正确的,正如他在1984年12月发表的一篇研究报告中,以及来自伦敦癌症研究所分子病毒学家罗宾·韦斯(Robin Weiss)和他的同事的类似论文一样。

在三年内,CD4是生物医学文献中的最高基因。它从1987年到1996年一直保持这样的状态,这个时期占了NLM所有标签的1-2%。

这种关注的部分原因是努力解决正在出现的艾滋病危机。例如,在20世纪80年代后期,有几家公司涉足工程治疗形式的CD4蛋白,在感染健康细胞之前可以清除HIV颗粒。但是,马里兰州弗雷德里克美国国家癌症研究所艾滋病和癌症病毒项目主任杰弗里·利夫森(Jeffrey Lifson)说,小型人体试验的结果证明“不足”。

CD4流行的更大一部分与基础免疫学有关。 1986年,研究人员意识到表达CD4的T细胞可以细分为两种不同的人群,一种消除细胞感染细菌和病毒,另一种防止寄生虫,如蠕虫,不会侵入细胞而引起疾病。纽约大学医学院的免疫学家丹•利特曼(Dan Littman)说:“这是一个相当令人激动的时刻,因为我们真的很少了解这一点。就在一年前,他帮助克隆了编码CD4的DNA并将其插入到细菌中,从而可以将大量的蛋白质用于研究。

十年之后,Littman还共同领导了三个小组中的一个,以显示进入细胞的艾滋病病毒使用另一种受体与CD4:一种被确定为CCR5的蛋白质。这些以及第二个被称为CXCR4的共同受体,一直是密集的全球HIV研究的焦点,迄今为止还没有实现的目标是阻断病毒进入细胞。

到九十年代初,TP53已经上升。但在爬到人类基因阶梯的顶端之前,还有几年时长,一种名为GRB2的鲜为人知的基因成为了焦点。

当时,研究人员开始确定与细胞通讯有关的特定蛋白质相互作用。由于细胞生物学家Tony Pawson的开创性工作,科学家们知道一些小的细胞内蛋白质含有一个称为SH2的模块,它可以与细胞表面的活化蛋白质结合并将信号传递给细胞核。

1992年,位于康涅狄格州纽黑文的耶鲁大学医学院的生物化学家约瑟夫·施莱辛格(Joseph Schlessinger)指出,由GRB2 – 生长因子受体结合蛋白2编码的蛋白质就是这个接力点。它包含一个SH2模块以及两个激活参与细胞生长和存活的蛋白质的结构域。 “这是一个分子媒介,”施莱辛格说。

其他研究人员很快就填补了空白,开启了信号转导的研究领域。尽管许多其他细胞信号传导构件很快被发掘出来,最终导致癌症,自身免疫性疾病,糖尿病和心脏病的治疗,但是GRB2仍处于前沿,并且在20世纪90年代后期成为三年来的首选基因。

这部分是因为GRB2“是信号传导级联的两个部分之间的第一个物理连接”,加州圣地亚哥州立大学的生物化学家Peter van der Geer说。此外,“它涉及细胞调控的许多不同方面”。

在研究最多的清单中,GRB2是一个异常值。这不是疾病的直接原因;也不是药物靶点,这也许可以解释为什么它在阳光下的瞬间是短暂的。泰晤士报卡罗林斯卡研究所(Karolinska Institute)长期研究P53,皮埃尔和玛丽居里大学(Pierre and Marie Curie University)的Thierry Soussi说:“你们有一些冉冉升起的新星因为没有临床价值而快速倒下。具有持久力的基因通常表现出某种吸引资助机构支持的治疗潜力。 “总是这样,”Soussi说。 “基因的重要性与其临床价值有关”。

它也可以与基因的某些性质相联系,如表达的水平,种群之间的变化程度以及结构的特征。根据伊利诺斯州Evanston西北大学的系统生物学家Thomas Stoeger的分析,本月在德国海德堡举行的一个研讨会上报告说,他可以预测哪些基因最受关注,只需将这些属性插入算法.

斯托格认为,这些联系的原因很大程度上归结于他所谓的可发现性。流行的基因碰巧在生物学的热门领域,可以用当时可用的工具进行探测。 Stoeger说:“研究一些事情比其他事情要容易得多,这是一个问题,因为大量的基因没有被描述,也没有被深入研究,在理解人类健康和疾病方面留下了很大的空白。

库里还指出政治家,制药商和病人提倡者所形成的“交织在一起的技术,社会和经济因素”。

正确的地点正确的时长

Stoeger还追踪了流行基因的一般特征如何随时长而改变。他发现,例如,在20世纪80年代,研究人员主要关注蛋白质产物在细胞外被发现的基因。这可能是因为这些蛋白质最容易分离和研究。最近才注意到在细胞内发现产物的基因。

Stoeger说,这种转变是在人类基因组出版的过程中发生的。这一进展将会促进更大比例的基因进行研究。

然而,许多探索最多的基因并不适合这些较大的趋势。例如,p53蛋白在核内有活性。然而,TP53在2000年左右成为研究最多的基因。它与许多主宰生物学研究的基因一样,在最初的发现之后并没有得到正确的理解,这也许可以解释为什么在1979年后,基因上升到文章的头把交椅。

起初,癌症研究界把它误认为癌基因 – 当癌症突变时,它驱动了癌症的发展。直到1989年,Vogelstein实验室的研究生Suzanne Baker才发现,它实际上是一种抑癌剂。只有这样,基因的功能研究才真正开始蒸蒸日上。贝克(现在是孟菲斯圣裘德儿童研究医院的脑肿瘤研究员)说:“你可以从出版物的高峰看到,那时基本上有很多人真的很感兴趣。

人类癌症的研究也使得科学家获得了TP53的亚军,成为有史以来最受关注的人类基因,在NLM数据中有超过5,300次被引用(参见“Top基因”)。它编码一种蛋白质 – 肿瘤坏死因子 – 因其能杀死癌细胞而于1975年命名。但是抗癌作用并不是TNF的主要功能。当在人体中测试时,TNF蛋白的治疗形式是高度毒性的。

「基因研究简史」基因组上那些基因最popular?

该基因原来是炎症的介质;其对肿瘤的作用是次要的。一旦在20世纪80年代中期变得清晰,注意力迅速转移到测试阻断其作用的抗体上。现在,抗肿瘤坏死因子疗法是治疗类风湿性关节炎等炎症性疾病的主要药物,全球年销售额达数百亿美元。

纽约曼哈塞特医院研究所(Feinstein Institute for Medical Research)的神经外科医生和免疫学家凯文·特雷西(Kevin Tracey)说:“这是一个例子,其中的基因和基因产物的知识已经相对迅速地改变了世界的健康状况。

APOE的另一个基因暂时中断了TP53的优势地位。在二十世纪七十年代中期,作为参与清除血液中胆固醇的一种转运蛋白,APOE蛋白首先被认为是一种预防心脏疾病的降脂治疗方法。

最终,在20世纪80年代后期制定他汀类药物中断了这一进展。但是,神经科学家艾伦·罗西斯(Allen Roses)和他的同事们发现APOE蛋白与阿尔茨海默病患者的粘性脑斑块结合在一起。他们在1993年发现10种基因APOE4的一种特殊形式与疾病的风险大大增加有关。

这引起了对基因更广泛的兴趣。尽管如此,花费大量时长才能提高研究最多的图表。北卡罗来纳州教堂山的仙粉黛制药公司(Zinfandel Pharmaceuticals)的神经遗传学家,首席执行官安·桑德斯(Ann Saunders)回忆说:“这个假说非常棒。淀粉样蛋白假说认为当时在阿尔茨海默氏症研究领域中,所谓的淀粉样蛋白-β的蛋白质片段的建立是造成这种疾病的原因。而且很少有研究人员似乎对找出胆固醇转运蛋白与疾病有什么关系感兴趣。但是,Mahley说,APOE4与阿尔茨海默病风险之间的遗传关系证明是“无可辩驳的”,2001年,APOE略微超过了TP53。它至今仍然是前五名,至少对于人类来说(见“超越人类”)。

「基因研究简史」基因组上那些基因最popular?

像其他流行的基因一样,APOE也被很好地研究,因为它是当今最大的未解决的健康问题之一的核心。但是这也是重要的,因为抗淀粉样蛋白疗法在临床试验中大部分已经被发现。 Mahley说:“我讨厌这样说,但是帮助我的是失败的试验。”他今年为E-Scape Bio公司募集了6300万美元,用于开发靶向APOE4蛋白的药物。他说,这些失败迫使行业和资助机构重新考虑治疗老年痴呆症的治疗策略。

还有一个问题是:生物学,社会压力,商业机会和医疗需求等方面都需要一定程度的融合,才能比任何其他基因研究得更多。但是,一旦它进入高层,英国利兹大学(University of Leeds)的科学史学家格雷戈里·拉迪克(Gregory Radick)说:“有一些基因出现安全下注,然后一直持续到条件改变”。

现在的问题是条件如何改变。什么新的发现可能会将一个新的基因发送到图表上 – 并将今天的顶级基因从基座上剔除?

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据