深度学习在生物学上有哪些应用?(下)

高层速读

关键信息

1.生物学与人工智能相结合,可以预测和治疗疾病,发现新药物,为疾病寻找新治疗方法,等等;

2.这样的研究也有一定挑战性:对数据质量和数量拥有严格标准、计算机缺乏判断力、算法难以解释清楚。

上文回顾:生物学研究人员正在使用深度学习算法对细胞图像进行分类、建立基因组联系、推进药物发现…从基因组学、成像到电子病历均有深度学习的应用。通过人工智能与生物学的有机结合,前者为生物数据的测量和分类提供了强有力的帮助,深度学习可以检测到人类无法看到的数据特征,算法模型现可以较高精准度识别图像标签。

详情点击查看:从细胞图像到基因组,从影像到药物发现,还有人工智能做不了的?(上)

深度学习在生物学上有哪些应用?(下)

挖掘大量的优质基因组数据

说到深入学习,不是任何数据都能被使用。这种方法通常需要大量的、进行良好标注的数据集。成像数据能提供一种天然的契合,基因组数据也可以。

一家使用这些数据的生物技术公司是旧金山的Verily Life Sciences(前谷歌生命科学公司)。Verily的研究人员开发了一种深入学习工具,它比传统工具能更准确地识别一种常见的基因变异,称为单核苷酸多态性。该软件被称为“DeepVariant”,它将基因组信息转换成图像一样的表现形式,然后作为图像进行分析(参见下文“Tools for deep diving”,深潜工具)。Verily公司深度学习型基因组研究主管Markde Pristo预计,DeepVariant对于研究主流之外的生物——那些在识别遗传变异方面拥有低质量参考基因组和高错误率的生物——将特别有用。他的同事Ryan Poplin在植物研究中使用DeepVariant,相比20%误差率的传统方法,这种新工具的误差率减少了2%。

TOOLS FOR DEEP DIVING(深潜工具)

深度学习工具正在迅速发展,而实验室将要利用专门的计算专业知识与协作。

首先,带一位有深度学习经验的同事出去吃午饭,问问这个策略是否有用,加州旧金山格拉德斯通研究所(Gladstone Institutes)的神经学家Steve Finkbeiner建议道。对于一些数据集,如成像数据,现成的程序可能是够用的;对于更复杂的项目,你需要考虑一个合作者,他说,讲习班和会议可以提供培训机会。

云计算资源的访问意味着研究人员可能不需要一个现场计算机集群来使用深度学习——他们可以在其他地方运行计算。Google的 TensorFlow是一个用于构建深入学习算法的开源平台,它可以在软件共享网站GitHub上找到,正如一个开源版本的DeepVariant一样——一种精确识别遗传变异的工具。

谷歌加速科学(Google Accelerated Science)是谷歌研究部门的一个分支,总部位于加利福尼亚州山景城,与包括生物学家在内的一系列科学家合作,其研究科学家之一Michelle Dimon介绍。Dimon说,项目需要一个引人注目的生物学问题,大量高质量的标注数据,以及将使公司机器学习专家能够为该领域做出独特计算贡献的挑战。

那些想要跟上深度学习进展的人应该看看“deep review”(深度复习),这是一个由费城宾夕法尼亚大学的计算生物学家Casey Greene领导的全面的、众包式的评估。

深度学习在生物学上有哪些应用?(下)

用深度学习预测疾病

加拿大公司DeepGenology驻多伦多的首席执行官BrendanFrey也专注于基因组数据,但目标是预测和治疗疾病。Frey的多伦多大学学术团队开发了一些用基因组数据与从健康细胞转录的数据来训练的算法。此算法在这些数据中建立了RNA加工的预测模型,如剪接、转录和多腺苷化。Frey说,当应用于临床数据时,这些算法能够识别突变并将其标记为致病基因,尽管他们从未见过临床数据。在Deep Genomics中,Frey的团队正在使用同样的工具来识别和定位软件发现的疾病机理,开发出由短核酸序列衍生的治疗方法。

用深度学习发现药物

另一门具有大量数据集的学科是药物发现。在这里,深入学习算法正在帮助解决分类排序上的挑战,通过筛选形状和氢键结合等分子特征,以确定对这些潜在药物进行排序的标准。例如,位于旧金山的一家生物技术公司Atomwise已经开发出了将分子转化为三维像素网格的算法,称为Voxels。这种表达方式使公司能够用原子级精确性来解释蛋白质和小分子的三维结构,并模拟碳原子的几何形状等特征。该公司首席执行官AbrahamHeifets表示,这些特征随后被转化为数学向量,该算法可以用来预测哪些小分子可能与某一特定蛋白质发生相互作用。他说:“我们所做的很多工作都是针对没有已知结合剂的(蛋白质)目标。”

Atomwise正在使用这一策略来推动其新的人工智能驱动的分子筛选程序,该项目扫描了一个拥有一千万种化合物的库,为学术研究人员提供了多达72个潜在小分子结合剂,以确定能与它们相互在作用的蛋白质。

深度学习在生物学上有哪些应用?(下)

用深度学习寻找治疗方法

深入学习工具还可以帮助研究人员对疾病进行分类,了解疾病亚群体,寻找新的治疗方法,并给用这些治疗方法给合适的患者进行临床测试和治疗。例如,Finkbeiner是Answer ALS财团的一个成员,该协会致力于将一系列数据——基因组学、转录学、表观基因组学、蛋白质组学、成像,甚至多能干细胞生物学——从1000名患有神经退行性疾病的人中结合起来。他说:“这是我们首次拥有一个数据集,我们可以在这里应用深度学习,看看深度学习是否能揭示一种关系,可以在细胞周围的盘子里测量的东西和病人身上发生的事情之间的关系。”

挑战和警告

1.对数据质量和数量的严格标准

研究人员警告说,深深度学习带来了巨大的挑战。就像任何计算生物学技术一样,由算法产生的结果取决于输入的数据。将模型与其训练数据过度匹配也是一个令人关注的问题。此外,对于深度学习,数据数量和质量的标准往往比一些实验生物学家所预期的更严格

深入学习算法需要非常大的数据集,这些数据集需要很好的标注,这样这些算法就可以学会识别特征和对模式进行分类。更大、更清晰的数据集——数百万个数据点代表着不同的实验和生理条件——为研究人员提供了训练算法的最大灵活性。Finkbeiner指出,在其工作中的算法训练在大约15000例之后有了很大的改善。Carpenter说,这些高质量的“真实”数据可能非常难以获得。

为了规避这一挑战,研究人员一直在研究如何用更少的数据进行更多训练。Carpenter说,底层算法的进步使得神经网络能够更有效地使用数据,从而为一些应用程序提供了对少数图像的培训。科学家还可以利用转移学习,即神经网络将从一种数据类型获得的分类能力应用到另一种数据类型的能力。例如,Finkbeiner的团队开发了一种算法,它最初教授的算法是根据形态学的变化来预测细胞死亡。虽然研究人员训练它来研究啮齿动物细胞的图像,但当它第一次接触到人类细胞的图像时,它的准确率达到了90%,随着经验的积累,它的精确度提高到了99%。

对于一些生物图像识别工作,谷歌加速科学使用的算法最初是用从互联网上挖掘的数亿张消费者图像进行训练的。然后,研究人员改进了这种训练,只使用了几百张与他们想要研究的相似的生物图像。

深度学习在生物学上有哪些应用?(下)

2.计算机缺乏判断力

深入学习的另一个挑战是计算机“不聪明、又懒惰”,谷歌加速科学的研究科学家Michelle Dimon指出,它们缺乏区分生物相关性差异和正常变异的判断力。“这台电脑在发现批量变异方面有惊人的出色表现。”她说。因此,获取将被输入深入学习算法的数据,通常意味着为实验设计和控制应用一个高标准。谷歌加速科学要求研究人员在细胞培养板上随机设置控制装置,以考虑诸如孵化器温度等微妙的环境因素,并使用是一般生物学家可能使用的两倍的控制量。

Dimon说,这一风险突出了生物学家和计算机科学家共同努力、设计包含深度学习的实验的重要性。对于谷歌最近的一个项目:Contour,这种精心设计变得更加重要。这是一种将细胞成像数据集中在一起的策略,它突出趋势(比如剂量反应),而不是将它们归入特定类别(如活细胞或死细胞)。

Greene警告说,尽管深度学习算法可以在没有人类先入之见和过滤器的情况下对数据进行评估,但这并不意味着它们是无偏见的。训练数据可能会被扭曲——例如,当只使用北欧人的基因组数据时,就会出现这种情况。对这些数据进行深入学习的算法将获得嵌入性偏见,并将其反映在预测中,这反过来可能导致不平等的病人护理。如果人类帮助验证这些预测,这就提供了对问题的潜在检查。但是,如果仅靠电脑来做关键决定,这种担忧会令人感到不安。Greene说:“把这些方法看作是增强人类力量的一种方式,比把这些方法看作是取代人类的方法要好。”

深度学习在生物学上有哪些应用?(下)

3.算法难以解释清楚

还有一个挑战,就是如何准确地理解这些算法是如何构建特征或特性的,而这些特性首先是用来分类数据的。位于马里兰州巴尔的摩Insilo Medicine的研究科学家Polina Mamoshina说,计算机科学家正在通过改变或调整模型中的个体特征来解决这个问题,然后研究这些调整如何改变预测的准确性。但是不同的神经网络在处理相同的问题时不会以同样的方式来处理,Greene警告说,研究人员正越来越多地关注那些既准确又可以解释的预测的算法,但就目前而言,这些系统仍然是黑匣子。

Greene说:“我认为2018年能被解释得很清楚的深度学习模式并不会出现,尽管我很希望我错了。”

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据