人工智能在现代人类基因中找到消亡的古代“幽灵种族”

人工智能在现代人类基因中找到消亡的古代“幽灵种族”

深度学习的人工智能能帮助古生物学家和遗传学家寻找“幽灵”吗?

7万年前,当现代人第一次走出非洲的时候,欧亚大陆至少已经有两个的相关种族(现在已经灭绝)在等着他们了。这些物种就是尼安德特人和丹尼索瓦人,他们是两种古代人类们曾经与早期的现代人进行过杂交,在今天的非非洲后裔基因组中留下了他们的DNA片段。

但越来越多的迹象表明,这段历史其实要复杂多彩得多:例如,一个研究小组去年夏天在《自然》(Nature)杂志上报道称,他们在西伯利亚的一个洞穴中发现了一块骨头碎片,这块碎片属于一个混血小女孩,她的母亲是尼安德特人,父亲是丹尼索瓦人。这一发现标志着第一代人类杂交的第一个化石证据。

不幸的是,这样的化石非常罕见(例如,我们对丹尼索瓦人的了解仅仅基于从一根指骨中提取出来的DNA)。许多其他的祖先之间配对可能很容易就会发生,包括那些来自早期杂交群体的组合——但当涉及到物理证据的时候,它们可能实际上几乎很难被发现。相反,它们发生的线索可能只存在于某些人的DNA中,但就算是这样,它们也可能比尼安德特人和丹尼索瓦人的基因更加难以发现。

但统计模型帮助科学家在没有化石数据的情况下推断出了这些种群的存在:例如,根据2013年底发表的一项研究,古人类和现代人的基因变异模式表明,又一个未知的人类种群与丹尼索瓦人(或他们的祖先)进行了杂交。不过专家们认为,这些方法也不可避免地忽视了很多东西。

还有谁对今天现代人的基因组做出了贡献?这些所谓的“幽灵种族”长什么样子?他们生活在哪里?他们与其他人类物种互动和交配的频率如何?

在上个月发表在《自然通讯》(Nature Communications)杂志上的一篇论文中,研究人员展示了深度学习技术的潜力,这种技术可以帮助填补基因组中的一些甚至连专家都可能没有意识到的缺失部分。他们通过深度学习技术筛选出了另一个“幽灵种群”的证据:欧亚大陆上一个未知的人类祖先,他们可能是尼安德特人和丹尼索瓦人的混血种群,也可能是丹尼索瓦人的近亲。

这项工作指出了人工智能在古生物学中的未来用途,它不仅能识别不可预见的幽灵,还能在塑造我们成为今天这个样子的进化过程中揭示已经褪色的那些足迹。

寻找微妙的特征

目前对共同特征的统计方法涉及到同时检测4个基因组,但这是对相似性的测试,不一定是对实际祖先的测试,因为对于这种方法揭示的少量基因混合可以有很多不同的解释。例如,这些分析可能表明,现代欧洲人与尼安德特人的基因组有某些共同特征,但与现代非洲人不同,不过这并不意味着这些基因来自于尼安德特人与欧洲祖先的杂交,例如,后者可能与另一个与尼安德特人血缘关系非常密切的种族进行了杂交,但不是与尼安德特人。

深度学习技术可以做的是以一种奇怪的方式来重新聚焦这些可能性,这种方法不会再受到我们想象力的限制。——杰森·刘易斯,石溪大学

我们只是不知道,因为我们缺乏物理证据来表明这些古老的假定基因变异来源(幽灵种族可能在何时、何地以及如何生活,所以也很难说在众多可能的假设祖先中,哪一个才是最可能的。威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的古人类学家约翰·霍克斯(John Hawks)说,这项技术“因为简单而强大,但在理解进化方面还有很多问题悬而未决”。

这种新的深度学习技术方法正在试图做得更好,它试图解释基因流动的水平(这些基因流动水平对于通常的统计方法来说太小了),并试图提供更广泛、更复杂的模型。通过训练,神经网络可以学习在基因组数据中根据最可能产生各种模式的人口历史来对各种模式进行分类,而不需要人为告知地、被动地去建立这些联系。

使用这种深度学习技术可以让我们发现我们甚至怀疑都没有怀疑过的“幽灵种族”。首先,我们没有理由认为尼安德特人、丹尼索瓦人和现代人是人类进化史中仅有的三个种群,根据霍克斯的说法,这样的种群很可能有几十个。

纽约州立大学石溪分校(Stony Brook University)的人类学家贾森·刘易斯(Jason Lewis)赞同这种观点。他说:“我们的想象力一直受到了限制,因为我们一直关注的是活着的人、或者是我们在欧洲、非洲和西亚发现的化石。深度学习技术可以以一种奇怪的方式来重新聚焦这些可能性,这种方法不会再受到我们想象力的限制。”

模拟历史的真实价值

深度学习技术似乎不太可能解决古生物学家的问题,因为这种方法通常需要大量的训练数据。以其最常见的应用之一,图像分类器为例,当专家训练一个模型去识别猫的图像时,他们有成千上万张可以训练的图片,他们自己知道这个图像分类器是否有效,因为他们知道猫应该长什么样。

但由于缺乏相关的人类学和古生物学数据,所以想要利用深度学习技术变得更加聪明的研究人员不得不创造他们自己的数据。“我们像是在作弊,”巴塞罗那国家基因组分析中心(National Center of Genomic Analysis)的研究员、该研究的作者之一奥斯卡·劳(Oscar Lao)说,“我们可以使用无限数量的数据来训练深度学习引擎,因为我们使用的是模拟数据。”

我认为深度学习技术将会给种群遗传学带来巨大的推动。——奥斯卡·劳。

研究人员根据不同的人口统计细节(祖先人口的数量、他们的大小、他们产生分支的时间、他们的混血率等等)组合生成了成千上万的模拟进化史。从这些模拟的历史中,科学家们为现代人生成了大量的模拟基因组,他们让深度学习算法在这些基因组上进行训练,使其了解哪种进化模型最有可能产生给定的遗传模式。

然后,研究小组将人工智能置于现实数据之中,以推断出最符合实际基因组数据的历史。最终,该系统得出结论,一个以前未被确认的人类群体也对亚洲后裔的祖先基因也有所贡献。从所涉及的基因模式来看,这些人本身可能要么是30万年前丹尼索瓦人和尼安德特人杂交产生的一个独特种群,要么是在那个时间段之后不久从丹尼索瓦人后裔中进化而来的一个群体。

这并不是深度学习技术第一次被这样使用了。该领域的一些实验室已经在应用类似的方法来解决进化研究的其他线索。俄勒冈大学(University of Oregon)的安德鲁•科恩(Andrew Kern)领导的一个研究小组利用了一种基于模拟的方法和机器学习技术,对物种(包括人类在内)如何进化的各种模型进行了区分。他们发现,进化所青睐的大多数适应并不依赖于种群中有益新突变的出现,而是依赖于现有遗传变异的扩展。

科恩说,将深度学习技术应用于“这些新问题正产生令人兴奋的结果。”

炒作和对新工具的希望

当然了这种技术也带来了一些重大警告。首先,如果实际的人类进化史不像这些深度学习技术的模拟训练模型的话,那么这些技术将会产生错误的结果。这是科恩和其他人一直在努力解决的问题,但要提高其准确性的话,还有很多工作要做。

普林斯顿大学(Princeton University)生态学家和进化生物学家约书亚·阿基(Joshua Akey)说:“我认为人工智能在基因组学方面的应用被过度夸大了,不错,深度学习技术是一种奇妙的新工具,但它也只是另一种方法罢了,它并不能解决人类进化中的所有谜团和复杂谜团。”

一些专家甚至持怀疑态度。“我认为数据的密度和质量,除了周详、智能的非人工分析之外,并不适合做其他事情,”哈佛大学(Harvard University)和皮博迪博物馆(Peabody Museum)的古生物学家戴维·皮尔比姆(David Pilbeam)在一封电子邮件中写道。

然而,在其他古生物学家和遗传学家看来,这是向前迈出的一大步,它可以用来预测未来可能发现的化石,以及数千年前人类可能存在的基因变异。劳说:“我认为,深度学习技术将真正推动种群遗传学的发展。”

对于我们可以得到数据但不能得到生成数据过程的其他领域来说,情况可能也是如此。大约在科恩和其他种群遗传学家,以及进化生物学家开发基于模拟数据的人工智能技术来解决他们的问题的同时,物理学家也正在使用深度学习技术来研究如何筛选大型强子对撞机和其他粒子加速器产生的海量数据。地质研究和预测地震的方法也开始受益于这种深度学习技术方法。

麻省理工学院和哈佛大学布罗德研究所(Broad Institute of the Massachusetts Institute of Technology)的计算生物学家尼克·帕特森(Nick Patterson)说:“我真的不知道这最终会把我们带到什么地方,我们会拭目以待,但看到新的方法总是好的,如果它能很好地回答我们想要回答的问题的话,我们会在更多的领域里使用这种方法”