人工智能在现代DNA中发现古代人类的痕迹!

人工智能在现代DNA中发现古代人类的痕迹!

博科园:本文为科学技术类

在深度学习技术的帮助下,古人类学家发现了人类家谱上丢失已久的分支证据。深度学习技术能帮助古生物学家和遗传学家寻找古人类的痕迹吗?7万年前,当现代人第一次走出非洲时,至少有两个已经灭绝的相关种群在欧亚大陆等候着他们。这两个相关种群就是古代人类尼安德特人和丹尼索瓦人,而后古代人类与早期的现代人杂交,现今的非洲后裔基因组还存留着古代人类DNA片段。越来越多的迹象表明,这段历史远比我们了解到的精彩。一个研究小组在《自然》(Nature)上报道称:他们在西伯利亚的一个洞穴中发现了一块属于人类杂交后代的骨头碎片,这一后代的母亲是尼安德特人,父亲是丹尼索瓦人,这块骨头碎片是第一代人类杂交的第一个化石证据。

不幸的是,类似的化石十分罕见,例如对丹尼索瓦人的了解基于从一根指骨中提取的DNA。虽然那些来自早期杂交群体的结合以及其他祖先结合很容易被发现,但当涉及到物理证据时,它们可能难以求证。它们出现过的线索可能只存在于某些人的DNA中,即便如此,它们也可能比尼安德特人和丹尼索瓦人的基因更微妙。统计模型帮助科学家在没有化石数据的情况下推断出这些种群的存:例如2013的古人类和现代人基因变异模式表明,一个未知的人类种群与丹尼索瓦人(或他们的祖先)进行了杂交。但专家们认为,这些方法也不可避免地忽视了许多细节。

人工智能正在帮助古生物学家和人类学家重建导致现代人类出现的古人类杂交复杂模式。图片:Photo by Bill O’Leary/The Washington Post via Getty Images

还有谁对现今人类的基因组做出了贡献?这些种群长什么样子?它们生活在哪里?它们与其他人类物种互动和交配的频率是多少?发表在《自然通讯》(Nature Communications)上的一篇论文中,研究人员展示了深度学习技术的潜力,这种技术可以帮助填补一些缺失部分,填补的部分专家甚至可能还没有意识到。他们通过深入研究,挑选出了另一个种群的存在证据:欧亚大陆上一个未知的人类祖先,它可能是尼安德特人和丹尼索瓦人的混血,也可能是丹尼索瓦人的亲戚。这项研究工作指出了人工智能在古生物学中的未来用途,它不仅能识别不可预见的痕迹,还能揭示出我们在进化过程中的缺失部分。

1、寻找微妙的特征

目前统计方法涉及同时检测4个基因组的共同特征,这是对相似性的测试,但不一定是对实际祖先的测试;因为很多不同的方法都可以解释它揭示的少量基因混合物。例如这些分析可能表明,现代欧洲人与尼安德特人的基因组有某些共同特征,但与现代非洲人不同,然而这并不意味着这些基因来自尼安德特人与欧洲祖先的杂交。后者可能与一个与尼安德特人关系密切的种群繁殖,而不是尼安德特人本身。因为缺乏物理证据来表明这些古老的假定基因变异来源于何时、何地以及如何生活的种群,所以很难说在众多的推测祖先中,明确指出是哪一个。

威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的古人类学家约翰·霍克斯(John Hawks)说:这项技术简单而强大,但在理解进化论方面还有很多问题没有解决。深度学习方法试图解释基因流动的水平,虽然基因流动水平相对于统计方法来说太小了,但它提供了更广泛、更复杂的模型来解释。通过训练,神经网络可以学习在基因组数据中根据最可能产生它们的人口历史对各种模式进行分类,而不需要被告知如何建立这些联系。

深度学习技术的使用可以发现研究人员没有怀疑过的古人类痕迹。首先,我们没有任何理由认为尼安德特人、丹尼索瓦人和现代人是人类历史脉络中仅有的三个种群。根据霍克斯的说法,这样的种群可能有几十个。纽约州立大学石溪分校(Stony Brook University)人类学家贾森·刘易斯(Jason Lewis)赞同这种观点并表示:我们的想象力一直受到限制,因为我们总是在关注活着的人,或者在欧洲、非洲和西亚发现的化石。深度学习技术以一种奇怪的方式重新聚焦这些可能性,这种方法不再受我们想象力的限制。

2、模拟历史的真实价值

深度学习似乎不太可能解决古生物学家的问题,因为这种方法通常需要大量的训练数据。以其最常见的图像分类器为例,当专家训练一个模型识别猫的图像时,专家有成千上万张可以训练的图片,并且专家本身知道它是否有效,因为他知道猫应该长什么样。由于缺乏相关的人类学和古生物学数据,想要利用深度学习技术的研究人员不得不通过创造自己的数据来让它变得更聪明。巴塞罗那国家基因组分析中心(National Center of Genomic Analysis)的研究员奥斯卡·劳(Oscar Lao)说:我们在玩肮脏的把戏,能够使用无限数量的数据来训练深度学习引擎,因为我们使用的是模拟。

研究人员根据不同的人口统计细节组合生成了成千上万的模拟进化史:祖先人口的数量,大小,当他们彼此分离时的混血率等等。从这些模拟的历史中,科学家们为现代人生成了大量的模拟基因组。他们对这些基因组进行了深度学习算法的训练,使其了解哪种进化模型最有可能产生给定的遗传模式。然后,研究小组将人工智能释放,以推断出最符合实际基因组数据的历史。最终,该系统得出结论,一个以前未被确认的人类群体也对亚洲后裔的祖先有所贡献。从所涉及的基因模式来看,这些人本身可能要么是30万年前丹尼索瓦人和尼安德特人杂交产生的一个独特种群

要么是在那之后不久从丹尼索瓦人后裔中进化而来的一个群体。这并不是深度学习第一次被这样使用,该领域的一些实验室已经在应用类似方法来解决进化研究的其他线索。俄勒冈大学(University of Oregon)的安德鲁•科恩(Andrew Kern)领导的一个研究小组,利用基于模拟的方法和机器学习技术,对包括人类在内的物种如何进化的各种模型进行了区分。发现进化所青睐的大多数适应并不依赖于种群中有益的新突变的出现,而是依赖于已经存在的遗传变异的扩展,将深度学习应用于这些新问题正产生令人兴奋的结果。

3、炒作还是希望?

存在一些问题,首先、如果实际的人类进化史与深度学习方法训练的模拟模型不相同,那么这项技术将产生错误的结果。这是科恩和其他人一直在努力解决的问题,为了提高准确性,还有很多工作要做。普林斯顿大学(Princeton University)生态学家和进化生物学家约书亚·阿基(Joshua Akey)说:我认为人工智能在基因组学方面的应用被过度夸大了。深度学习技术是一种奇妙的新工具,但它只是一种方法,这并不能解决我们想要了解人类进化中的所有谜团和复杂性。

一些专家甚至持怀疑态度,哈佛大学(Harvard University)和皮博迪博物馆(Peabody Museum)的古生物学家戴维·皮尔比姆(David Pilbeam)在一封电子邮件中写道:我的判断是,除了经过深思熟虑的、智能的、非人工的分析之外,数据的密度和质量并不理想。然而在其他古生物学家和遗传学家看来,这是一个很好的进步,可以用来预测未来可能的化石发现和人类几千年前应该存在的遗传变异。我认为深入学习真的会促进群体遗传学,对于我们可以访问数据但不能访问生成数据过程的其他字段,情况可能也是如此。

大约在科恩和其他种群遗传学家和进化生物学家开发基于模拟的人工智能技术来解决问题的同时,物理学家也在研究如何筛选大型强子对撞机和其他粒子加速器产生的海量数据,地质研究和地震预测方法也开始受益于深度学习方法。麻省理工学院和哈佛大学布罗德研究所(Broad Institute of the Massachusetts Institute of Technology)的计算生物学家尼克·帕特森(Nick Patterson)说:我真的不知道会发生什么,但有新方法出现总是好的。它如果能很好地回答我们的问题,我们会尽所能发展它!

博科园-科学科普|参考期刊文献:《natural》,《Nature Communication》

文: Jordana Cepelewicz/Quanta magazine/Quanta Newsletter

DOI: 10.1038/s41586-018-0455-x

DOI: 10.1038/nature12886

DOI: 10.1038/s41467-018-08089-7

博科园-传递宇宙科学之美