使用深度学习来注释蛋白质宇宙

蛋白质是存在于所有生物中的必需分子。它们在我们身体的结构和功能中发挥着核心作用，并且它们还出现在我们每天遇到的许多产品中，从药物到洗衣粉等家居用品。每个蛋白质都是一串氨基酸构建块，就像图像可能包含多个对象一样，例如狗和猫，蛋白质也可能具有多个组成部分，这些组成部分称为蛋白质结构域。了解蛋白质的氨基酸序列（例如其结构域）与其结构或功能之间的关系是具有深远科学意义的长期挑战。

许多人都熟悉从氨基酸序列计算预测蛋白质结构的最新进展，如 DeepMind 的 AlphaFold 所示。同样，科学界在使用计算工具直接从序列推断蛋白质功能方面有着悠久的历史。例如，广泛使用的蛋白质家族数据库 Pfam 包含许多描述蛋白质域功能的高度详细的计算注释，例如珠蛋白和胰蛋白酶家族。尽管现有方法已成功预测数亿种蛋白质的功能，但仍有更多功能未知——例如，至少有三分之一的微生物蛋白质没有得到可靠的注释。随着公共数据库中蛋白质序列的数量和多样性继续快速增加，准确预测高度不同序列的功能的挑战变得越来越紧迫。

在 Nature Biotechnology 上发表的“使用深度学习注释蛋白质宇宙”中，我们描述了一种机器学习 (ML) 技术，可以可靠地预测蛋白质的功能。这种我们称之为 ProtENN 的方法使我们能够在 Pfam 著名且值得信赖的一组蛋白质功能注释中添加大约 680 万个条目，大约相当于过去十年的进展总和，我们将其作为 Pfam-N 发布 . 为了鼓励朝这个方向进一步研究，我们正在发布 ProtENN 模型和一篇类似蒸馏的交互式文章，研究人员可以在其中试验我们的技术。该交互式工具允许用户在浏览器中输入序列并实时获得预测蛋白质功能的结果，无需设置。在这篇文章中，我们将概述这一成就以及我们如何在揭示更多蛋白质世界方面取得进展。

蛋白质功能预测作为分类问题

在计算机视觉中，通常首先训练一个用于图像分类任务的模型，如 CIFAR-100，然后将其扩展到更专业的任务，如对象检测和定位。同样，我们开发了一个蛋白质域分类模型，作为迈向未来整个蛋白质序列分类模型的第一步。我们将问题描述为一个多类分类任务，在给定蛋白质结构域的氨基酸序列的情况下，我们从 17,929 个类别（所有类别包含在 Pfam 数据库中）中预测一个标签。

将序列与功能联系起来的模型

虽然目前有许多模型可用于蛋白质结构域分类，但当前最先进方法的一个缺点是它们基于线性序列的比对，不考虑不同部分氨基酸之间的相互作用的蛋白质序列。但是蛋白质不仅仅停留在一行氨基酸中，它们自身折叠起来，这样不相邻的氨基酸就会相互产生强烈的影响。

将新的查询序列与一个或多个具有已知功能的序列进行比对是当前最先进方法的关键步骤。如果新序列与任何具有已知功能的序列高度不同，这种对具有已知功能的序列的依赖使得预测新序列的功能变得具有挑战性。此外，基于比对的方法是计算密集型的，并且将它们应用于大型数据集，例如包含超过 10 亿个蛋白质序列的宏基因组数据库 MGnify，成本可能过高。

为了应对这些挑战，我们建议使用扩张卷积神经网络 (CNN)，它应该非常适合模拟非局部成对氨基酸相互作用，并且可以在 GPU 等现代 ML 硬件上运行。我们训练一维 CNN 来预测蛋白质序列的分类，我们称之为 ProtCNN，以及一组独立训练的 ProtCNN 模型，我们称之为 ProtENN。我们使用这种方法的目标是通过开发一种可靠的机器学习方法来补充科学文献中的知识，以补充传统的基于对齐的方法。为了证明这一点，我们开发了一种方法来准确测量我们方法的准确性。

考虑进化的评估

与其他领域众所周知的分类问题类似，蛋白质功能预测的挑战不在于为任务开发一个全新的模型，而在于创建公平的训练和测试集以确保模型对看不见的数据做出准确的预测 . 由于蛋白质是从共同的祖先进化而来的，因此不同的蛋白质通常共享其氨基酸序列的很大一部分。如果没有适当的注意，测试集可能会被与训练数据高度相似的样本所支配，这可能会导致模型通过简单地“记忆”训练数据而不是学习从中进行更广泛的概括来表现良好。

为了防止这种情况发生，必须使用多个单独的设置来评估模型性能。对于每次评估，我们将模型精度分层为每个保留测试序列与训练集中最近序列之间的相似性函数。

第一个评估包括一个聚类分裂训练和测试集，与先前的文献一致。在这里，蛋白质序列样本按序列相似性进行聚类，并将整个聚类放入训练集或测试集。因此，每个测试示例与每个训练示例至少有 75% 的差异。在此任务上的出色表现表明模型可以泛化以对分布外数据做出准确的预测。

对于第二次评估，我们使用随机拆分的训练和测试集，根据对样本分类难度的估计对样本进行分层。这些难度度量包括：（1）测试示例与最近的训练示例之间的相似性，以及（2）来自真实类的训练示例的数量（仅在少数训练的情况下准确预测函数要困难得多）例子）。

为了将我们的工作置于上下文中，我们评估了最广泛使用的基线模型和评估设置的性能，特别是以下基线模型：(1) BLAST，一种使用序列比对来测量距离和推断函数的最近邻方法 , 和 (2) 轮廓隐藏马尔可夫模型 (TPHMM 和 pmmer)。对于其中的每一个，我们都包括基于上述序列比对相似性的模型性能分层。我们将这些基线与 ProtCNN 和 CNN 集合 ProtENN 进行了比较。

可重现和可解释的结果

我们还与来自欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI) 的国际知名专家 Pfam 团队合作，测试我们的方法论概念证明是否可用于标记真实世界的序列。我们证明了 ProtENN 学习到基于比对的方法的互补信息，并创建了两种方法的集合，以标记比任何一种方法本身都多的序列。我们公开发布了这项工作的结果，Pfam-N，一组 680 万个新的蛋白质序列注释。

在看到这些方法和分类任务的成功之后，我们检查了这些网络以了解嵌入是否普遍有用。我们构建了一个工具，使用户能够探索模型预测、嵌入和输入序列之间的关系，我们通过我们的交互式手稿提供了这些关系，我们发现相似的序列在嵌入空间中聚集在一起。此外，我们选择的网络架构，即扩张的 CNN，允许我们采用先前发现的可解释性方法，如类激活映射 (CAM) 和足够的输入子集 (SIS) 来识别负责神经网络预测的子序列。通过这种方法，我们发现我们的网络通常专注于序列的相关元素来预测其功能。

结论和未来工作

我们对过去几年将 ML 应用于蛋白质结构和功能的理解所取得的进展感到兴奋，这反映在更广泛的研究社区的贡献中，从 AlphaFold 和 CAFA 到众多研讨会和在会议上专门针对该主题的研究报告。当我们希望在这项工作的基础上再接再厉时，我们认为继续与分享了他们的专业知识和数据的整个领域的科学家合作，再加上机器学习的进步，将有助于我们进一步揭示蛋白质世界。

5 1 投票

文章评分

本文转载自Maxwell Bileschi, Staff Software Engineer and Lucy Colwell, Research Scientist, Google Research, Brain Team，原文链接：https://ai.googleblog.com/2022/03/using-deep-learning-to-annotate-protein.html。