Meta AI科学家专访 - 我们离世界上每个人都能实时理解每种语言还有多远?

Meta（facebook）采访了菲利普·科恩(Philipp Koehn)，他是一位Meta人工智能研究科学家，现代基于短语的机器翻译方法的发明者之一，著有《Statistical Machine Translation》和《Neural Machine Translation》。他谈到了机器翻译领域的最新进展，该领域面临的最新挑战，以及走向通用翻译道路上有希望的方向。

问题1：您的团队刚刚开创了第一个多语言模型，赢得了著名的WMT竞赛，这个竞赛是您在大约15年前的MT早期帮助创建的。这对自动翻译意味着什么?

Philipp Koehn：如今，在MT（机器翻译，Machine Translation）技术的覆盖范围上存在着严重的不平衡:拥有大量训练数据的语言对，如法语-英语，可以被自动翻译成接近人类质量的语言，但仍然有数百种资源匮乏的语言，根本没有MT系统。译文有能力提供信息，否则是不可能的。重要的是，翻译技术要对世界各地的每个人都具有包容性，而不管数据是否稀缺。

多语言系统在一个模型中翻译多个语言对，这是一个关键的发展，因为它们在许多语言对中泛化知识，这对低资源语言特别有帮助。这与传统的双语模式截然不同，在传统模式中，每种语言对都是单独处理的。到目前为止，多语言模型还不能像处理双语模型那样处理高资源语言。

有了新的进步，比如WMT 2021竞赛模型。在美国，一种多语言模式首次建立了新的最先进的质量，我们现在正见证一种更大的转向多语言模式。单一多语言模式不仅通过新的缩放和数据优化工作更有效地进行开发，而且还在高资源和低资源语言中带来了比双语模型更好的质量翻译。这项工作有望为更多语言带来高质量的翻译，这在以前是不可能的。

提问2：你认为我们能多快将这些翻译改进带给数十亿使用Facebook和Meta其他平台的用户，尤其是那些使用低资源语言的用户?

Philipp Koehn：Meta最新的WMT多语言模型使用一个模型翻译了许多非常不同的语言对，这是一个重要的里程碑。拥有一个单一的模型，而不是针对每个语言方向培训专门的模型，这使得创建和部署新的模型更加可行，特别是在扩展到越来越多的语言时。但在Facebook、Instagram和我们其他平台上，每天翻译200亿句，这本身就是它的研究方向。Meta AI团队有一个独立的研究部门，专注于研究部署这些大型多语言模型，包括知识提取和模型压缩等技术。例如，我们已经开发了一个多语言模型的前一个版本，目前该模型有助于主动检测仇恨言论，即使是那些没有多少培训数据的语言，这对确保世界各地的人们在我们的平台上的安全非常重要。

最近在WMT效率任务中展示的改进表明，在单个CPU上每秒翻译数千个单词是可能的。虽然最新的WMT多语言模型仍然太大，无法部署在实时设置，但从构建这些模型的学习将在不久的将来改进生产MT系统。

提问3：该领域长期致力于建立通用语言翻译人员。为什么以前的系统不能让我们做到这一点，为什么你认为多语言的方法是不同的?

Philipp Koehn：传统的监督模型过于狭窄，且依赖于数百万个示例的数据集，而这对于许多语言对来说是不存在的。构建和维护数千个模型也会产生过度的复杂性，这在实际应用中是不可计算的或可伸缩的。

该领域的最终目标是构建一些所有语言都通用的文本表示，这样就能更容易地将知识从一种语言转移到另一种语言。

在过去几十年里，以语际表征的概念为中心，通过努力扩大语言对的数量，可以找到一条有趣的线索。

使用跨语言表示，无论是符号的还是神经的，覆盖多对多语言对的二次问题被简化为线性：对于每种语言，只需要构建一个分析器（或编码器）和一个生成器（或解码器），因为这些输入和输出独立于语言的中央表示。

这方面的一个例子是 Vauquois 三角形，它的顶峰是跨语言表示，消除了迁移的需要。然而，这个想法忽略了跨语言共享知识的能力——比如，加泰罗尼亚语组件从西班牙语数据中受益的能力。另一方面，多语言模型联合训练多种语言的编码器和解码器，有望有朝一日实现通用翻译。

提问4：如果多语言是通向通用翻译的道路，那么未来还有哪些挑战？我们离我们有多远？

Philipp Koehn：多语言模型由于规模庞大且需要大量训练数据，因此带来了严峻的计算挑战。因此，研究更有效的培训方法至关重要。

但是还有许多额外的挑战。建模挑战包括平衡不同类型的数据（包括通过反向翻译的合成数据）以及围绕神经架构应如何适应特定语言参数的开放性问题。

多语言模型的架构尚未确定。早期的努力引入了特定于语言的编码器和解码器。在频谱的另一端，您可以拥有一个传统模型并将所有平行语料库的串联提供给它，并用语言标记标记以指定输出语言。大多数研究人员认为，某种形式的语言特定参数需要增强通用模型。但目前尚不清楚这些是否应该通过语言进行硬编码，或者是否应该让模型学习如何最好地利用专业参数。

是否越大越好，这个问题一直存在。具有大量数据的语言对可能会从更大的模型中受益，但资源不足的语言对有过度拟合的风险。我们能够在 14 个不同语言对中的 10 个中使用 WMT 模型克服这个问题。但是随着我们添加更多的语言，这两个问题需要同时兼顾。

还有其他几个挑战，比如找出一种方法来训练不同类型的数据，包括风格、主题、噪音——以及每个语料库的语言对，目前还不清楚这些数据应该如何最好地组合、加权或分阶段。相关语言方向为实现零样本翻译提供了多大的影响力？使用所有可用的训练数据来训练这些模型是否可取或实用？

提问5：您认为解决这些挑战的最有希望的方向是什么？

Philipp Koehn：在 Meta，团队齐心协力，在多语言模型中覆盖更多的语言，并将其用于许多应用程序。这涉及问题的所有方面：建模、训练、数据和生产。

在建模和架构挑战方面，我们已经看到基于输入有选择地使用参数子集的模型取得了最大的成功。一个这样的模型使用潜在层选择，其中基于语言使用 Transformer 层的子集。另一种是混合专家模型，它在 Transformer 块中使用多个替代前馈层的集合，并允许模型选择其中的一个子集。鉴于大量的训练数据，更大的模型产生更好的结果并不奇怪，但仔细选择超参数对于影响该结果很重要。

对于许多 NxN 语言方向，唯一可用的并行数据最初是通过枢轴语言翻译的。想想圣经的许多翻译版本，例如，可以从中提取爱沙尼亚语-尼泊尔语平行语料库，但每个圣经版本都是从第三种语言（可能是希腊语、拉丁语或英语）翻译的。由于我们不希望训练被这样的数据所支配，我们将高质量的训练数据（通常与英语配对）与仅针对某些语言对的并行数据相结合：每个语族的代表性语言之间的翻译，按语言分组和数据驱动的分析。

考虑不同程度的训练数据的质量、相关性和来源也很重要。在训练中暂存训练数据（例如，将数据大小减少到最佳子集）通常会产生更好的结果。

这些技术很有前景。但解决公开挑战的进展总是累积的。随着整个行业的研究人员在这项工作以及其他实验室和公司的研究的基础上建立起来，这将通过开放科学随着时间的推移而发生。我们已经发布了 WMT 模型并发布了它的代码，就像我们过去在研究和工具（fairseq）、数据集（CCMatrix、CCAligned、FLORES）、组织共享任务（多语言、低资源新闻、术语、过滤），并资助学术界共同推动研究。

提问6：向更通用模型的转变不仅仅是 MT。这些多语言的进步如何帮助推动人工智能领域整体向前发展？

Philipp Koehn：转向大型多语言模型反映了人工智能的更广泛趋势。许多高级自然语言模型不再构建为专门的系统，而是建立在 GPT-3 或 XLM-R 等海量语言模型之上。

人们可能会将其视为对通用智能的推动：人工智能系统能够解决许多不同的问题并在它们之间交叉应用知识。本着同样的精神，多语言翻译模型解决的是一般翻译问题，而不是特定语言对的具体问题。

多语言是朝这个方向迈出的一步。它导致更灵活的系统可以服务更多的任务。它更高效，因为它释放了容量——这使我们能够立即向世界各地的人们推出新功能。最后，它更接近人类的思维。作为人类，我们没有针对每项任务的专门模型；我们有一个大脑，可以做很多不同的事情。多语言模型，就像预训练模型一样，让我们更接近于这一点。

作为现代 MT 的先驱之一，您认为未来 10 年翻译的未来会是什么样子？

这很难预测。十年前，我不会预测从统计方法到神经方法的艰难转变。不过，可以肯定地说，我们将看到翻译质量和翻译技术涵盖的语言不断提高，从而带来更广泛的应用。 Facebook 平台上的许多人已经期望他们可以通过单击来翻译他们不懂的语言的帖子。有时，他们甚至不必单击，翻译就会自动显示。这种无缝集成是如何使用翻译技术的一个例子，对于只使用自己喜欢的语言的用户来说是不可见的，一切正常。 Meta 有一些令人兴奋的语音翻译研究，有望将这种无缝集成带入口语领域。

从研究的角度来看，目前确实存在一个问题，即训练 MT 等 AI 系统需要大量计算资源，这限制了实验以及谁能从事此类工作。在接下来的 10 年里，也许摩尔定律会解决其中的一些问题。但我希望我们需要更有效的培训方法，以便能够快速推进新的创新。

0 0 投票数

文章评分