paperswithcode发布第20期代码和论文时事通讯

paperswithcode是一个整理论文、代码、数据集等资源的网站，如其网址所述，papers with code！

该专题通讯跟踪最新机器学习代码、论文、数据集，机器学习方法以及机器学习库，半个月左右更新一期，具有相当高的质量。

本期主题

科学机器学习的几项进展，
零样本图像分类的最新结果，
我们与 ACL 的合作使访问代码和数据集变得更加容易，
几个新的研究数据集和工具，
… 以及更多

科学机器学习

在本期新闻通讯的特别版中，我们重点介绍了几篇提出使用机器学习系统和算法来加速科学发现的论文。

用于蛋白质预测的机器学习

在过去的几年里，我们见证了计算生物学机器学习方法的许多进步。该领域最重要的突破之一来自 DeepMind，它引入了 AlphaFold，这是一种人工智能系统，可在蛋白质结构预测方面实现高精度。 AlphaFold 是一种基于新型神经网络架构的计算方法，能够将蛋白质结构预测到接近实验精度。

AlphaFold 利用了该领域的几个关键思想，包括：联合嵌入多个序列比对和成对特征的架构、改进端到端结构预测的新输出表示和损失、等变注意架构、迭代改进预测的机制、使用中间损失、掩蔽 MSA 损失与结构联合训练、自蒸馏以从未标记的蛋白质序列中学习，以及自我估计准确性。总体而言，AlphaFold 结合了有关蛋白质结构的物理和生物学知识，并在 CASP14 评估中取得了有竞争力的结果。 DeepMind 最近发布了 AlphaFold 的代码（见下文）并发表了一篇随附的文章。

代码与论文地址：https://paperswithcode.com/paper/highly-accurate-protein-structure-prediction?from=n20

用于预测患者重新入院的机器学习

预测系统现在正在卫生行业的所有领域中部署。在眼科和放射科等一些困难的任务中，机器学习系统现在能够做出更好的预测，从而做出更精确的决策。在临床环境中，NLP 系统现在被应用于电子健康记录，以更有效地处理和理解临床自由文本。可以训练此类系统以实现对重要任务的准确预测，例如预测患者重新入院的可能性。

在最近的一篇论文中，泰勒等人 (2021) 应用 InfoCal，一种最先进的模型来预测生成提取原理，以支持临床决策。这适用于使用出院记录预测再入院的实际任务。与transformer-based的模型相比，该模型能够产生具有竞争力的性能。此外，这项研究更密切地关注模型的可解释性，结果表明临床语言领域专业知识对性能和可解释性至关重要。

文章地址：https://paperswithcode.com/paper/rationale-production-to-support-clinical?from=n20

用于探测引力波的机器学习

最近，人们对将 ML（例如高级神经网络）应用于物理学产生了巨大的兴趣。例如，探测引力波是一个重要的问题，因为它为研究基础物理和其他相关问题提供了一种独特的方法。然而，目前用于估计引力波物理特性的分析方法（例如，马尔可夫链蒙特卡罗）在规模上是低效的。为了解决其中一些挑战，存在几种基于 ML 的方法（例如 CNN、RNN、生成模型），它们从不同角度来检测引力波。

延迟是有效分析引力波的一大挑战。因此，有几项工作专注于提高硬件效率和加速推理算法的方法。为了解决其中一些问题，Que 等人(2021) 最近提出了一种可重构架构，用于减少用于检测引力波的 RNN 的延迟。所提出的架构加速了用于分析来自 LIGO 检测器的时间序列数据的 RNN 推理。核心思想是通过识别可以为每一层重用的因素来优化多层 LSTM 中的启动间隔。不平衡的启动间隔会使系统停顿并导致硬件效率低下。因此，建议的解决方案是对其进行平衡，以便在引力波实验中进行快速数据分析。这些想法进一步用于生成具有高效资源利用的低延迟 FPGA 设计。

代码与论文地址：https://paperswithcode.com/paper/accelerating-recurrent-neural-networks-for?from=n20