paperswithcode是一个整理论文、代码、数据集等资源的网站,如其网址所述,papers with code!
该专题通讯跟踪最新机器学习代码、论文、数据集,机器学习方法以及机器学习库,半个月左右更新一期,具有相当高的质量。
本期主题
- 科学机器学习的几项进展,
- 零样本图像分类的最新结果,
- 我们与 ACL 的合作使访问代码和数据集变得更加容易,
- 几个新的研究数据集和工具,
- … 以及更多
科学机器学习
在本期新闻通讯的特别版中,我们重点介绍了几篇提出使用机器学习系统和算法来加速科学发现的论文。
用于蛋白质预测的机器学习
在过去的几年里,我们见证了计算生物学机器学习方法的许多进步。 该领域最重要的突破之一来自 DeepMind,它引入了 AlphaFold,这是一种人工智能系统,可在蛋白质结构预测方面实现高精度。 AlphaFold 是一种基于新型神经网络架构的计算方法,能够将蛋白质结构预测到接近实验精度。
AlphaFold 利用了该领域的几个关键思想,包括:联合嵌入多个序列比对和成对特征的架构、改进端到端结构预测的新输出表示和损失、等变注意架构、迭代改进预测的机制、使用中间损失、掩蔽 MSA 损失与结构联合训练、自蒸馏以从未标记的蛋白质序列中学习,以及自我估计准确性。 总体而言,AlphaFold 结合了有关蛋白质结构的物理和生物学知识,并在 CASP14 评估中取得了有竞争力的结果。 DeepMind 最近发布了 AlphaFold 的代码(见下文)并发表了一篇随附的文章。
代码与论文地址:https://paperswithcode.com/paper/highly-accurate-protein-structure-prediction?from=n20
用于预测患者重新入院的机器学习
预测系统现在正在卫生行业的所有领域中部署。 在眼科和放射科等一些困难的任务中,机器学习系统现在能够做出更好的预测,从而做出更精确的决策。 在临床环境中,NLP 系统现在被应用于电子健康记录,以更有效地处理和理解临床自由文本。 可以训练此类系统以实现对重要任务的准确预测,例如预测患者重新入院的可能性。
在最近的一篇论文中,泰勒等人 (2021) 应用 InfoCal,一种最先进的模型来预测生成提取原理,以支持临床决策。 这适用于使用出院记录预测再入院的实际任务。 与transformer-based的模型相比,该模型能够产生具有竞争力的性能。 此外,这项研究更密切地关注模型的可解释性,结果表明临床语言领域专业知识对性能和可解释性至关重要。
文章地址:https://paperswithcode.com/paper/rationale-production-to-support-clinical?from=n20
用于探测引力波的机器学习
最近,人们对将 ML(例如高级神经网络)应用于物理学产生了巨大的兴趣。 例如,探测引力波是一个重要的问题,因为它为研究基础物理和其他相关问题提供了一种独特的方法。 然而,目前用于估计引力波物理特性的分析方法(例如,马尔可夫链蒙特卡罗)在规模上是低效的。 为了解决其中一些挑战,存在几种基于 ML 的方法(例如 CNN、RNN、生成模型),它们从不同角度来检测引力波。
延迟是有效分析引力波的一大挑战。 因此,有几项工作专注于提高硬件效率和加速推理算法的方法。 为了解决其中一些问题,Que 等人(2021) 最近提出了一种可重构架构,用于减少用于检测引力波的 RNN 的延迟。 所提出的架构加速了用于分析来自 LIGO 检测器的时间序列数据的 RNN 推理。 核心思想是通过识别可以为每一层重用的因素来优化多层 LSTM 中的启动间隔。 不平衡的启动间隔会使系统停顿并导致硬件效率低下。 因此,建议的解决方案是对其进行平衡,以便在引力波实验中进行快速数据分析。 这些想法进一步用于生成具有高效资源利用的低延迟 FPGA 设计。
代码与论文地址:https://paperswithcode.com/paper/accelerating-recurrent-neural-networks-for?from=n20
更多应用于科学方面的机器学习
科学机器学习已经成为一个共同的主题,并且有新的作品正在快速涌现。 以下是一些正在发生的不同类型工作的几个例子:
- 用于分子性质预测的机器学习 – Choukroun and Wolf (2021)
- 学习生物学性质的机器学习 – Rives et al. (2020)
- 带电粒子跟踪的机器学习 – DeZoort et al. (2021)
- 分类看不见的细胞类型的机器学习 – Wang et al. (2021)
- COVID-19应用的机器学习 – Shorten et al. (2021)
- 云和气候的机器学习 – Beucler et al. (2021)
- 用于改进实时流式断层扫描的机器学习 – Liu et al. (2019)
- 应对气候变化的机器学习 – Rolnick et al. (2019)
- 用于生物图像合成的机器学习 – Osokin et al. (2017)
- 宇宙的重建的机器学习 – Gómez-Vargaset al. (2021)
最新带有代码的论文
在这个新闻通讯的新部分,我们将提供一些含有代码的最新先进成果的论文。
Locked-Image Text Tuning (LiT) 本文提出了一种新的对比度调优策略,litt调优,用于最先进的零镜头传输图像分类。它在ImageNet和ReaL等几个基准上优于CLIP和ALIGN等模型。
Are Transformers More Robust than CNNs? 通过关注鲁棒性评估,提出了Transformers和cnn之间的公平比较。结果表明,cnn在抵御对抗性攻击时可以像《变形金刚》一样强大。
CLIP2TV 提出了一种简单的基于剪贴的新方法CLIP2TV,该方法在ms – vtt数据集上实现了最先进的视频文本检索任务。
Novel Open-Domain QA 引入了一个新的四阶段开放领域QA管道,在开放领域QA数据集(如NaturalQuestions、TriviaQA和EfficientQA)上具有竞争性的性能。
热门研究数据集和工具
数据集
Natural Adversarial Objects 一个新的数据集来评估目标检测模型的鲁棒性。NAO包含7,934幅图像和9,943个物体,这些物体未经修改,代表了真实场景,但会导致SoTA检测模型分类错误。
Graph Robustness Benchmark 一个新的基准,提供可扩展的、统一的、模块化的和可重复的评估图机器学习模型的对抗鲁棒性。
DeepNets-1M 神经网络架构的各种计算图的大规模数据集。它被用来训练模型,在CIFAR-10和ImageNet上进行参数预测。
工具
OpenPrompt 一个新的开源统一框架,用于即时学习。
JaMIE 日本医疗信息提取的开放存取NLP工具。
jaxdf 一个新的基于jax的研究框架,用于编写可微的偏微分方程离散化。
本文转载自paperswithcode,原文链接:https://paperswithcode.com/newsletter/20/。