150亿参数，谷歌开源了史上超大视觉模型V-MoE的所有代码

发布时间：2022-01-19 04:19:39 所属栏目：云计算来源：互联网

导读：还记得谷歌大脑团队去年 6 月份发布的 43 页论文《Scaling Vision with Sparse Mixture of Experts》吗？他们推出了史上最大规模的视觉模型 V-MoE，实现了接近 SOTA 的 Top-1 准确率。如今，谷歌大脑开源了训练和微调模型的全部代码。在过去几十年里，深度

还记得谷歌大脑团队去年 6 月份发布的 43 页论文《Scaling Vision with Sparse Mixture of Experts》吗？他们推出了史上最大规模的视觉模型 V-MoE，实现了接近 SOTA 的 Top-1 准确率。如今，谷歌大脑开源了训练和微调模型的全部代码。

在过去几十年里，深度学习的进步是由几个关键因素推动的：少量简单而灵活的机制、大型数据集、更专业的硬件配置，这些技术的进步使得神经网络在图像分类、机器翻译、蛋白质预测等任务中取得令人印象深刻的结果。

然而，大模型以及数据集的使用是以大量计算需求为代价的。最近的研究表明，增强模型的泛化能力以及稳健性离不开大模型的支持，因此，在训练大模型的同时协调好与训练资源的限制是非常重要的。一种可行的方法是利用条件计算，该方法不是为单个输入激活整个网络，而是根据不同的输入激活模型的不同部分。这一范式已经在谷歌提出的 pathway（一种全新的 AI 解决思路，它可以克服现有系统的许多缺点，同时又能强化其优势）愿景和最近的大型语言模型研究中得到了重视，但在计算机视觉中还没有得到很好的探索。

稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而，在计算机视觉中，几乎所有的高性能网络都是密集的，也就是说，每个输入都会转化为参数进行处理。

去年 6 月，来自谷歌大脑的研究者提出了 V-MoE（Vision MoE ），这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时，V-MoE 在推理时只需要一半的计算量，就能达到先进网络性能。此外，该研究还提出了对路由算法的扩展，该算法可以在整个 batch 中对每个输入的子集进行优先级排序，从而实现自适应图像计算。这允许 V-MoE 在测试时能够权衡性能和平滑计算。最后，该研究展示了 V-MoE 扩展视觉模型的潜力，并训练了一个在 ImageNet 上达到 90.35% 的 150 亿参数模型。
150亿参数，谷歌开源了史上超大视觉模型V-MoE的所有代码

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

涌向云计算的速度赶超	十分钟完全理解 Redis
百度智能云启动新用户	成功开展云迁移的12个