您好,欢迎访问一九零五行业门户网

DeepMind:谁说卷积网络不如ViT?

本文对按比例扩大的 nfnets 进行了评估,并挑战了 convnets 在大规模问题上表现不如 vits 的观点
深度学习的早期成功可归功于卷积神经网络(convnets)的发展。近十年来,convnets 主导了计算机视觉基准测试。然而近年来,它们越来越多地被 vits(vision transformers)所取代。
很多人认为,convnets 在小型或中等规模的数据集上表现良好,但在那种比较大的网络规模的数据集上却无法与 vits 相竞争。
同时,cv 社区已经从评估在特定数据集(如 imagenet)上随机初始化网络的性能,转变为评估从网络收集的大型通用数据集上预训练的网络的性能。这引出了一个重要的问题:在相似的计算预算下,vision transformers 是否优于预先训练的 convnets 架构?
在这篇文章中,来自google deepmind的研究人员对这个问题进行了研究。他们通过在不同尺度的jft-4b数据集上对多种nfnet模型进行预训练,获得了类似于vits在imagenet上的性能
论文链接地址:https://arxiv.org/pdf/2310.16764.pdf
本文的研究讨论了预训练计算预算在0.4k到110k tpu-v4核计算小时之间的情况,并利用增加nfnet模型家族的深度和宽度来进行一系列网络训练。研究发现,存在着 held out 损失与计算预算之间的对数-对数扩展率(scaling law)
例如,本文将以jft-4b为基础,在tpu-v4核小时(核心小时)从0.4k扩展到110k,并对nfnet进行预训练。经过微调,最大的模型在imagenet top-1上达到了90.4%的准确率,在相同的计算预算下与预训练的vit模型竞争
可以说,本文通过评估按比例扩大的 nfnets,挑战了 convnets 在大规模数据集上表现不如 vits 的观点。此外,在足够的数据和计算条件下,convnets 仍然具有竞争力,模型设计和资源比架构更重要。
看到这项研究后,图灵奖得主yann lecun表示:“在给定的计算量下,vit和convnets在计算上是相当的。虽然vits在计算机视觉方面取得了令人印象深刻的成功,但在我看来,没有强有力的证据表明,在公平评估时,预训练的vit优于预训练的convnets。”
然而,有网友对lecun的评论表示,他认为在多模态模型中使用vit可能仍然使其在研究中具有优势
来自 google deepmind 的研究员表示,convnets 永远不会消失
接下来我们看看论文具体内容。
预训练的 nfnets 遵循扩展定律
本文在 jft-4b 上训练了一系列不同深度和宽度的 nfnet 模型。
根据图2所示,验证损失与训练模型的计算预算呈线性关系,与使用transformer进行语言建模时观察到的双对数(log-log)扩展定律相符。随着计算预算的增加,最佳模型大小和最佳epoch预算(实现最低验证损失)也会增加
在下面的图表中,我们可以看到三个模型在一系列的 epoch 预算中观察到的最佳学习率(即最大程度地减少验证损失)。研究人员发现,对于较低的 epoch 预算,nfnet 系列模型都显示出类似的最佳学习率,约为1.6。然而,随着 epoch 预算的增加,最优学习率会下降,并且对于更大的模型,最优学习率下降得更快。研究人员表示,可以假设最优学习率会随着模型大小和 epoch 预算的增加而缓慢且单调地下降,因此在两次试验中可以有效地调整学习率
需要重新写的内容是:需要注意的是,图表2中一些预训练模型的表现不如预期。研究团队认为,出现这种情况的原因是如果训练运行被抢占/重新启动,数据加载流程无法保证每个训练样本在每个周期都能被采样一次。如果训练运行多次重新启动,则可能导致某些训练样本的采样次数不足
nfnet vs vit
在imagenet上进行的实验显示,经过微调的nfnet和vision transformer的性能相当
具体来说,该研究在 imagenet 上微调了预训练 nfnet,并绘制了预训练计算与 top-1 error 关系图,如上述图 1 所示。
随着预算的增加,imagenet top-1准确性持续提高。其中最昂贵的预训练模型是预训练8个epoch的nfnet-f7+,在imagenet top-1准确率达到了90.3%。预训练和微调需要大约110k tpu-v4核小时和1.6k tpu-v4核小时。此外,如果在微调期间引入额外的重复增强技术,可以实现90.4%的top-1准确率。nfnet在大规模预训练中获得了很大的好处
尽管nfnet和vit两种模型架构之间有明显的差异,但预训练的nfnet和预训练的vit在性能上是相当的。例如,在对jft-3b进行210k tpu-v3核小时的预训练后,vit-g/14在imagenet上实现了90.2%的top-1准确率;而在对jft-3b进行超过500k tpu-v3核小时的预训练后,vit-g/14实现了90.45%的top-1准确率
本文评估了这些模型在 tpu-v4 上的预训练速度,并估计 vit-g/14 需要 120k tpu-v4 核小时来预训练,而 vitg/14 则需要 280k tpu-v4 核小时数,sovit-400m/14 将需要 130k tpu-v4 核小时数。本文使用这些估计来比较图 1 中 vit 和 nfnet 的预训练效率。研究注意到,nfnet 针对 tpu-v4 进行了优化,在其他设备上评估时表现较差。
最终,本文注意到,在jft-4b上,预训练的检查点实现了最低的验证损失,但在微调后,并不总能在imagenet上实现最高的top-1准确率。特别是,本文发现,在固定的预训练计算预算下,微调机制倾向于选择稍大的模型和稍小的epoch预算。直观上来说,更大的模型具有更大的容量,因此能够更好地适应新的任务。在某些情况下,稍大的学习率(在预训练期间)在微调后也能获得更好的性能
以上就是deepmind:谁说卷积网络不如vit?的详细内容。
其它类似信息

推荐信息