谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。谷歌大脑的视觉Transformer团队(ViT),搞了。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

谷歌大脑的视觉Transformer团队(ViT),搞了个复古操作。

他们不用卷积神经网络(CNN)、也不用Transformer,仅凭最早的AI视觉任务采用的多层感知机(MLP)结构,就实现了接近SOTA的性能,更是在ImageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

这个架构名为MLP-Mixer,采用两种不同类型的MLP层,可以看做是一个特殊的CNN,使用 1×1卷积进行通道混合(按位操作),同时全感受野和参数共享的的单通道深度卷积进行字符混合(跨位操作)。

在JFT-300M数据集上预训练、微调到224分辨率的Mixer-H/14版本取得了86.32%的准确率,比SOTA模型ViT-H/14仅低0.3%,但运行速度是其2.2倍。

论文地址: https://arxiv.org/abs/2105.01601

项目地址: https://github.com/google-research/vision_transformer/tree/linen

给TA打赏
共{{data.count}}人
人已打赏
云计算

做出电影级的 CG 渲染!斯坦福大学研究人员提出神经光图渲染

2021-5-6 17:57:31

云计算

因新冠疫情,亚马逊推迟印度和加拿大两国Prime Day促销活动

2021-5-7 9:18:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索