摘要
MLP-Mixer:一种全MLP架构的视觉神器,只需五分钟,轻松掌握!作者炼药兄热情欢迎交流,让我们一起奋斗吧!联系电话:cyx645016617。
正文
五分钟就能学好的简易构造 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021
- 文章内容转自:微信公众平台「深度学习炼丹术」
- 创作者:炼药兄(热烈欢迎沟通交流,共同奋斗)
- 联系电话:手机微信cyx645016617
- 毕业论文名字:「MLP-Mixer: An all-MLP Architecture for Vision」
- 毕业论文连接:https://arxiv.org/pdf/2105.01601v1.pdf
「最前沿」:近期忙各式各样的事儿,升级慢了。抽时间写一点。这一篇內容非常简单,只必须5min就可以学好。
文章正文逐渐
大家给予了MLP-Mixer构架,以后通称Mixer。这是一个有竞争能力,可是定义和技术性都非常简单的构造,而且沒有采用卷积和自专注力。
类似transformer,Mixer模型的键入仍然是照片的Patch历经线性映射以后的编码序列,简易的说便是embedding。是一个样子好似“patches x channels” 那样的一个特点。在其中,大家把照片embedding以后的编码序列,称为token。
下面的图是Mixer的宏观经济框架图:
Mixer运用了二种MLP层:
- channel-mixing MLPs:容许不一样channels特点中间的沟通交流;
- token-mixing MLPs:容许不一样室内空间部位中间的沟通交流。
- 这两个MLP层是交叠的。
「图讲解」
- 从图上caption一部分能够见到。“Per-patch Fully-connected”我觉得便是embedding层,比如说把一个32x32x3的彩色patch照片,全连接投射到128层面的编码序列。
- Mixer Layer便是文章内容明确提出的关键自主创新构造。在其中,每一个Mixer Layer包括一个token-mixing MLP 和一个channel-mixing MLP,这两个构造全是由2个池化层和GELU激活函数构成。
- 大家再看来图中的上边一部分,展现了Mixer Layer的关键点:最先,假定一个照片被分为了9个patch,随后每一个patch历经embedding,变成了一个128的空间向量。那麼原照历经embedding,最后获得的是9×128那样的一个引流矩阵。
- 这一引流矩阵先历经LayerNorm,等同于是在128这一层面上开展归一化;
- 随后引流矩阵历经转置,变为128×9的款式;
- 历经第一个全连接层,这一MLP应当便是channel-mixing了,由于是对9这一patch层面开展测算;
- 随后再转置成9×128,再开展layer norm;
- 随后token-mixing channels,在128这一spatial层面上开展测算;
- 正中间加了2个skip connection。
「这儿,我们可以发觉,全部构造的确比较简单,回过头试一下实际效果去。」
关注不迷路
扫码下方二维码,关注宇凡盒子公众号,免费获取最新技术内幕!
温馨提示:如果您访问和下载本站资源,表示您已同意只将下载文件用于研究、学习而非其他用途。
评论0