SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Downloaden Sie, um offline zu lesen
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
MetaFormer is Actually What You Need for Vision
Takumi Ohkuma
1
経歴
• 2019年 3月 東京大学 工学部 計数工学科卒業
• 2021年 3月 東京大学 情報理工学系研究科 創造情報学専攻 修士課程 修了
(修了時に研究科長賞受賞)
• 2021年 4月 同 博士課程 進学 (在籍中)
• 2021年 6月 株式会社Bluezone共同創業 CTO就任
専門分野
• 画像認識(Few-shot Learning、Human Pose Estimation)
その他
• 東京大学 工学系研究科 講義「深層学習」講師(2020年度-)
• 松尾研サマースクール講義 監修 (画像認識)・講師 (画像認識/生成モデル)
• 2021年度未踏アドバンスト事業採択
• Twitter: @shien5963(資料に関するご質問等はこちらまで)
2
自己紹介
大熊拓海
株式会社Bluezone CTO
東京大学
情報理工学系研究科
創造情報学専攻
博士課程
書誌情報
• 題名:MetaFormer is Actually What You Need for Vision [1]
• 著者:Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao
Wang, Jiashi Feng, Shuicheng Yan(シンガポールの研究チーム)
• URL:https://arxiv.org/abs/2111.11418
※本資料における出典の記載の無い図表は全て上記論文より引用
3
概要
• Attentionを用いたVision Transformer (ViT) [2] のみならず、MLPのみを用いた
MLP-Mixer (Mixer) [3] も画像認識において高い精度を達成したことを受け、こ
れらを包括する上位概念としてMetaFormerを定義。
• MetaFormerは、Embedding、Tokenの混合、Channel毎のMLP の3つを基本構成
要素として持つ左図のモデル群である。
• ViTはToken MixerにAttentionを用いたMetaFormer
• MixerはToken MixerにMLPを用いたMetaFormer
• ViTやMixerが高い精度を実現できた要因はAttentionやMLPの活用ではなく、
MetaFormerの構造によるものであると主張。
• 上記主張を裏付けるために、より簡単なモデルとしてToken Mixerに単純な
Poolingを用いたPoolFormerを提案、他のモデルに劣らない精度を達成。
4
目次
1. 研究の背景
2. MetaFormer
3. PoolFormerのモデル
4. PoolFormerを用いた実験
5. まとめ
5
目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
4. PoolFormerに関する実験
5. まとめ
6
研究の背景 (Transformer)
• 画像認識において、従来のCNNを全く用いず、代わりに自然言語処理 (NLP) で
使われるAttention機構を用いた Vision Transformer (ViT) [2] が CNNに匹敵す
る精度を達成 (2020年10月)。
• やはり画像でもTransformerなのか? という空気になる。
• TransformerはNLP分野において再帰型NNから主役の座を奪った実績がある。
• 画像 × Transformer (Attention) に関する研究が盛んにおこなわれる
• DeiT [4] : 大規模データが必要というViTの弱点を克服(2021年1月)
• Pyramid Vision Transformer [5] : CNNに用いられる空間方向の階層構造をTransformerに活用
(2021年2月)
7
研究の背景 (Mixer)
• Attentionすら用いず、MLPのみを用いたモデルである MLP-Mixer (Mixer) [3]
がかなり高い精度を達成 (2021年5月)。
• ViTを提案したチームと殆ど同じ研究チームによる提案
• 当然、Mixer以降MLP系の画像認識モデルの研究も盛んになる
• CNNもTransformerも用いずに高い精度が実現できてしまったので、
結局高い精度の為に必要な要素って何なんだろう?となる。
• 本研究は上記の問に対し、MetaFormerという形で一つの答えを与える。
(2021年11月)
8
目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
4. PoolFormerに関する実験
5. まとめ
9
MetaFormer
• 本研究ではMetaFormerという概念を提案する。
• MetaFormerは特定のモデルを指すのではなく、
1. Embedding
2. Tokenの混合
3. Chennel毎のMLP
の3要素をからなる左図のモデルの総称である。
• ViTやMixerはこのMetaFormerに属するモデルであり、
本研究ではViTやMixer等のモデルの成功要因はMetaFormer
であると主張している。
10
MetaFormer系のモデル
11
• 前スライドでViT等のTransformerやMixer等のMLPモ
デルはMetaFormerに属すると説明した。
• これらのモデルは、左図に示す様に「Tokenの混合」
がAttentionであるか、空間方向のMLPであるかの違
いで説明できる。
• 本研究は「Tokenの混合が行われる」事が重要であり、
AttentionかMLPかは本質的な問題ではないと主張。
• CNNにおいて重要なのは畳み込みであり、ResNetか
EfficientNetかは本質ではないのと同じ様な考え。
MetaFormerの定式化
1. MetaFomer系のモデルでは、まず入力画像 𝑰 に対しEmbeddingを行う。
𝑋 = InputEmb 𝐼
この際に入力画像を𝑁個のパッチに分割し、それぞれが一つのTokenとして
Embeddingされ、出力 𝑋 ∊ ℝ𝑁×𝐶
を得る(𝐶はTokenの次元数)。
2. 次に得られた 𝑿(𝑵個のToken)に対し、正則化・Tokenの混合を行う。
𝑌 = TokenMixer Norm 𝑋 + X
TransformerではこのTokenMixerがAttention、MLP系モデルではこのTokenMixer
がSpatialMLP(空間方向のMLP)となる。
3. 最後に、 𝒀 に対して以下で表される正則化・Token毎の変換を行う。
𝑍 = σ Norm 𝑌 𝑊1 𝑊2 + Y
なお、上記変換は𝑊1 ∊ ℝ𝐶×𝑟𝐶
, 𝑊2 ∊ ℝ𝑟𝐶×𝐶
をパラメータ、 σを活性化関数とする
二層MLPである(左図のChannel MLP)。
4. 2, 3を多層に積み上げることで深いネットワークを構成する
• 途中の層で再度Embeddingを行うタイプのモデルも存在する
12
(補足)階層構造
• ViTやMixerではEmbeddingの際に、𝑋 ∊ ℝ𝑁×𝐶と𝑁 個のTokenを一列に並べるが、 Pyramid
Vision Transformer [5] や、後述のPoolFormerでは 𝑋 ∊ ℝ
𝐻
𝑛
×
𝑊
𝑛
×𝐶
の様にToken同士の位置関係
を保持し、局所的な演算を可能としている(計算量の観点で有利)。
• またこのようなモデルでは、大域的な特徴量を獲得する為に、下図の例の様に段階的に空
間方向の解像度を落としていく階層構造が用いられる(これはCNNと同様である)。
• 空間方向の解像度を落とす際に、再度Embeddingが行われる
13
図は[5]より引用
MetaFormerのまとめ
• ViTやMixer等のCNNを用いずとも高い精度を実現できるモデルが登場
• 一方で、高い精度を実現した本質的要因が不明瞭に
• ViTやMixer等の Embedding、Tokenの混合、Chennel毎のMLP の3要素を持つ非CNN
系モデルをMetaFormerとして一般化し、このMetaFormerの構造が高精度達成の本
質的な要因であると主張。
• MetaFormerにおけるTransformerとMLP系モデルの違いは、Tokenの混合方式の違い
として説明でき、AttentionやMLPは高精度達成の本質ではないと主張。
14
目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
4. PoolFormerに関する実験
5. まとめ
15
PoolFormer
• ここまで「高精度の本質はMetaFormerである」と説明してきたが、
あくまで「高精度を達成したモデルがMetaFormerに含まれる」という事しか
示しておらず、MetaFormerの優位性を主張するにはやや弱い。
• 単にTransformerとMLPベースのモデルが優れているだけかもしれない。
• そこでMetaFormerの構造自体の優位性を示す為に、MetaFormerに属するモ
デルで極力余計な要素の少ないシンプルなもので精度検証を行う。
• 上記を受けて、極力シンプルなものとして提案されたモデルこそがTokenの
混合にPoolingを用いたPoolFormerである。
• ノンパラメトリックで学習を必要としないPoolingだが、平均等の代表値の計算を通じて
Tokenの混合の役割を果たすことが出来る。
16
PoolFormerのモデル構造1
• PoolFormerでは、局所的なTokenの代表値を計算するPoolingを行うので、 Token同士の位置
関係を保持する必要があり、以下の様な階層構造を取っている(詳しくはスライド13)。
• 具体的には以下の4階層構造であり、Stage1のEmbeddingでは入力画像の縦と横の解像度を
それぞれ4分の1に、Stage2以降のEmbeddingでは2分の1にする。
• 各Stageは下図のPoolFormerブロックの繰り返しで構成され、全体のブロック数を𝐿とすると、
順番に 𝐿 6 , 𝐿 6, 𝐿 2, 𝐿 6 の繰り返しを持つ。
17
PoolFormerのモデル構造2
• 左の表に具体的なPoolFormerのパラメータを示す。
• Patch Embeddingは畳み込み演算を用いて実装され、
Stage1は7×7のストライド4、それ以外は3×3のスト
ライド2である。
• Poolingの窓サイズは3×3、ストライドは1であり、
平均値Pooling(正確には平均値から、自身の値を
ひいたもの)を用いる。
• 活性化関数は GELU、正則化は Group Normalization
• モデルのサイズはS12からM48まで存在する。
18
PoolFormerのまとめ
• PoolFormerは、Tokenの混合をPoolingによって行うMetaFormerに属するモ
デルである。
• MetaFormerの枠組みの有効性を示す為、極力余計な要素の少ないシンプル
なモデルを用いたい、というモチベーションで設計された。
• 局所的なTokenの代表値の計算であるPooling演算を行う為、PoolFormerは
Token同士の位置関係を保持しており、更に大域的な特徴量を捉えるための
(CNNで見られるような)階層構造を導入している。
19
目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
4. PoolFormerに関する実験
5. まとめ
20
実験(画像分類)
• 画像分類用データセットImageNet-1Kに対する実験を行う
• 大規模データセットを用いだ事前学習等は行わない
• 学習の詳細条件は論文を参照
• 公式のPytorch実装、及び学習済みモデルが公開
https://github.com/sail-sg/poolformer
• 比較対象として以下のモデルも用いる
• CNN系のモデル:RSB-ResNet [6]
• Transformer:ViT [2], DeiT [4], Pyramid Vision Transformer (PVT) [5]
• MLP:MLP-Mixer [3], ResMLP [7], Swin-Mixer [8], g-MLP [9]
21
実験結果(画像分類)
• ImageNet-1Kに対する以下の結果(計算量・モデルサイズと精度の関係性)が得られた。
• 計算量・モデルサイズの両方の観点で、PoolFormerが比較に用いたその他のモデルよりも
優れていることがわかる。
• PoolFormerは非常にシンプルなMetaFormerでありながら高い性能を発揮することが確かめ
られた為、MetaFormerは画像認識精度を高める為の有効な枠組みであると言えそうだ。
22
実験結果(Ablation Study)
• Poolingを除去(恒等変換とする)し
た場合、精度が77.2⇒74.3と低下。
• Tokenの混合が無くなりMetaFormer
の条件を満たしていない。
• 階層構造やEmbeddingに際する畳み
込みは残っているので、ある程度の
精度を保ってはいる。
• Stage3,4のPoolingをAttentionとする
と、多少計算コストは増える一方、
それ以上に精度が向上する。
• MetaFormerの枠組み内でのアーキ
テクチャの改善余地あり。
23
実験(物体検出)
• 物体検出用データセットCOCO2017に対する実験を行う。
• モデルのバックボーンにImageNet PretrainのPoolFormer、比較用にResNet [10]を用い、
DetectorはRetinaNet [11]のアーキテクチャを用いた。
• 結果としてPoolFormerの精度がResNetの精度を上回った。
24
実験(Instance Segmentation)
• COCO2017のInstance Segmentaion用のデータを用いて同じ様に実験を行う。
• モデルアーキテクチャは Mask R-CNN [12]に基づく。
• 結果としてPoolFormerの精度がResNetを上回った。
25
実験(Semantic Segmentation)
• Semantic Segmentation用データ ADE20K を
用いた実験を行う。
• アーキテクチャはSemantic FPN [13]を用いた。
• モデルのバックボーンにはImageNet Pretrain
のPoolFormer、比較用にResNet [10], ResNeXt
[14], Pramid Vision Transformer [5]を用いた。
• 結果として、PoolFormerの精度が最も高い精
度を達成した。
26
実験のまとめ
• 画像分類、物体検出、Instance Segmentation、Semantic Segmentationに対して
Poolformerを用いた実験を行った。
• 全てのタスクにおいて、PoolFormerは比較対象となるモデルよりも優れた計算コス
トと精度のトレードオフを実現した。
• PoolFormerは非常にシンプルなMetaFormerでありながら高い性能を発揮すること
が確かめられた為、MetaFormerは画像認識精度を高める為の有効な枠組みである
と言えそうだ。
27
目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
4. PoolFormerに関する実験
5. まとめ
28
まとめ
• 近年の画像認識において、非CNN系のTransformerやMLP系のモデルが高い精度を達成して
いる要因が、 Embedding、Tokenの混合、Chennel毎のMLP の3要素を持つ MetaFormerに
あると主張。
• TransformerとMLPの違いは、Tokenの混合方式の違いに過ぎない
• Poolingを用いてTokenの混合を行う非常にシンプルなモデルであるPoolFormerを定義、
複数の画像認識タスクにおいて従来のモデルを上回る性能を実現したことで、MetaFormer
の枠組みの優位性を示した。
• 今後の展望として、PoolFormerを自己教師あり学習や自然言語処理タスク等に応用し、
より広い範囲でMetaFormerの強さを示していきたいと考えている。
29
引用
1. Yu, Weihao, et al. "Metaformer is actually what you need for vision." arXiv preprint arXiv:2111.11418 (2021).
2. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint
arXiv:2010.11929 (2020)
3. Tolstikhin, Ilya, et al. "Mlp-mixer: An all-mlp architecture for vision." arXiv preprint arXiv:2105.01601 (2021).
4. Touvron, Hugo, et al. "Training data-efficient image transformers & distillation through attention." International Conference on
Machine Learning. PMLR, 2021.
5. Wang, Wenhai, et al. "Pyramid vision transformer: A versatile backbone for dense prediction without convolutions." arXiv preprint
arXiv:2102.12122 (2021).
6. Wightman, Ross, Hugo Touvron, and Hervé Jégou. "Resnet strikes back: An improved training procedure in timm." arXiv preprint
arXiv:2110.00476 (2021).
7. Touvron, Hugo, et al. "Resmlp: Feedforward networks for image classification with data-efficient training." arXiv preprint
arXiv:2105.03404 (2021).
8. Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv:2103.14030 (2021).
9. Liu, Hanxiao, et al. "Pay Attention to MLPs." arXiv preprint arXiv:2105.08050 (2021).
10. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and
pattern recognition. 2016.
30
引用
11. Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision.
2017.
12. He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.
13. Kirillov, Alexander, et al. "Panoptic feature pyramid networks." Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2019.
14. Xie, Saining, et al. "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on
computer vision and pattern recognition. 2017.
31

Weitere ähnliche Inhalte

Was ist angesagt?

Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由tancoro
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss FunctionDeep Learning JP
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
2 1.予測と確率分布
2 1.予測と確率分布2 1.予測と確率分布
2 1.予測と確率分布logics-of-blue
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Yusuke Uchida
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"Deep Learning JP
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 

Was ist angesagt? (20)

Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
2 1.予測と確率分布
2 1.予測と確率分布2 1.予測と確率分布
2 1.予測と確率分布
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 

Ähnlich wie 「解説資料」MetaFormer is Actually What You Need for Vision

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527ssuser5ec200
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)kunihikokaneko1
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image SegmentationToru Tamaki
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
Copy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpaintingCopy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpainting邦洋 長谷川
 

Ähnlich wie 「解説資料」MetaFormer is Actually What You Need for Vision (20)

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Copy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpaintingCopy and-paste networks for deep video inpainting
Copy and-paste networks for deep video inpainting
 

Mehr von Takumi Ohkuma

(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...Takumi Ohkuma
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video ClassificationTakumi Ohkuma
 
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...Takumi Ohkuma
 
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...Takumi Ohkuma
 
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class HierarchyTakumi Ohkuma
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...Takumi Ohkuma
 

Mehr von Takumi Ohkuma (8)

(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
 
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
 
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
 
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
 

「解説資料」MetaFormer is Actually What You Need for Vision