Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Abstract

컴퓨터 비전의 범용 백본 역할을 할 수 있는 새로운 비전 트랜스포머(Swin Transformer)를 소개.
- NLP에서 vision으로 트랜스포머를 적응(adapting)시키는 문제는 두 domains 간의 차이에서 발생.
  - 예) visual entities의 scale의 visual entities와 텍스트의 단어와 비교하여 이미지의 픽셀 해상도가 높음.
- 이러한 차이를 해결하기 위해 논문은 representation이 shifted windows으로 계산되는 계층적 트랜스포머를 제안.
- shifted windowing scheme는 cross-window connection을 허용하는 동시에 self-attention 계산을 non-overlapping local windows으로 제한함으로써 효율성 향상.
- 이 계층 구조 아키텍처는 다양한 scales로 모델링할 수 있는 flexibility과 image size에 대한 linear computational complexity을 가짐.
- Swin Transformer의 성능은 이미지 분류(ImageNet-1K에서 86.4 top-1 정확도)와 object detection(58.7 box AP 및 51.1 mask AP on COCO test-dev) 및 semantic segmentation(53.5 mioU on ADEK on ADME 20)과 같은 dense prediction task을 포함한 광범위한 비전 과제와 호환가능
- 성능은 COCO에서는 +2.7 박스 AP 및 +2.6 마스크 AP, ADE20K에서는 +3.2 mIoU의 큰 차이로 이전 SOTA 모델을 능가하며 vision 백본으로서의 트랜스포머 기반 모델의 잠재력을 보여줌.
- 코드와 모델은 https://github.com/microsoft/Swin-Transformer에서 공개.

Introduction

computer vision에서의 모델링은 오랫동안 CNN에 의해 지배되어옴.

ImageNet 이미지 분류 문제에 대한 AlexNet [38]과 혁신적인 성능을 시작으로, CNN 아키텍처는 greater scale[29, 73], more extensive connections[33], more extensive connections[67, 17, 81]을 통해 점점 더 강력해짐.

CNN이 다양한 vision tasks를 위한 백본 네트워크 역할을 하는 가운데, 이러한 아키텍처의 발전은 전체 분야를 광범위하게 끌어올린 성능 향상으로 이어짐.

반면에, 자연 언어 처리(NLP)에서의 네트워크 아키텍처의 진화는 다른 경로를 따름.
- 보편적인 아키텍처 : Transformer[61].
- 시퀀스 모델링 및 변환 작업을 위해 설계된 Transformer는 장거리 의존성 모델링에 attention 사용.
- 최근 image classification[19]와 joint vision-language modeling[46]과 같은 유망한 결과를 보여줌.

본 논문은 Transformer 가 NLP와 vision에서 범용 백본 역할을 할 수 있도록 함.

언어 영역의 고성능을 시각적 영역으로 전달하는 데 있어 중요한 문제는 두 modalities (image ↔ text) 간의 차이로 볼 수 있음.

차이점
- 1) scale
  - language Transformer 처리의 기본 요소 역할을 하는 단어 토큰과는 달리, object detection[41, 52, 53]의 시각적 요소는 scale에서 달라질 수 있음.
  - 기존의 Transformer 기반 모델[61, 19]에서 토큰은 모두 고정된 scale이므로 vision applications에 적합하지 않음.
- 2) 해상도
  - passages of text의 words에 비해 이미지의 픽셀 해상도가 훨씬 높음.
  - semantic segmentation : 픽셀 수준에서 dense prediction 이 필요 > self-attention의 계산 복잡성이 이미지 크기에 quadratic계산 복잡도를 갖기 때문에 고해상도 이미지에서는 Transformer가 다루기 어려움.

이러한 문제를 해결하기 위해 논문은 hierarchical feature maps을 구성하고 이미지 크기에 Linear 계산 복잡도를 갖는 범용 Transformer backbone인 Swin Transformer를 제안.

그림 1. (a) 제안된 Swin Transformer는 이미지 패치(회색)를 더 깊은 계층으로 병합하여 계층적 피 맵을 구축하며, 각 local window(빨간색) 내에서만 self-attention의 계산으로 인해 이미지 크기를 입력하기 위한 linear computation complexity을 가짐. 따라서 이미지 분류와 dense recognition tasks 모두에 범용 백본 역할을 할 수 있음. (b) 반대로, 이전 비전 Transformers[19]는 feature maps of a single low resolution을 생성하며, 전체적으로 self-attention 의 계산으로 인해 영상 크기를 입력하기 위한 quadratic computation complexity을 가짐.
- + Vit 사진을 동일한 걸 쓴 이유?

그림 1(a)에서 볼 수 있듯이, Swin Transformer는 작은 크기의 patch(회색)에서 시작하여 점차적으로 더 상위(deeper) 트랜스포머 계층에서 인접 patch를 병합하여 계층적 feature를 구성.

이러한 계층적 feature map을 통해, Swin Transformer 모델은 feature pyramid networks (FPN) [41] 또는 U-Net [50]과 같은 dense prediction을 위한 고급 기술을 편리하게 활용할 수 있음.

linear computational complexity은 이미지를 분할하는 non-overlapping windows(빨간색) 내에서 locally 하게 self-attention를 계산함으로써 달성.

각 windows의 패치 수가 고정되므로 complexity가 이미지 크기에 비례.

이러한 장점 때문에 Swin Transformer는 single resolution의 feature map을 생성하며 quadratic complexity를 갖는 이전의 Transformer 기반 아키텍처[19]와는 달리 다양한 비전 작업에 대한 범용 백본으로서 적합.

Swin Transformer의 핵심 설계 요소는 그림 2에서와 같이 연속적인 self-attention 계층 간 window partition의 이동.

shifted window 은 이전 레이어의 windows를 브리지하여 모델링 power를 크게 향상시키는 연결을 제공(Table 4 참조).

이 전략은 실제 대기 시간과 관련해서도 효율적.
- 즉, window 내의 모든 query patch는 동일한 key sets (The query and key are projection vectors in a self-attention layer)를 공유하므로 하드웨어의 메모리 액세스가 용이해짐.

반면, 이전의 sliding window 기반 self-attention approaches[32, 49]은 서로 다른 query pixel에 대해 서로 다른 key sets로 인해 일반 하드웨어에서 짧은 지연 시간이 발생함.
- 논문의 실험을 통해 제안된 shifted window 접근 방식은 sliding window 방식보다 지연 시간이 훨씬 짧지만 모델링 power은 비슷하다는 것을 알 수 있음(표 5와 6 참조).

- ADE20K semantic segmentation의 경우, val set에서 53.5mIoU를 얻는데, 이는 이전 state-of-the-art(SETR [78])에 비해 +3.2mIoU가 개선됨.제안된 Swin Transformer는 이미지 분류, 객체 감지 및 의미 분할의 인식 작업에서 강력한 성능을 달성.
  - ViT/DeT[19, 60] 및 ResNe(X)t 모델[29, 67]보다 성능이 뛰어나며 세 가지 작업에서 유사한 지연 시간이 발생.
  - COCO test-dev set의 58.7 box AP 및 51.1 mask AP는 +2.7 box AP(외부 데이터가 없는 Copy-paste [25]) 및 +2.6 mask AP(DetectorRS [45])로 이전 SOTA 결과를 능가.
- ImageNet-1K 이미지 분류에서 86.4%의 정확도를 달성.

컴퓨터 비전과 자연 언어 처리에 걸친 통합 아키텍처는 시각 신호와 텍스트 신호의 공동 모델링을 촉진하고 두 도메인의 모델링 지식을 더 깊이 공유할 수 있기 때문에 양쪽 모두에 도움이 될 수 있다고 생각함.
- 논문은 다양한 비전 문제에 대한 Swin Transformer의 강력한 성능이 커뮤니티에 이러한 믿음을 더 깊이 심어주고 비전 및 언어 신호의 통합 모델링을 장려할 수 있기를 바람.

Related Work

CNN and variants
- CNN은 컴퓨터 비전 전반에 걸쳐 표준 네트워크 모델 역할. CNN이 수십 년 동안 존재했지만 [39] AlexNet을 도입하고 나서야 CNN이 주류가 됨. 그 이후, 컴퓨터 비전의 딥러닝 파동을 더욱 촉진하기 위해 deeper and more effective convolutional neural architectures가 제안됨. VGG [51], GoogleNet [56], ResNet [29], DenseNet [33],HRNet [62] 및 EfficientNet [57].
- 이러한 아키텍처의 진보 외에도, depthwise convolution [67] 및 deformable convolution [17, 81]과 같은 개별 컨볼루션 레이어의 개선에 대한 많은 연구가 있었음.
- CNN과 그 variants는 여전히 컴퓨터 비전 애플리케이션의 주요 백본 아키텍처이지만, 우리는 시각과 언어 사이의 통합 모델링을 위한 트랜스포머와 같은 아키텍처의 강력한 잠재력을 강조. 저자는 이 작업이 몇 가지 기본적인 시각적 인식 작업에서 강력한 성과를 달성하며 모델링 전환에 기여하기를 바람.

Self-attention based backbone architectures
- 또한 NLP 분야에서 Self-attention layers 과 Transformer architectures의 성공에 영감을 받아, 일부 작업은 인기 있는 ResNet에서 공간적 변환 계층의 일부 또는 전부를 대체하기 위해 Self-attention layers을 사용[32, 49, 77].
- 이 작업에서는 각 픽셀의 local windows 내에서 Self-attention 를 계산하여 최적화[32]를 촉진하고, counterpart ResNet 아키텍처보다 약간 더 나은 accuracy/FLOPs trade-offs를 달성. 그러나, costly memory access는 실제 대기 시간이 convolutional networks의 대기 시간보다 훨씬 더 커지게 함[32].
- sliding windows를 사용하는 대신 consecutive layers 간에 shift windows를 사용하여 일반 하드웨어에서 보다 효율적으로 구현할 수 있도록 제안.

Self-attention/Transformers to complement CNNs
- 표준 CNN 아키텍처를 self-attention layers 또는 Transformers로 강화하는 것. self-attention layers은 distant dependencies 또는 heterogeneous interactions을 인코딩하는 기능을 제공하여 complement backbones[64, 6, 68, 22, 71, 54] 또는 head networks[31, 26]를 보완할 수 있음. 보다 최근에는 트랜스포머의 encoder-decoder 설계가 object detection and instance segmentation tasks에 적용[7, 12, 82, 55]. 본 연구에서는 기본적인 visual feature extraction을 위한 트랜스포머의 adaptation을 살펴보고 이러한 작업을 보완함.

Transformer based vision backbones
- ViT(Vision Transformer)[19]와 그 후속연구[60, 69, 14, 27, 63]와 관련.
- ViT의 pioneering work는 이미지 분류를 위해 겹치지 않는 중간 크기의 이미지 패치에 Transformer 아키텍처를 직접 적용. Convolutional 네트워크와 비교하여 이미지 분류에서 놀라운 speed-accuracy trade-off를 이룸. ViT는 우수한 성능을 발휘하려면 대규모 training datasets(즉, JFT-300M)이 필요하지만 DeiT[60]는 더 작은 ImageNet-1K 데이터셋을 사용하여 ViT를 효과적으로 운영할 수 있는 여러 training strategies을 도입.
- ViT image classification 결과는 encouraging하지만, 이 아키텍처는 low-resolution feature maps과 이미지 크기에 따라 quadratic increase in complexity 때문에 dense vision tasks이나 입력 이미지 해상도의 범용 백본 네트워크로 사용하기에 적합하지 않음.
- 직접적인 upsampling 또는 deconvolution을 통한 object detection 과 semantic segmentation 의 dense vision tasks에 VIT 모델을 적용하는 몇 가지 연구가 있음[2, 78].
- 더 나은 이미지 분류를 위해 ViT 아키텍처[69, 14, 27]를 수정하는 작업도 있음. Empirically, 이미지 분류에 관한 이러한 방법들 중에서 speed-accuracy trade-off을 달성하기 위해 Swin Transformer 아키텍처를 개발.
- 비록 논문의 연구가 특별히 분류보다는 범용 성능에 초점을 맞추고 있음에도 불구하고, 또 다른 concurrent work[63]에서는 Transformers에서 multi-resolution feature maps을 구축하기 위한 유사한 사고 방식을 살펴봄. complexity는 여전히 이미지 크기에 quadratic 한 반면, 논문의 complexity는 linear이며 또한 locally 하게 작동하여 시각적 신호의 높은 상관 관계를 모델링하는 데 도움이 됨 [35, 24, 40].
- 논문의 접근방식은 효율적이면서도 효과적이어서 COCO object detection와 ADE20K semantic segmentation 모두에서 state-of-the-art accuracy를 달성.

Method

Overall Architecture

그림 3에는 작은 버전(Swin-T)을 보여주는 Swin Transformer 아키텍처의 개요 소개.1) ViT와 같은 패치 분할 모듈에 의해 입력 RGB 이미지를 겹치지 않는 패치로 분할.
- 각 패치는 "token"으로 처리되고 해당 feature는 raw pixel RGB 값의 연결로 설정됨. 구현 시, 4 × 4의 패치 크기를 사용하므로 각 패치의 feature dimension는 4 × 4 × 3 = 48.
- 이 raw-valued feature에 linear embedding layer가 적용되어 arbitrary dimension(C로 표시됨)로 투영됨.

Stage 1 : modified self-attention computation(Swin Transformer 블록)이 수정된 여러 트랜스포머 블록이 패치 토큰에 적용됨. Transformer 블록은 $ $(H4×W4)(\frac{H}{4} \times \frac{W}{4})$ 의 토큰을 유지하며 linear embedding과 함께 사용

계층적 표현을 생성하기 위해 네트워크의 깊이가 깊어질수록 patch merging layers에 의해 토큰 수가 감소.
- 첫 번째 patch merging layer는 2 × 2 인접한 patch 의 각 그룹의 특징을 연결하고 4C차원 concatenated features에 linear layer를 적용.
- 이렇게 하면 토큰 수가 2 × 2 = 4의 배수(resolution 의 2× 다운샘플링)로 감소하고 출력 dimension이 2C로 설정됨.
- 이후 $ $H8×W8\frac{H}{8} \times \frac{W}{8}$ resolution을 유지하면서 feature transformation을 하기 위해 Swin Transformer 블록을 적용.
  - 이 patch merging 및 feature transformation의 첫 번째 블록을 "Stage 2"로 표시.
  - $$$H16×W16\frac{H}{16} \times \frac{W}{16}$ 과$ $H32×W32\frac{H}{32} \times \frac{W}{32}$ 의 output resolutions 은 각각 'Stage 3'와 'Stage 4'로 두 차례 반복.
  - 이러한 단계는 VGG [51] 및 ResNet [29]와 같은 일반적인 컨볼루션 네트워크의 것과 동일한 feature map resolutions으로 hierarchical representation을 공동으로 생성.
  - 그 결과, 제안된 아키텍처는 다양한 비전 작업을 위해 기존 방식에서 백본 네트워크를 편리하게 대체할 수 있어짐.
- MLP layer
  
  Fully connected - GELU - Fully connected
  
  reference : MLP Mixer

Swin Transformer block의 Swin Transformer는 Transformer block의 표준 multi-head self attention(MSA) 모듈을 Shift window를 기반으로 하는 모듈로 교체하고(섹션 3.2 참조) 다른 레이어를 동일하게 유지.

그림 3(b)에서 볼 수 있듯이, Swin Transformer 블록은 shifted window 기반 MSA 모듈로 구성되고 그 다음에 GELU 비선형성(수렴 속도 빠름) 을 사이에 둔 이단 MLP로 구성됨.
- 각 MSA 모듈 및 각 MLP 앞에 LN(Layer Norm) 레이어가 적용되고 각 모듈 뒤에 residual connection이 적용됨.

Shifted Window based Self-Attention

표준 Transformer 아키텍처[61]와 이미지 분류에 대한 adaptation[19]은 토큰과 다른 모든 토큰 간의 관계가 계산되는 global self-attention를 수행함.
- global computation은 토큰 수와 관련하여 quadratic complexity으로 이어지며, dense prediction 또는 high-resolution 이미지를 나타내기 위해 엄청난 토큰 집합이 필요한 많은 비전 문제에 적합하지 않음.

Self-attention in non-overlapped windows
- 효율적인 모델링을 위해 local windows의 self-attention를 계산할 것을 제안함.
  - windows는 겹치지 않는 방식으로 이미지를 고르게 분할하도록 배열됨. 각 window에 M × M 패치가 포함되어 있다고 가정할 때, global MSA 모듈의 계산 복잡도와 h × w 패치의 이미지를 기반으로 하는 windows는
    - $$Ω(MSA)=4hwC2+2(hw)2C\Omega(MSA) = 4hwC^2 + 2(hw)^2 C$
      - (1) global MSA
    - $$Ω(WMSA)=4hwC2+2M2hwC\Omega(WMSA) = 4hwC^2 + 2M^2hwC$
      - (2) Shifted Window MSA
        
        여기서 (1)은 패치 번호 $h w$ 에 quadratic이고 (2)는 $M$ 이 고정되면 후자는 linear(기본적으로 7로 설정됨).
      - global self-attention computation은 일반적으로 large $h w$ 에 비해 unaffordable한 반면 window based self-attention은 확장 가능.

Shifted window partitioning in successive blocks
- window-based self-attention module에는 window 간 연결이 부족하여 모델링 성능이 제한됨.
- non-overlapping windows의 효율적인 계산을 유지하면서 cross-window connections을 도입하기 위해 연속적인 SwinTransformer 블록의 두 분할 구성을 번갈아 사용하는 shifted window partitioning 방식 제안.
  - 그림 2에서 볼 수 있듯이, 첫 번째 모듈은 왼쪽 상단 픽셀에서 시작되는 regular window partitioning strategy을 사용하며, 8 × 8 feature map은 크기가 4 × 4 (M = 4)인 2 × 2 windows로 균등하게 분할됨.
  - 다음 모듈은 정기적으로 분할된 windows에서 $([M2],[M2])([\frac{M}{2}], [\frac{M}{2}])$ 픽셀로 windows를 대체하여 이전 계층에서 shifted window 구성을 채택.
  - shifted window partitioning approach를 사용하면 연속적인 Swin Transformer 블록이 다음과 같이 계산됨.
    - $$z^=W−MSA(LN(zl−1))+zl−1\hat{z} = W-MSA(LN(z^{l-1}))+z^{l-1}$
    - $$zl=MLP(LN(z^l))+z^lz^l = MLP(LN(\hat{z}^l)) + \hat{z}^l$ ,
    - $$z^l+1=SW−MSA(LN(zl))+zl\hat{z}^{l+1} = SW-MSA(LN(z^l))+z^l$ ,
    - $$zl+1=MLP(LN(z^l+1))+z^l+1z^{l+1} = MLP(LN(\hat{z}^{l+1})) + \hat{z}^{l+1}$ (3)
      - 여기서 $ $z^\hat{z}$ 과 $z^l$ 은 각각 블록 $l$ 에 대한 (S)W-MSA 모듈과 MLP 모듈의 출력 기능을 나타냅니다. W-MSA 및 SW-MSA는 각각 일반 및 shifted window partitioning 구성을 사용한 window based multi-head self-attention를 나타냄.
- shifted window partitioning 접근방식은 이전 계층에서 인접한 non-overlapping windows 사이의 connections을 도입하며, 표 4와 같이 image classification, object detection, and semantic segmentation,에 효과적인 것으로 확인됨.

Efficient batch computation for shifted configuration
- shifted window partitioning의 문제는 이동 구성의 $ $([hM]+1)×([wM]+1)[\frac{h}{M}] \times [\frac{w}{M}] ~~{\rm to}~ ([\frac{h}{M}] + 1) \times ([\frac{w}{M}]+1)$ 에서 더 많은 window 가 발생하며 일부 window는 $보다 작음.
- naive solution은 size of $ 보다 작은windows는 pad 하고 a attention을 계산할 때 padded values을 mask out. regular partitioning의 the number of windows가 작을 때,
  - 예) 2 × 2일 때, 이 naive solution을 사용한 증가된 계산은 상당함. (2 × 2 → 3 × 3 , 이는 9/4 = 2.25 배 더 큼.)
- 여기서, 논문은 그림 4와 같이 top-left direction으로 cyclic-shifting함으로써 보다 more efficient batch computation approach를 제안.
- 이동 후에는 batched window가 feature map에 인접하지 않은 여러 sub-window(A : 색 4개 조합)로 구성될 수 있으므로 masking mechanism을 사용하여 각 하위 window 내에서 self-attention computation을 제한.
- cyclic-shift을 사용하면 batched windows의 수가 regular window partitioning의 window 수와 동일하게 유지되므로 효율적이기도 함. 이 접근법의 low latency는 표 5에 나와 있음.
그림 4. shifted window partitioning에서 self-attention를 기울일 수 있는 효율적인 batch computation approach을 보여줍니다.

Relative position bias
- self-attention computation에서는 computing similarity 에 relative position bias $ $\in \mathbb{R}^{M^2 × M^2}$ 를 포함시켜 [48, 1, 31, 32]$ $SoftMax(QK^T / \sqrt{d} + B) V$ 를 따름.
  - 여기서 $ $\in \mathbb{R}^{M^2×d}$ 는 쿼리, 키 및 값 매트릭스,는 query/key dimension, $ $M^2$$ 는 창에 있는 패치 수. 각 축을 따라 상대적인 위치가 $ $[- M + 1, M - 1]$$ 범위에 있으므로 작은 크기의 바이어스 행렬$ $B^∈R(2M−1)×(2M−1)\hat{B} \in \mathbb{R}^{(2M - 1)×(2M - 1)}$ 의 값을에서 취한다.
- 표 4에서와 같이 이러한 bias 항이 없거나 absolute position embedding을 사용하는 논문에 비해 현저한 개선을 관찰.
  - [19]에서와 같이 absolute position embedding을 입력에 추가하면 성능이 약간 저하되므로 구현에서 채택되지 않음.
- pre-training에서 학습된 relative position bias을 사용하여 bi-cubic interpolation을 통해 다른 window size로 fine-tuning을 위한 모델을 초기화할 수도 있음[19, 60].

Architecture Variants

ViT-B/DeiT-B와 유사한 모델 크기와 계산 복잡성을 갖도록 Swin-B라는 기본 모델을 구축.

또한 모델 크기 약 0.25배, 0.5배, 2배인 Swin-T, Swin-S, Swin-L을 소개.
- Swin-T와 Swin-S의 복잡도는 각각 ResNet-50(DeiT-S)과 ResNet-101과 유사.
- window size는 기본적으로 M = 7로 설정.
- 모든 실험에서 각 head의 query dimension은 d = 32이고, 각 MLP의 확장 레이어는 α = 4.
- 이러한 모델 모델의 아키텍처 하이퍼 파라미터는 다음과 같습니다.
  - Swin-T: C = 96, layer numbers = {2, 2, 6, 2}
  - Swin-S: C = 96, layer numbers ={2, 2, 18, 2}
  - Swin-B: C = 128, layer numbers ={2, 2, 18, 2}
  - Swin-L: C = 192, layer numbers ={2, 2, 18, 2}

여기서 C는 첫 번째 단계에서 숨겨진 레이어의 채널 number.

ImageNet 이미지 분류에 대한 모델 크기, 이론적 계산 복잡성(FLOP) 및 모델 변형 처리량은 표 1.

Experiments

ImageNet-1K image classification[18], COCO object detection[42] 및 ADE20K semantic segmentation[80]에 대한 실험을 수행.

다음에서는 먼저 제안된 Swin Transformer 아키텍처를 세 가지 작업에 대한 이전의 SOTA와 비교. 그런 다음 Swin Transformer의 중요한 디자인 요소를 완화.

Image Classiﬁcation on ImageNet-1K

Settings
- 이미지 분류를 위해 1,000개의 클래스에서 128M개의 training 이미지와 50K valid 이미지가 포함된 ImageNet-1K[18]에서 제안된 Swin Transformer를 벤치마크함.
- single crop에서 top-1 accuracy가 보고.
- 다음 두 가지 교육 설정을 고려합니다.
  - Regular ImageNet-1K training.
    - 이 설정은 대부분 [60]을 따릅니다. cosine decay learning ratescheduler와 20epoch의 linear warm-up을 사용하여 300epoch에 대해 AdamW[36] optimizer를 사용.
    - 배치 크기 1024, 초기 학습 속도 0.001 및 weight decay 0.05가 사용됨.
    - [30] 및 [44]의 성능을 향상시키지 않는 반복적인 augmentation을 제외하고 [60]의 대부분의 augmentation and regularization 전략을 training에 포함시킴. 이는 ViT의 training을 안정화하는 데 있어 반복적인 augmentation이 중요한 [60]과 반대되는 점에 유의.
  - ImageNet-22K에 대한 Pre-training 및 ImageNet-1K에 대한 fine-tuning 또한 14.2 million 개의 이미지와 22K 클래스를 포함하는 대규모 ImageNet-22K 데이터셋에 대한 pre-train도 실시.
  - 5-epoch linear warm-up0과 함께 linear decay learning rate scheduler를 사용하여 60 epochs에 AdamW optimizer를 사용.
  - 배치 크기 4096, 초기 학습률 0.001 및 weight decay 0.01이 사용. ImageNet-1K fine-tuning에서는 배치 크기 1024, 일정한 학습 속도 10^-5, weight decay 10^-8로 30 epochs 모델을 training.

Results with regular ImageNet-1K training
- 표 1(a)은 regular ImageNet-1K training을 사용하여 Transformer-based 와 ConvNet-based 모두를 포함한 다른 백본과 비교state-of-the-art Transformerbased.
table1. Comparison of different backbones on ImageNet-1K classification. Throughput is measured using the GitHub repository of [65] and a V100 GPU, following [60].
- 이전의 state-of-the-art Transformerbased architecture(예: DeiT[60])와 비교했을 때, Swin Transformers는$ $224^2$$ 를 사용한 Dei-S(79.8%)에 비해 복잡성이 비슷한 DeiT 아키텍처를 눈에 띄게 능가.
- 최신 ConvNet, 즉 Reg-Net[47] 및 EfficientNet[57]과 비교했을 때, Swin Transformer는 speed-accuracy trade-off를 약간 더 잘 달성.
  - RegNet [47]과 EfficientNet [57]은 철저한 아키텍처 search를 통해 확보되지만 제안된 Swin Transformer는 표준 트랜스포머에서 채택되어 추가 개선 가능성이 크다는 점에 주목.

Results with ImageNet-22K pre-training
- ImageNet-22K에서 대용량 Swin-B 및 Swin-L도 pretrain.
  - ImageNet-1K 영상 분류에서 fine-tuned 결과는 표 1(b).
  - Swin-B의 경우 ImageNet-22K pretrain은 처음부터 ImageNet-1K에 대한 train에 비해 1.8%~1.9% 향상.
  - ImageNet-22K pre-training에 대한 이전의 최상 결과와 비교했을 때, 논문의 모델은speed-accuracy trade-offs 측면에서 훨씬 더 나음.
  - Swin-B는 86.0%의 top-1 accuracy를 얻어 inference throughput(84.7 vs. 85.9 영상/초)이 비슷한 ViT보다 2.0% 높고 FLOP(47.0G vs. 55.4G)가 약간 낮다.
  - 대형 Swin-L 모델은 86.4%의 Top-1 정확도를 달성하여 Swin-B 모델보다 약간 우수합니다.

Object Detection on COCO

Settings
- Object detection and instance segmentation은 118K training, 5K validation 및 20K test-dev images가 포함된 COCO 2017에서 수행.
- validation 세트를 사용하여 ablation study가 수행되며, test-dev 시 system-level comparison가 보고.
- ablation study를 위해, 우리는 네 가지 일반적인 object detection frameworks: Cascade Mask R-CNN [28, 5], ATSS [76], RepPoints v2 [11], and Sparse RCNN [55] in mmdetection[9].를 고려.
  - 이 네 가지 프레임워크에 대해, 우리는 same settings: multi-scale training[7, 55](짧은 쪽이 480에서 800 사이인 반면 긴 쪽이 최대 1333 사이인 입력의 크기 조정), Adam W[43] optimizer(초기 학습 속도 0.0001, weight decay 0.05, 배치 크기 16), 3x 스케줄(36 epoches)을 활용.
  - system-level comparison를 위해, 우리는 improved HTC[8] (HTC++로 표시됨), instaboost[21], 보다 강력한 multi-scale training [6], 6x schedule(72 epoch), soft-NMS[4] 및 ImageNet-22K pre-trained model을 초기화로 채택.
- 우리는 Swin Transformer를 표준 Con-vNets(예: ResNe(X)t) 및 이전 Transformer 네트워크(예: DeiT)와 비교.
- 비교는 다른 설정이 변경되지 않은 백본만 변경하여 수행.
- Swin Transformer 및 ResNe(X)t는 hierarchical feature maps으로 인해 위의 모든 프레임워크에 직접 적용할 수 있지만 DeiT는 피쳐 맵의 단일 해상도만 생성하며 직접 적용할 수 없음.
- 공정한 비교를 위해, 우리는 deconvolution 레이어를 사용하여 DeiT에 대한 hierarchical feature maps을 구성하기 위해 [78]을 따릅니다.

Comparison to ResNe(X)t
- 표 2(a)는 네 개의 object detection frameworks에 대한 Swin-T 및 ResNet-50의 결과를 나열.
- Swin-T 아키텍처는 ResNet-50에 비해 일관된 +3.4~4.2box AP 이점을 제공하며, 모델 크기, FLOP 및 대기 시간이 약간 더 큼.
- 표 2(b)는 Cascade Mask R-CNN을 사용하여 서로 다른 모델 용량에서 Swin Transformer와 ResNe(X)를 비교.
- Swin Transformer는 ResNext에 비해 +3.6 box AP 및 +3.3 mask AP의 높은 detection accuracy를 달성.
- improved HTC framework를 사용하는 52.3 box AP 및 46.0 mask AP의 상위 기준에서 Swin Transformer도 +4.1 box AP 및 +3.1 mask AP에서 높습니다(표 2(c) 참조).
- 추론 속도와 관련하여, ResNe(X)t는 고도로 최적화된 Cudnn 기능으로 구축된 반면, Swin-transformer 는 모두 최적화되지 않은 내장 PyTorch 기능으로 구현.
- kernel optimization는 본 논문의 범위를 벗어남.

Comparison to DeiT
- Cascade Mask R-CNN Framework를 이용한 DeiT-S의 성능을 표2(b)에 나타냄.
- Swin-T의 결과는 모델 크기가 비슷한 DeiT-S보다 +2.5 box AP와 +2.3 mask AP가 높고(86M vs 80M), 추론 속도도 상당히 빠름(15.3FPS vs 10.4FPS). DeiT의 추론 속도가 낮은 것은 주로 입력 영상 크기에 대한 quadratic complexity 때문.

Comparison to previous state-of-the-art
- 표 2(c)는 best results를 이전 state-ofthe-art models와 비교.
- 논문의 베스트 모델은 COCO test-dev에서 58.7 box AP 및 51.1 mask AP를 달성하여 +2.7 box AP(외부 데이터가 없는 [25] Copy-paste) 및 +2.6 mask AP(DetectorRS [45])로 이전 최고의 결과를 능가.

Semantic Segmentation on ADE20K

Settings
- ADE20K[80]는 널리 사용되는 semantic segmentation dataset으로, 150개의 semantic categories를 포괄. 총 25K개의 이미지를 보유하고 있으며, training 20K개, validation 2K개, testing 3K개.
- 논문은 높은 효율성을 위한 기본 프레임워크로UperNet [66] in mmseg [15]을 활용.
- 자세한 내용은 부록 참조.

Results
- 표 3은 different method/backbone pairs에 대한 mIoU, 모델 크기(#param), FLOP 및 FPS를 보여줌.
- 이 결과 비슷한 연산비용으로 Swin-S가 DeiT-S보다 +5.3mIoU(49.3 대 44.0) 높은 것으로 나타났다.
- 또한 ResNet-101보다 +4.4mIoU 높고 +2.4m입니다.ResNeSt-101[75]보다 높은 IoU.
- ImageNet-22K pre-training이 적용된 Swin-L 모델은 기존 최고 모델보다 +3.2mIoU(모델 크기가 더 큰 SETR [78])를 능가하는 53.5mIoU를 달성.

Ablation Study

이 섹션에서는 ImageNet-1K image classification, COCO object detection Cascade Mask R-CNN, semantic segmentation 시 ADE20K UperNet을 사용하여 제안된 Swin Transformer에서 중요한 설계 요소를 단순화.

Shifted windows
- 세 가지 작업에 대한 Shifted window 접근법의 Ablations이 표 4에 보고.
- Swin-T Shifted windows partitioning은 ImageNet-1K의 경우 +1.1% top-1 accuracy, COCO의 경우 +2.8 box AP/+2.2 mask AP, AD20K의 경우 +2.8 mioU만큼 각 단계에서 single window partitioning 은 우수.
- 결과는 preceding layers에서 Shifted windows을 사용하여 windows 간 연결을 구축하는 것의 효과를 나타냄.
- 표 5와 같이 이동 창에 의한 latency overhead도 작습니다.

Relative position bias
- 표 4는 position embedding approaches간의 차이를 보여줌. relative position bias가 있는 Swin-T는 ImageNet-1K에서 +1.2%/+0.8%의 top-1 accuracy, COCO에서 +1.3/+1.3 mask AP에서 +1.3/+1.3 mask AP에서 +2.9mioU 및 relation to those without position encoding and with absolute position embedding에서 +2.3/+2.9mioU를 산출.
- 또한 absolute position embedding을 포함하면 영상 분류 정확도(+0.4%)가 향상되지만, object detection and semantic segmentation(COCO의 경우 0.2 box/mask AP, ADE20K의 경우 -0.6mIoU)에 해를 미칩니다.
- 최근image classification의 ViT/DeiT models의 abandon translation invariance은 오랫동안 시각적 모델링에 중요한 것으로 입증되었지만, 논문은 translation invariance을 장려하는 inductive bias이 general-purpose visual modeling, 특히 object detection and semantic segmentation의 dense prediction tasks에 여전히 선호된다는 것을 발견.

Different self-attention methods
- 다양한 self-attention computation과 구현의 실제 속도를 표 5에 비교.
- 논문의 cyclic implementation은 특히 deeper stages에서 naive padding보다 하드웨어 효율성이 더 높음.
- 전체적으로 Swin-T, Swin-S, Swin-B에서 각각 13%, 18%의 속도 향상.
- 제안된 shifted windows 접근 방식을 기반으로 구축된 self-attention modules은 4개의 네트워크 단계에서 sliding windows보다 각각 40.8배/2.5배, 20.2배/2.5배, 9.3배/2.1배, 7.6배/1.8배 더 효율적.
- 전체적으로 shifted windows에 구축된 Swin Transformer 아키텍처는 Swin-T, Swin-S, Swin-B용 sliding windows에 구축된 변형 모델보다 각각 4.1/1.5, 4.0/1.5, 3.6/1.5배 더 빠름.
- 표 6은 세 가지 작업에 대한 정확성을 비교하여 시각적 모델링에 있어 similarly accurate을 보여줌.
- 가장 빠른 트랜스포머 아키텍처 중 하나인 Performer [13]에 비해([59] 참조), 제안된 shifted windows attention computation 과 전체 Swin Transformer 아키텍처는 약간 빠르며(표 5 참조), Swin-T를 사용하는 ImageNet-1K에 비해 +2.3%의 상위 1위 정확도를 달성(표 6 참조).

Conclusion

이 논문에서는 hierarchical feature representation을 생산하고 입력 이미지 크기에 대한 linear computational complexity을 갖는 새로운 비전 Transformer인 Swin Transformer를 소개.

Swin Transformer는 COCO Object detection와 관련하여 SOTA를 달성.

ADE20K semantic segmentation, 이전 SOTA를 훨씬 능가.

다양한 비전 문제에 대한 Swin Transformer의 강력한 성능이 vision and language signals의 통일된 모델링을 촉진하기를 바람.

Swin Transformer의 핵심 요소로서, shifted window based self-attention이 비전 문제에 효과적이고 효율적인 것으로 입증되었으며, 자연어 처리에서도 활용도를 조사할 수 있기를 기대.

A1. Detailed Architectures

자세한 아키텍처 사양은 모든 아키텍처에 대해 224×224의 입력 이미지 크기를 가정하는 표 7에 나와 있음.

“Concat $n $\times n$$ 은 패치에서 $ $n \times n$$ 이웃 피쳐의 연결을 나타냄. 이 작업을 수행하면 feature map의 다운샘플링 속도가 n.
- "96-d"는 출력 dim이 96인 Linear layer를 나타냄. "win. sz. 7 × 7"은 window size가 7 × 7인 multi-head self-attention (MSA) module을 나타냄.

A2. Detailed Experimental Settings

A2.1. Image classiﬁcation on ImageNet-1K

image classification는 마지막 단계의 출력 피쳐 맵에 global average pooling layer를 적용한 다음 linear classifier를 적용하여 수행.

이 전략이 ViT[19]와 DeiT[60]에서와 같이 additional class 토큰을 사용하는 것만큼 정확하다고 생각함.

평가에서 single crop를 사용한 top-1 accuracy 가 보고.

Regular ImageNet-1K training
- 대부분의 training settings은 [60]을 따름.
- 모든 모델 변형에 대해 기본 입력 이미지 해상도$224^2$ 를 채택.$ $384^2$$ 와 같은 다른 해상도의 경우 GPU 소비를 줄이기 위해 처음부터 교육하는 대신 $ $224^2$$ 해상도로 교육된 모델을 fine-tune.

$224^2$ input 으로 처음부터 training할 때, 20개의 epochs of linear warm-up이 있는 cosine decay learning rate scheduler를 사용하여 300개 epoch에 AdamW[36] 최적화 사용.

batch size 1024, initial learning rate 0.001, weight decay 0.05 및 max norm 1의 gradient clipping이 사용됨.

RandAugment [16], Mixup [74], Cutmix [72], random erasing [79], stochastic depth [34]를 포함하여 대부분의 augmentation 및 정규화 전략을 training에 포함하지만 repeated augmentation[30] 및 Exponential Moving Average[44]은 포함하지 않음.

이는 ViT 훈련을 안정화하기 위해 repeated augmentation가 중요하다는 점과 반대되는 것에 유의.

대형 모델(예: 각각 0.2; 0.3; 0.5), SWin-T, SWin-S 및 SWin-B의 경우 0.5)에 stochastic depth augmentation가 사용된다.

분해능이 더 큰 입력에 대한 미세 조정을 위해, 확률적 깊이 비율을 0.1로 설정하는 것을 제외하고, 10-5의 일정한 학습 속도, 10-8의 weight decay, 첫 번째 단계와 동일한 데이터 augmentation 및 정규화의 30개 에포크에 대해 Adam W[36] 최적화 장치를 사용한다.

ImageNet-22K pre-training
- 또한 14.2 million 개의 이미지와 22K 클래스를 포함하는 대규모 ImageNet-22K 데이터셋에 대해 pre-training.
- training은 두 단계로 진행.
  - $224^2$입력의 첫 번째 단계에서는 5 epochs linear warm-up을 사용하는 linear warm-up scheduler를 사용하여 60epochs에 AdamW optimizer를 사용.
  - 배치 크기 4096, 초기 학습률 0.001 및 weight decay 0.01이 사용.
  - $224^2/384^2$ 입력으로 ImageNet-1K finetuning의 두 번째 단계에서는 배치 크기 1024, 일정한 학습 속도 10^-5, weight decay 10^-8의 30epoch 모델을 training.

A2.2. Object detection on COCO

ablation study의 경우, 네 가지 일반적인 개체 탐지 프레임워크인 Cascade Mask R-CNN [28, 5], ATSS [76], RepPoints v2 [11], and Sparse RCNN [55] in mmdetection [9]을 고려.

이 네 가지 프레임워크에 대해, 우리는 동일한 설정을 활용:multi-scale training [7, 55] (짧은 쪽이 480에서 800 사이인 반면 긴 쪽이 최대 1333 사이인 입력의 크기 조정), Adam W[43] optimizer(초기 학습률 0.0001, weight decay 0.05, 배치 크기 16), 3x schedule(learning rate decayed 36 epochs 27과 33에서 10배 증가).

시스템 수준 비교를 위해, 우리는 향상된HTC[8] (HTC++로 표시), instaboost [21], 보다 강력한 multi-scale training[6] (짧은 쪽이 400~1400 사이인 반면 긴 쪽이 최대 1600까지), 6x schedule(72 epochs(63~69에 학습 속도가 0.1배 감소), soft-NMS [4], 마지막 단계의 출력과 ImageNet-22K pre-trained 모델을 초기화.

모든 Swin Transformer 모델에 대해 0.2의 비율로 stochastic depth를 채택

A2.3. Semantic segmentation on ADE20K

ADE20K[80]는 널리 사용되는 semantic segmentation dataset으로, 150개의 semantic categories를 포괄

총 25K개의 이미지를 보유하고 있으며, training 20K개, validation 2K개, testing 3K개.

높은 효율성을 위한 기본 프레임워크로 UperNet[66] in mm segmentation[15]을 활용합니다.

training 에서는 initial learning rate이 $6 × 10-5$, weight decay가 0.01, linear learning rate decay를 사용하는 scheduler 및 1,500회 반복의 linear warmup을 사용하는 AdamW[43] 최적화기를 사용.

모델은 GPU당 이미지 2개가 포함된 8개의 GPU에서 160K회 반복 training 을 받음.

augmentations의 경우, random horizontal flipping의 mmsegmentation, [0.5, 2.0]비율 범위 내 random re-scaling 및 random photometric distortion의 기본 설정을 채택.

모든 SwinTransformer 모델에 0.2의 Stochastic depth가 적용.

Swin-T, Swin-S는 512×512의 입력으로 이전 접근 방식에 따라 standard setting에 대한 trained. $\ddagger$ 가 있는 Swin-B 및 Swin-L은 이 두 모델이 ImageNet-22K에서 pre-trained되었으며 640×640의 입력으로 trained되었음을 나타냄.

inference에서는 training 에 사용되는 resolutions의 $[0.5, 0.75, 1.0, 1.25, 1.5, 1.75]×$을 사용한 multi-scale test가 사용.

test scores를 보고할 때, common practice에 따라 training images and validation images이 모두 training 에 사용[68].

A3. More Experiments

A3.1. Image classiﬁcation with different input size

표 8은$ $224^2$$ 부터 $ $384^2$$ 까지의 다양한 입력 이미지 크기를 가진 Swin Transformer의 성능을 보여줍니다. 일반적으로 입력 resolution이 클수록 top-1 accuracy는 향상되지만 추론 속도는 느려짐.

A3.2. Different Optimizers for ResNe(X)t on COCO

표 9는 COCO 객체 감지 시 ResNe(X)t 백본의 AdamW 및 SGD 최적화기를 비교.

이 비교에는 Cascade Mask R-CNN 프레임워크가 사용. SGD는 Cas-cade Mask R-CNN 프레임워크의 기본 optimizer로 사용되지만, 일반적으로 특히 작은 백본의 경우 AdamW optimizer로 교체하여 정확도가 향상되는 것을 관찰.

따라서 제안된 Swin Transformer 아키텍처와 비교할 때 AdamW for ResNe(X)t 백본을 사용.

Q. 기존 선행논문인 ViT에 있는 [CLS] Token 은 어디?

[풀잎스쿨 14기] semantic-segmenation-논문으로-입문하기 (U-Net_Elastic Deformations) (0)	2021.03.20
[Day1. 컴퓨터 비전(Computer Vision) 이란?] (0)	2020.11.10

Notice

Category

Recent Post

Popular Post

Comment

Tags

Visitor Counter