Vision Transformer

<aside> 📖

비전 트랜스포머(ViT)는 자연처 처리 분야에서 혁신을 불러온 Transformer 모델을 이미지 인식 분야 도입한 모델이다.

- 출처: https://arxiv.org/pdf/2010.11929

출처: https://arxiv.org/pdf/2010.11929
NLP 분야 동일하게 이미지 분야에서도 이전 패러다임을 바꿨다고 평가되는 강력하고 혁신적인 모델이다.
이전 합성곱 신경망(CNN) 대신, 이미지를 작은 패치 단위로 나누고 이를 언어 모델의 단어처럼 처리하는 방식을 취한다.
모델은 각 패치를 벡터로 변환한 뒤 위치 임베딩(Positional embedig)을 더해 공간 정보를 유지하며, 셀프 어텐션(Self-Attention) 매커니즘을 통해 이미지 전체 관계를 파악한다 . </aside>

<aside> 📄

</aside>