<aside> ๐
๋น์ ํธ๋์คํฌ๋จธ(ViT)๋ ์์ฐ์ฒ ์ฒ๋ฆฌ ๋ถ์ผ์์ ํ์ ์ ๋ถ๋ฌ์จ Transformer ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์ธ์ ๋ถ์ผ ๋์
ํ ๋ชจ๋ธ์ด๋ค.

์ถ์ฒ: https://arxiv.org/pdf/2010.11929
NLP ๋ถ์ผ ๋์ผํ๊ฒ ์ด๋ฏธ์ง ๋ถ์ผ์์๋ ์ด์ ํจ๋ฌ๋ค์์ ๋ฐ๊ฟจ๋ค๊ณ ํ๊ฐ๋๋ ๊ฐ๋ ฅํ๊ณ ํ์ ์ ์ธ ๋ชจ๋ธ์ด๋ค.
์ด์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN) ๋์ , ์ด๋ฏธ์ง๋ฅผ ์์ ํจ์น ๋จ์๋ก ๋๋๊ณ ์ด๋ฅผ ์ธ์ด ๋ชจ๋ธ์ ๋จ์ด์ฒ๋ผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ์ทจํ๋ค.
๋ชจ๋ธ์ ๊ฐ ํจ์น๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ ๋ค ์์น ์๋ฒ ๋ฉ(Positional embedig)์ ๋ํด ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉฐ, ์ ํ ์ดํ ์ (Self-Attention) ๋งค์ปค๋์ฆ์ ํตํด ์ด๋ฏธ์ง ์ ์ฒด ๊ด๊ณ๋ฅผ ํ์ ํ๋ค . </aside>
<aside> ๐
๋ ผ๋ฌธ: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

</aside>