<aside>
๐
๋
ผ๋ฌธ: Learning Transferable Visual Models From Natural Language Supervision

</aside>
CLIP ( Contrastive Language-Image pre-training )
<aside>
๐
CLIP์ ๊ธฐ์กด ๋ฅ๋ฌ๋ ํ์ต ๊ตฌ์กฐ๋ฅผ ์์ ํ ์ฌํด์ํด์ ์ด๋ฏธ์ง ํ
์คํธ ๋ถ์ผ์ ์๋ก์ด ํจ๋ฌ๋ค์์ ๋ง๋ ๋ชจ๋ธ์ด๋ค.
ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ **๊ฐ์ ์๋ฏธ ๊ณต๊ฐ(embedding space)**์ผ๋ก ์ ๋ ฌํด, ์๋ก๋ฅผ ์ง์ ๋น๊ตยท๊ฒ์ํ ์ ์๊ฒ ๋ง๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ
- text โ Image ๊ฒ์ ๊ฐ๋ฅ
- OpenAI์์ 2021๋
์ ๊ณต๊ฐํ์ผ๋ฉฐ, โ๋ผ๋ฒจ ์์ด๋ ํ
์คํธ๋ง์ผ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ/๊ฒ์โ์ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ด ํต์ฌ
Zero-shot Classification
- CLIP ๋ชจ๋ธ์ ์๋ก์ด ๋ ์ด๋ธ์ ํ
์คํธ ์๋ฒ ๋ฉ์ผ๋ก ์ดํด๊ฐ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์
๊ธฐ์กด ํ์ต ์ด๋ฏธ์ง๋ค์ด ์๋, ์ฒ์๋ณด๋ ๋ ์ด๋ธ์ด๋ผ๋ ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅ
</aside>
๐งย ๊ธฐ์กด ์ด๋ฏธ์ง ๋ชจ๋ธ, CLIP(๋ฉํฐ๋ชจ๋ฌ) ๋ชจ๋ธ ๋น๊ต
๋์กฐํ์ต ( Contrastive learning )
CLIP ํ
์คํธ ์ธ์ฝ๋ (Text Encoder)
CLIP ์ด๋ฏธ์ง ์ธ์ฝ๋ (Image Encoder)
CLIP ํ์ฉ ์ฌ๋ก
1. ์ ๋ก์ท ๋ถ๋ฅ (zero-shot classification)
2. ์ด๋ฏธ์ง ๊ฒ์ (Image-Text Retrieval)
3. ์ด๋ฏธ์ง ์บก์
๋ (๋ผ๋ฒจ๋ง)