CLIP | Notion

<aside> 📄

논문: Learning Transferable Visual Models From Natural Language Supervision

</aside>

CLIP ( Contrastive Language-Image pre-training )

<aside> 📖

CLIP은 기존 딥러닝 학습 구조를 완전히 재해석해서 이미지 텍스트 분야의 새로운 패러다임을 만든 모델이다.

텍스트와 이미지를 **같은 의미 공간(embedding space)**으로 정렬해, 서로를 직접 비교·검색할 수 있게 만든 멀티모달 모델
- text → Image 검색 가능
OpenAI에서 2021년에 공개했으며, “라벨 없이도 텍스트만으로 이미지 분류/검색”을 가능하게 한 것이 핵심
- Zero-shot Classification
- CLIP 모델은 새로운 레이블을 텍스트 임베딩으로 이해가 가능하기 때문에 기존 학습 이미지들이 아닌, 처음보는 레이블이라도 분류가 가능 </aside>

🧐 기존 이미지 모델, CLIP(멀티모달) 모델 비교

대조학습 ( Contrastive learning )

CLIP 텍스트 인코더 (Text Encoder)

CLIP 이미지 인코더 (Image Encoder)

CLIP 활용 사례

1. 제로샷 분류 (zero-shot classification)

2. 이미지 검색 (Image-Text Retrieval)

3. 이미지 캡셔닝 (라벨링)