7. 임베딩 ( Embedding )

<aside> 🤔

문서 임베딩은 문서의 내용을 수치적인 벡터로 변환하는 과정이다.

이 과정을 통해 문서의 의미를 수치화하고, 다양한 자연어 처리 작업에 활용할 수 있다.

대표적인 사전 학습된 언어 모델로는 BERT와 GPT가 있으며, 이러한 모델들은 문맥적 정보를 포착하여 문서의 의미를 인코딩한다.

문서 임베딩은 토큰화된 문서를 모델에 입력하여 임베딩 벡터를 생성하고, 이를 평균하여 전체 문서의 벡터를 생성한다.

이 벡터는 문서 분류, 감성 분석, 문서 간 유사도 계산 등에 활용될 수 있다.

</aside>

<aside> ✏️

임베딩 과정

텍스트 —> 숫자 (토큰화)
- 사전 학습된 토크나이저(tokenizer)를 활용하여 텍스트를 토큰 단위로 분리하고, 각 토큰을 고유한 정수로 매핑처리
숫자 (토큰화) → 고차원 밀집 벡터 (dense vector)
- 토큰화된 데이터를 임베딩 레이어에 입력, 고차원 밀집 벡터(dense vector) 형태로 변환
- 각 토큰들은 해당 토큰의 의미와 문맥을 포착하는 실수 갑들의 벡터로 표현됨
임베딩된 벡터는 다양한 자연어 처리 작업 활용 가능
- ex) 문서 분류, 감성 분석, 기계 번역 등의 작업에서 입력 데이터로 사용되어 모델의 성능을 향상시킬 수 있음 </aside>