<aside> 🤔
문서 임베딩은 문서의 내용을 수치적인 벡터로 변환하는 과정이다.
이 과정을 통해 문서의 의미를 수치화하고, 다양한 자연어 처리 작업에 활용할 수 있다.
대표적인 사전 학습된 언어 모델로는 BERT와 GPT가 있으며, 이러한 모델들은 문맥적 정보를 포착하여 문서의 의미를 인코딩한다.
문서 임베딩은 토큰화된 문서를 모델에 입력하여 임베딩 벡터를 생성하고, 이를 평균하여 전체 문서의 벡터를 생성한다.
이 벡터는 문서 분류, 감성 분석, 문서 간 유사도 계산 등에 활용될 수 있다.
</aside>
<aside> ✏️
임베딩 과정
텍스트 —> 숫자 (토큰화)
숫자 (토큰화) → 고차원 밀집 벡터 (dense vector)
토큰화된 데이터를 임베딩 레이어에 입력, 고차원 밀집 벡터(dense vector) 형태로 변환