<aside> 🤔

문서 임베딩문서의 내용을 수치적인 벡터로 변환하는 과정이다.

이 과정을 통해 문서의 의미를 수치화하고, 다양한 자연어 처리 작업에 활용할 수 있다.

대표적인 사전 학습된 언어 모델로는 BERTGPT가 있으며, 이러한 모델들은 문맥적 정보를 포착하여 문서의 의미를 인코딩한다.

문서 임베딩은 토큰화된 문서를 모델에 입력하여 임베딩 벡터를 생성하고, 이를 평균하여 전체 문서의 벡터를 생성한다.

이 벡터는 문서 분류, 감성 분석, 문서 간 유사도 계산 등에 활용될 수 있다.

</aside>

<aside> ✏️

임베딩 과정

  1. 텍스트 —> 숫자 (토큰화)
  2. 숫자 (토큰화) → 고차원 밀집 벡터 (dense vector)
  3. 임베딩된 벡터는 다양한 자연어 처리 작업 활용 가능

문서 임베딩