벡터화 ( Voctorization )
<aside>
📖
- 벡터화에 신경망을 사용하지 않을 경우
- 단어에 대한 벡터 표현 방법:
원-핫 인코딩
- 문서에 대한 벡터 표현 방법:
Document Term Matrix, TF-IDF
- 벡터화에 신경망을 사용하는 경우 ( 2008 ~ 2018 )
- 단어에 대한 벡터 표현 방법
- 워드 임베딩:
Word2Vec, GloVe, FastText, Embedding layer ...
- 문서에 대한 벡터 표현 방법:
Doc2Vec, Sent2Vec
- 문맥을 고려한 벡터 표현 방법:
ELMo, BERT, GPT, T5 등 ( 2018 ~ 현재 )
- Pre-trained Language Model 시대
</aside>
텍스트 기반 벡터화: 원-핫 인코딩
카운트 기반 벡터화: DTM, TF-IDF
신경망 기반의 벡터화: 워드 임베딩, Embedding Layer