한국어 처리의 어려움
한국어는 토큰화 과정에서 손해를 많이 본다.
토큰화 효율이 떨어짐
한국어 자체 특징
한국어 LLM 파인 튜닝 사례
토크나이저 개선:
Llama-2-ko
새로운 토큰에 맞춘 추가 학습:
EEVE
(2024.2)
한국어 파인튜닝 데이터
MarkrAI
AIHub
의 한국어 학습용 데이터