<aside>
✅
- 다양한 embedding 모델을 직접 구현하여 실무 능력 향상
- 현재 서비스에 맞는 scoring fuction 구현 및 성능 체크 방법
</aside>
알맞은 임베딩 모델 선정
<aside>
💬
이번 챕터에서는 데이터셋에 직접 임베딩 모델을 활용하면서 퍼모먼스를 직접 측정하고 비교한다.
- 물론 MTEB의 여러 점수 결과들을 보면 어떤 임베딩 모델이 어떤 task에 최적화 되어 있는지 잘 나와있다. 따라서 해당 수치들을 확인하고 선택해도 크게 무리는 없다.
- 하지만 우리 서비스에서 여러 임베딩 모델들을 비교하여 퍼포먼스 비교 테스트를 진행하면 활용한 데이터셋에 대에 임베딩 정확도를 향상시킬 수 있는 전처리, 후처리 지점을 찾을 수 있다.
- 또한 프로젝트에 활용될 임베딩 모델에 대한 기술적 의사결정에 대해서 여러 모델들을 실제 우리 서비스에 적용하여 테스트함으로써, 이런 비교한 수치들이 중요한 근거로써 활용돈다.
</aside>

실습 코드
<aside>
🤔
결론
- cohere, openai, e5 모두 굉장히 성능이 좋기 때문에 대부분의 task에 곧바로 활용해도 무방
- Local embedding 모델을 활용하고자 할 때 위와 같은 방법으로 classification 성능 & 자원 할당 체크 필요.
- 성능 평가 방법
- 태깅된 데이터 셋 활용
- 정성적 평가
- 데이터 태깅을 할 노동력이 부족할 때
- 태깅을 하기 애매한 분야 (정답이 없는 경우)
</aside>