[실습] 알맞은 임베딩 모델 선정 - 유사도 및 정확도 측정

<aside> ✅

알맞은 임베딩 모델 선정

<aside> 💬

이번 챕터에서는 데이터셋에 직접 임베딩 모델을 활용하면서 퍼모먼스를 직접 측정하고 비교한다.

물론 MTEB의 여러 점수 결과들을 보면 어떤 임베딩 모델이 어떤 task에 최적화 되어 있는지 잘 나와있다. 따라서 해당 수치들을 확인하고 선택해도 크게 무리는 없다.
하지만 우리 서비스에서 여러 임베딩 모델들을 비교하여 퍼포먼스 비교 테스트를 진행하면 활용한 데이터셋에 대에 임베딩 정확도를 향상시킬 수 있는 전처리, 후처리 지점을 찾을 수 있다.
또한 프로젝트에 활용될 임베딩 모델에 대한 기술적 의사결정에 대해서 여러 모델들을 실제 우리 서비스에 적용하여 테스트함으로써, 이런 비교한 수치들이 중요한 근거로써 활용돈다. </aside>

<aside> 🤔

결론

cohere, openai, e5 모두 굉장히 성능이 좋기 때문에 대부분의 task에 곧바로 활용해도 무방
Local embedding 모델을 활용하고자 할 때 위와 같은 방법으로 classification 성능 & 자원 할당 체크 필요.
성능 평가 방법
- 태깅된 데이터 셋 활용
- 정성적 평가
  - 데이터 태깅을 할 노동력이 부족할 때
  - 태깅을 하기 애매한 분야 (정답이 없는 경우) </aside>