Standard Analyzer의 토큰 분할 과정 확인

<aside>

</aside>

[실습] Standard Analyzer의 토큰 분할 과정 확인

Analyze API

// 방법 1 
GET /_analyze
{
  "text": "_________",
  "analyzer": "standard"
}

// 방법 2 (standard analyer의 구성을 직접 명시)
GET /_analyze 
{
  "text": "_________",
  "char_filter": [],
  "tokenizer": "standard",
  "filter": ["lowercase"]
}

/_analyze api를 통해 analyzer 정의가 가능하다.
앞서 살펴봤듯이 위 2가지 방식으로 정의할 수 있다.

실제 적용

// 방법 1 
GET /_analyze
{
  "text": "Apple 2025 맥북 에어 13 M4 10코어",
  "analyzer": "standard"
}

// 방법 2
GET /_analyze
{
  "text": "Apple 2025 맥북 에어 13 M4 10코어",
  "char_filter": [],
  "tokenizer": "standard",
  "filter": ["lowercase"]
}

응답값 확인

스크린샷 2026-04-20 오후 8.02.47.png

응답값 확인

토큰 분리 결과를 확인해보면 standard tokenizer(공백 또는 ,, ., !, ?와 같은 문장 부호를 기준으로 문자열을 자름)와 lowercase token filter(소문자로 변환)가 적용되어 인덱싱이 된 것을 확인할 수 있다.