Online_DS_VectorDB/05.VectorDB_Advanced/decoupling chunks for retrieval vs synthesis.ipynb at main · fastcampus-plan1/Online_DS_VectorDB

🧐 재가공된 테이블의 컬럼과 LlamaIndex의 쿼리엔진에서 생성하는 쿼리의 키 값 불일치
<aside>
🤔
모델 성능이 올라감에 따라 이전에 실패했던 로직들이 정상 응답을 도출됨
gpt-3.5-turbo → gtp-4.1-mini
쿼리에 대한 해석 방식이 증가되어 키값 불일치 현상이 발생됨
- 이전) year 컬럼으로 분리 불가
- 현재) year 컬럼으로 분리하여 쿼리 요청, dataframe에는 해당 컬럼이 존재하지 않아 KeyError 발생됨
</aside>
0. 기본 세팅
- 의존성 설치
- import
- open ai key 설정
- openai 모델 설정 - llm, embedding model
- 데이터셋 다운 ( Wikipedia )
1. PDF 문서 파싱 및 확인 ( PyMuPDFReader )
- 문서(PDF) 파싱
- 노드 변환 및 벡터 db 저장
- 쿼리 1
- 쿼리 2
2. 테이블 파싱
<aside>
☝🏻
위 쿼리 예제를 통해 기본적인 PDF 파싱 모듈로는 테이블 등 Text-Only 가 아닌 문서에 대한 정보 해석력이 떨어지는 것을 확인했다.
이를 테이블 형태로 재가공하여 해결한다.
</aside>