glm-4.7 flash 실행 | Notion

1. Hugging Face 에서 모델 확인

모델 파일 다운로드
- https://huggingface.co/unsloth/GLM-4.7-Flash-GGUF
  
  가장 유명한 최적화 팀인 Unsloth에서 만든 버전 버그 수정이 반영된 최신 버전이라 매우 안정적
```
# ollama 다운
ollama run hf.co/unsloth/GLM-4.7-Flash-GGUF:Q4_K_M
```

2. 데이터셋 다운

M1 Pro 최적화 설정 팁

M1 Pro의 통합 메모리 성능을 극대화하려면 다음 설정 확인

동시 실행 확인
- ollama ps 명령어로 다른 모델이 메모리를 점유하고 있지 않은지 확인
추론 속도 향상
- 만약 속도가 느리다면, Q4_K_M 대신 더 가벼운 Q3_K_L이나 Q2_K 양자화 파일을 사용하면 속도가 훨씬 빨라진다.
- 하지만 9B 모델은 M1 Pro에서 Q4 버전도 충분히 빠르다.

지금 바로 ollama run glm4:9b를 먼저 실행해 보시고, AI에게 "너의 버전이 뭐야?" 혹은 "2025년 이후의 최신 기술에 대해 알아?"라고 물어보세요. 4.7 버전이라면 최신 정보와 향상된 추론 능력을 보여줄 것입니다.