개요
최근에 meta의 오픈소스 LLM 모델인 llama3 가 공개되었습니다. 8B, 70B 두 가지 모델이 공개가 되었고, 멀티 모달을 지원하는 400B 모델은 곧 공개가 된다고 합니다.
llama3 모델을 로컬 PC에서 돌리는 방법은 이전에 포스팅했던 llama2 모델 실행하는 방법을 참고하시면 됩니다.
2024.06.03 - [개발] - Meta의 LLM 모델 LLaMA 2를 Windows에서 실행하기
대부분은 위와 동일하게 진행하면 되고, 달라진 점은 아래와 같습니다.
모델 다운로드
llama3 모델을 아래 경로에서 다운로드합니다. 저는 Meta-Llama-3-8B-Instruct.Q5_K_M.gguf 을 사용했습니다.
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
최신 코드 사용
llama3을 지원하기 위해서 llama.cpp 코드에 수정된 부분이 있다고 합니다. llama.cpp의 최신 코드를 받아서 빌드해 줍니다.
기존에 이미 llama.cpp 를 clone 받아서 빌드한 적이 있다면, 해당 경로로 이동한 다음 아래처럼 코드를 최신으로 업데이트합니다.
git pull
GPU 파라미터 추가
llama.cpp 최신 버전에서는 -ngl 99 옵션을 추가로 입력해야 GPU를 사용해서 inference를 수행하게 됩니다.
실행 결과
아직 llama.cpp 에 버그가 있는 것 같습니다. 응답을 잘해주다가 뒤쪽에서 반복된 대답 및 특수 문자가 출력됩니다. end token 처리가 잘 안 된 것처럼 보입니다. llama.cpp 프로젝트가 상당히 자주 업데이트가 되고 있으므로 곧 해결이 될 걸로 예상이 됩니다.
'개발' 카테고리의 다른 글
Windows에서 Python 으로 LLaMA2 모델 실행하기 (feat. llama-cpp-python) (0) | 2024.06.03 |
---|---|
Meta의 LLM 모델 LLaMA 2를 Windows에서 실행하기 (2) | 2024.06.03 |