개발

Meta 의 오픈소스 llama3 모델 Windows 에서 실행하기

후이넘 2024. 6. 3. 21:27
728x90

개요

최근에 meta의 오픈소스 LLM 모델인 llama3 가 공개되었습니다. 8B, 70B 두 가지 모델이 공개가 되었고, 멀티 모달을 지원하는 400B 모델은 곧 공개가 된다고 합니다.

 

llama3 모델을 로컬 PC에서 돌리는 방법은 이전에 포스팅했던 llama2 모델 실행하는 방법을 참고하시면 됩니다.

2024.06.03 - [개발] - Meta의 LLM 모델 LLaMA 2를 Windows에서 실행하기

 

Meta의 LLM 모델 LLaMA 2를 Windows에서 실행하기

1. 개요Meta에서 공개한 LLaMA 2 모델은 파라미터 개수가 7B, 13B, 70B 인 3가지 사이즈로 제공이 됩니다. 여기서 B는 Billion(10억)의 약자입니다. 가장 작은 모델인 7B는 파라미터 개수가 70억개이고, INT8

lastlaugher.tistory.com

대부분은 위와 동일하게 진행하면 되고, 달라진 점은 아래와 같습니다.

 

모델 다운로드

llama3 모델을 아래 경로에서 다운로드합니다. 저는 Meta-Llama-3-8B-Instruct.Q5_K_M.gguf 을 사용했습니다.
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main

 

QuantFactory/Meta-Llama-3-8B-Instruct-GGUF at main

 

huggingface.co

 

최신 코드 사용

llama3을 지원하기 위해서 llama.cpp 코드에 수정된 부분이 있다고 합니다. llama.cpp의 최신 코드를 받아서 빌드해 줍니다.

기존에 이미 llama.cpp 를 clone 받아서 빌드한 적이 있다면, 해당 경로로 이동한 다음 아래처럼 코드를 최신으로 업데이트합니다.

git pull

 

GPU 파라미터 추가

llama.cpp 최신 버전에서는 -ngl 99 옵션을 추가로 입력해야 GPU를 사용해서 inference를 수행하게 됩니다.

 

실행 결과

아직 llama.cpp 에 버그가 있는 것 같습니다. 응답을 잘해주다가 뒤쪽에서 반복된 대답 및 특수 문자가 출력됩니다. end token 처리가 잘 안 된 것처럼 보입니다. llama.cpp 프로젝트가 상당히 자주 업데이트가 되고 있으므로 곧 해결이 될 걸로 예상이 됩니다.

728x90