Mac M5 32GB 환경에서 Qwen3 8B + Gemma 3 4B 로컬 LLM 구축하기 (Ollama + Open WebUI)

최근 Cursor, Claude Code, GPT, Gemini 등 다양한 AI 도구를 사용하면서도 인터넷 연결 없이 사용할 수 있는 로컬 LLM 환경에 대한 관심이 높아지고 있다. 이번 글에서는 MacBook Pro M5 32GB 환경에서 Qwen3 8B와 Gemma 3 4B를 설치하고 Open WebUI를 이용하여 ChatGPT처럼 사용하는 방법을 정리한다.

구성 목표

다음과 같은 환경을 구축하는 것을 목표로 한다.

메인 모델
- Qwen3 8B

보조 모델
- Gemma 3 4B

모델 실행
- Ollama

웹 UI
- Open WebUI

개발 도구
- IntelliJ
- VSCode
- Cursor
- Claude Code

1. Ollama 설치

먼저 Ollama를 설치한다.

brew install ollama

설치 확인

ollama --version

2. Ollama 실행

ollama serve

정상적으로 실행되면 Ollama API가 다음 포트에서 동작한다.

http://localhost:11434

3. Qwen3 8B 설치

ollama pull qwen3:8b

설치 확인

ollama list

예상 결과

NAME
qwen3:8b

4. Gemma 3 4B 설치

ollama pull gemma3:4b

설치 확인

ollama list

예상 결과

NAME
qwen3:8b
gemma3:4b

5. Docker 설치

Open WebUI를 사용하기 위해 Docker Desktop을 설치한다.

Docker 최초 실행 시 아래와 같은 로그인 화면이 표시될 수 있다.

Welcome to Docker

이 화면에서는 로그인하지 않아도 된다.

우측 상단 Skip 클릭

Open WebUI 사용에는 Docker Hub 계정이 필수가 아니다.

6. Docker 정상 동작 확인

docker --version

docker ps

정상이라면 빈 컨테이너 목록이 출력된다.

7. Open WebUI 설치

React 개발 서버는 보통 3000 포트를 사용하고, Spring Boot는 8080 포트를 사용하므로 포트 충돌을 피하기 위해 Open WebUI는 13000 포트를 사용한다.

docker run -d \
--name open-webui \
-p 13000:8080 \
-v open-webui:/app/backend/data \
ghcr.io/open-webui/open-webui:main

8. Docker 포트 매핑 이해하기

다음 설정은 매우 중요하다.

-p 13000:8080

의미는 다음과 같다.

외부 포트 : 13000
내부 포트 : 8080

즉 브라우저에서는 다음 주소로 접속한다.

http://localhost:13000

실제 Open WebUI 컨테이너 내부에서는 8080 포트로 서비스가 동작한다.

구조를 그림으로 표현하면 다음과 같다.

브라우저
 ↓
localhost:13000
 ↓
Docker
 ↓
Open WebUI (8080)

9. Open WebUI 접속

브라우저에서 접속한다.

http://localhost:13000

최초 접속 시 관리자 계정을 생성한다.

10. Ollama 연동

Open WebUI는 자동으로 Ollama를 감지하는 경우가 많다.

수동 설정 시 다음 주소를 사용한다.

http://host.docker.internal:11434

또는

http://localhost:11434

11. 모델 사용

연동이 완료되면 모델 목록에서 다음 모델을 선택할 수 있다.

Qwen3 8B
Gemma 3 4B

권장 사용 방식은 다음과 같다.

Qwen3 8B
- Java
- Spring Boot
- JPA
- jOOQ
- React
- Next.js
- Python
- SQL
- 아키텍처 검토

Gemma 3 4B
- 문서 요약
- 번역
- 로그 해석
- 블로그 초안

12. 최종 권장 구성

MacBook Pro M5 32GB

Ollama
 ├─ Qwen3 8B
 └─ Gemma 3 4B

Open WebUI
 └─ localhost:13000

Ollama API
 └─ localhost:11434

React
 └─ localhost:3000

Spring Boot
 └─ localhost:8080

결론

Mac M5 32GB 환경에서는 Qwen3 8B를 메인 모델로 사용하고 Gemma 3 4B를 보조 모델로 사용하는 구성이 가장 균형이 좋다. Open WebUI를 함께 사용하면 ChatGPT와 유사한 인터페이스로 로컬 LLM을 사용할 수 있으며, 인터넷 연결 없이도 코드 분석, 문서 작성, 로그 분석 등의 작업을 수행할 수 있다.

구성 목표

1. Ollama 설치

2. Ollama 실행

3. Qwen3 8B 설치

4. Gemma 3 4B 설치

5. Docker 설치

6. Docker 정상 동작 확인

7. Open WebUI 설치

8. Docker 포트 매핑 이해하기

9. Open WebUI 접속

10. Ollama 연동

11. 모델 사용

12. 최종 권장 구성

결론

관련 글

답글 남기기 응답 취소