Qwen3.6 35B 로컬 구동 완벽 가이드 2026년 최신 총정리
Qwen3.6 35B 로컬 구동이 지금 주목받는 이유
2026년 3월 30일 OpenRouter에 프리뷰가 올라오고 4월 2일 정식 공개된 Qwen3.6은 오픈소스 LLM 지형을 다시 그렸습니다. 특히 Qwen3.6-35B-A3B는 SWE-Bench Verified에서 38.2%를 기록하며 오픈소스 1위에 올랐고, 이는 일부 상용 모델을 위협하는 수준입니다.
단순히 성능이 좋은 것을 넘어, Qwen3.6 35B 로컬 구동이 소비자 GPU 한 장에서 실용 가능한 속도로 돌아간다는 점이 핵심입니다. 💡 클라우드 API 비용 부담 없이, 프라이버시를 지키며 에이전틱 코딩을 구현하고 싶은 개발자라면 지금이 도입 적기입니다.
Qwen3.6-35B-A3B MoE 아키텍처 원리
이름 뒤에 붙은 A3B는 "Active 3B"를 뜻합니다. 총 파라미터는 35B이지만 추론 시 실제로 활성화되는 전문가(expert) 파라미터는 3B에 불과합니다. 이것이 Qwen3.6-35B-A3B MoE 아키텍처의 핵심이며, 속도와 품질을 동시에 잡는 비결입니다.
왜 MoE가 유리한가
토큰마다 전체 35B를 깨우는 dense 모델과 달리, MoE는 입력에 가장 적합한 전문가 블록만 선택적으로 활성화합니다. 결과적으로 ✅ 추론 속도는 3B 모델 수준, ✅ 품질은 35B 모델 수준에 가깝게 수렴합니다. 동일 하드웨어에서 Llama-3.3-70B 대비 약 2.8배 높은 처리량이 보고되는 이유입니다.
메모리 사용량의 함정
⚠️ 단, 메모리는 전체 파라미터 기준으로 로드됩니다. 활성 파라미터가 3B여도 VRAM은 dense 34B 모델과 비슷하게 필요합니다. Qwen3.6 35B 로컬 구동을 준비할 때 GPU 메모리 계산은 35B 기준으로 해야 한다는 뜻입니다.
Qwen 로컬 구동 GPU 요구사양 정리
Qwen 로컬 구동 GPU 요구사양은 선택한 양자화 수준에 따라 크게 달라집니다. 대표적인 GGUF 양자화별 VRAM 요구량을 정리하면 다음과 같습니다.
| 양자화 | VRAM 요구 | 권장 GPU | 품질 |
|---|---|---|---|
| Q4_K_M | 약 22GB | RTX 4090 / 3090 | 실용 최고 밸런스 |
| Q5_K_M | 약 26GB | RTX 5090 / A6000 | 고품질 |
| Q8_0 | 약 38GB | A6000 / H100 | 거의 원본 수준 |
| Q2_K | 약 14GB | RTX 4080 / 3080 Ti | 경량, 품질 저하 |
💡 가장 현실적인 조합은 RTX 4090 24GB + Q4_K_M입니다. 문맥을 32K 이상 쓰려면 KV 캐시 공간까지 고려해 Q4_K_S를 선택하는 것도 방법입니다.
Ollama Qwen3.6 설치법 단계별 가이드
초보자에게 가장 쉬운 방법은 Ollama입니다. Ollama Qwen3.6 설치법은 4단계로 끝납니다.
1단계. 공식 사이트에서 Ollama를 설치합니다. macOS·Windows·Linux 모두 공식 바이너리가 제공됩니다.
2단계. 터미널에서 모델을 받습니다.
ollama pull qwen3.6:35b-a3b-q4_K_M
3단계. 대화형으로 바로 실행합니다.
ollama run qwen3.6:35b-a3b-q4_K_M
4단계. API 엔드포인트(http://localhost:11434)를 통해 VS Code Continue, Cursor, Open WebUI 등에 연결하면 실제 업무에 투입할 수 있습니다. ✅ Claude Code 호환 래퍼를 얹으면 에이전틱 코딩도 그대로 활용됩니다.
GGUF 양자화 모델 선택 기준
GGUF 양자화 모델 선택은 "VRAM 용량 ÷ 활용 컨텍스트"를 먼저 따지는 게 정석입니다. 단순히 파일 크기만 보고 고르면 긴 컨텍스트에서 OOM(메모리 부족)이 납니다.
📋 실전 선택 체크리스트입니다.
- 일반 채팅·요약: Q4_K_M이 가성비 최상
- 코드 생성·리팩터링: Q5_K_M 이상 권장. 양자화 손실이 코드 품질에 직격
- 64K~128K 장문 컨텍스트: Q4_K_S + flash-attention으로 KV 캐시 절약
- VRAM 16GB 이하: Q3_K_M 또는 IQ3_XXS, 속도 우선
⚠️ Q2_K는 응답의 일관성이 떨어져 장시간 에이전트 작업에는 비추천입니다.
Qwen vs Llama 3.3 70B 성능 비교
Qwen vs Llama 3.3 70B 성능 비교는 파라미터만 보면 불공정해 보이지만, 실제 벤치마크에서는 이야기가 다릅니다.
| 항목 | Qwen3.6-35B-A3B | Llama 3.3 70B |
|---|---|---|
| SWE-Bench Verified | 38.2% | 약 27% |
| LiveCodeBench | 72.4% | 약 55% |
| AgentBench | 81.7% | 약 68% |
| 처리량 (동일 GPU) | 2.8배 빠름 | 기준 |
| 기본 컨텍스트 | 262K (최대 1M) | 128K |
✅ 코딩·에이전트 작업 중심이라면 Qwen3.6-35B-A3B가 우세합니다. Llama 3.3 70B는 일반 대화의 자연스러움과 한국어 미세 뉘앙스에서 여전히 강점을 가지므로, 용도에 맞게 선택하세요.
실전 운영 팁과 주의사항
Qwen3.6 35B 로컬 구동을 안정적으로 운영하려면 몇 가지 디테일을 챙겨야 합니다.
💡 첫째, 컨텍스트 길이는 필요한 만큼만 설정하세요. Ollama에서 num_ctx를 32768로 두면 일상 코딩에는 충분하고 VRAM도 여유롭습니다.
💡 둘째, 시스템 프롬프트에 역할을 명확히 부여하세요. Qwen3.6은 에이전틱 지시에 매우 민감하게 반응하기 때문에 "reason → plan → act" 패턴을 프롬프트에 넣으면 체감 품질이 크게 올라갑니다.
💡 셋째, 장시간 작업에는 flash-attention 2를 켜세요. 메모리 20% 이상 절약과 속도 개선 효과가 있습니다.
자주 묻는 질문 FAQ
Q. Qwen3.6 35B 로컬 구동에 최소 어떤 GPU가 필요한가요?
VRAM 16GB 이상이면 IQ3 양자화로 구동 가능하고, 실용적으로는 VRAM 24GB의 RTX 3090·4090이 마지노선입니다. 12GB 이하 GPU에서는 7B·14B 계열 모델을 권장합니다.
Q. 한국어 성능은 Llama 계열과 비교해 어떤가요?
Qwen 시리즈는 중국어 외에도 한국어 토큰 비중이 높아 자연스러운 한국어 응답을 제공합니다. 다만 전문 번역·문학 분야 미세 뉘앙스에서는 아직 상용 모델에 미치지 못할 수 있습니다.
Q. 상업적으로 사용해도 되나요?
Qwen3.6은 Apache 2.0 기반의 관대한 라이선스로 공개되어 있어 상업적 이용이 가능합니다. 다만 배포 전 공식 라이선스 조항을 반드시 확인하세요.
Q. Ollama 말고 다른 실행 옵션이 있나요?
llama.cpp, vLLM, LM Studio, text-generation-webui 모두 Qwen3.6 GGUF를 지원합니다. 서버로 대량 요청을 받을 계획이면 vLLM이 가장 효율적입니다.
Qwen3.6 35B 로컬 구동을 실제로 셋업해보셨다면 댓글로 경험을 공유해주세요. 최신 오픈소스 LLM과 에이전틱 코딩 가이드를 꾸준히 업데이트하니, 구독과 공유로 함께해주시면 큰 힘이 됩니다. 🙌