Llama.cpp를 이용해서 Qwen3.6-35B-A3B 를 6GB VRAM 에서 돌리다.

원문은 유료글이라 읽지는 못했는데, 레딧에 비슷한 내용의 글이 있더라고요. 해당 글에선 Ryzen7(8C 16T) + 24GB RAM + 2060 Max-Q 6GB 사양의 랩탑에서 Qwen3.6-35B-A3B-APEX-I-Compact 모델을 llama.cpp로, CPU/GPU 하이브리드로 구동했고, 최고 23Tok/s가 나왔다고 합니다. 배터리 모드에서도 10Tok/s 이상 나왔다고 하네요. 찾아보니 Qwen3.6-35B-A3B-APEX-I-Compact 모델은 혼합 양자화 모델이고 실질적으로는 Q3-Q4정도 수준이라고 하네요.