



6기가로 30토큰은 대박
6기가로 30Tok/s라니 대단하네요 ㄷㄷ

양자화를 어떻게설정했는지 나오지않네요.
원문은 유료글이라 읽지는 못했는데, 레딧에 비슷한 내용의 글이 있더라고요. 해당 글에선 Ryzen7(8C 16T) + 24GB RAM + 2060 Max-Q 6GB 사양의 랩탑에서 Qwen3.6-35B-A3B-APEX-I-Compact 모델을 llama.cpp로, CPU/GPU 하이브리드로 구동했고, 최고 23Tok/s가 나왔다고 합니다. 배터리 모드에서도 10Tok/s 이상 나왔다고 하네요. 찾아보니 Qwen3.6-35B-A3B-APEX-I-Compact 모델은 혼합 양자화 모델이고 실질적으로는 Q3-Q4정도 수준이라고 하네요.

제가 저모델 양자없이 구동중인데 느려서 고민하던중이었습니다 q4면 빠를수도 있겠네요 양자없이 구동하면 직전세대 gpt급 툴콜링가능합니다