96GB MacBook Pro 에서 정말 ds4 + DeepSeek V4 Flash 가 동작합니까?

동작하지만 대가가 있습니다. q2 양자화 가중치만 약 81GB, OS 와 Metal 버퍼를 빼면 KV 캐시 여유는 15GB 미만입니다. 완전한 1M 토큰 KV 는 약 26GB 가 필요하므로 96GB 머신의 실용 상한은 약 100k 토큰입니다. 저자는 128GB 를 무난한 하한, 512GB Mac Studio Ultra 를 1M 토큰을 완전히 해방하는 구성으로 권장합니다.

ds4 와 llama.cpp / LM Studio / Ollama 의 관계는?

ds4 는 DeepSeek V4 Flash 전용 Metal 추론 엔진이며 범용 GGUF runner 가 아닙니다. 2026 년 5 월 기준 llama.cpp 와 LM Studio 는 모두 V4 아키텍처를 지원하지 않으므로 Mac 에서 V4 를 구동하려면 사실상 ds4 가 유일합니다. Ollama 는 DeepSeek R1 등 구세대 모델은 지원하지만 V4 는 다루지 못합니다.

왜 그냥 Linux GPU 클라우드에서 DeepSeek V4 를 돌리지 않습니까?

가능하지만 V4 Flash 는 160GB, V4-Pro 는 865GB 가중치를 단일 카드에 담으려면 H100/H200/B200 같은 고메모리 카드가 필요하고 월 비용은 동급 메모리 Mac Studio 를 상회하기 쉽습니다. 또한 Linux GPU 클라우드는 Apple Silicon UMA 와 KV 디스크 영속화가 없어 장기 ROI 는 Mac VPS 와 GPU 클라우드 분업이 우세합니다.

2026 antirez ds4 가 DeepSeek V4 를 Mac 에서 구동: 96/128/512GB 메모리 요건, Metal 벤치, Mac VPS 결정 매트릭스

2026 년 5 월, Redis 작자 antirez 가 일주일 만에 ds4 (DwarfStar 4) 를 오픈소스로 공개하면서 DeepSeek V4 Flash 가 Mac 에서 처음으로 실용 속도로 동작했고, GitHub 스타가 며칠 만에 11K 를 돌파했다. 그러나 96GB 입문, 128GB 권장, 512GB 가 있어야 V4-Pro 까지 다루는 메모리 요건은 약 6 백만 원에서 2 천 2 백만 원 사이의 Mac 본체 가격을 모든 개발자 앞에 들이민다. 본문은 ds4 에 끌렸지만 코드와 민감 데이터를 제 3 자 API 에 올리기를 거부하는 독립 개발자와 소규모 팀을 위해, 8 개 장에서 하드웨어 요건, Metal 벤치 매트릭스, 3 자 결정표, 최소 재현 Runbook, FAQ 를 정리하고 「Mac VPS + DeepSeek V4 + ds4」 탄력 컴퓨팅 조합을 제시한다.

1. ds4 란 무엇인가

2026 년 5 월 Redis 작자 antirez 는 ds4 (DwarfStar 4) 를 공개했다. 순수 C 로 작성된 DeepSeek V4 Flash 전용 로컬 추론 엔진으로, 본선은 Metal 과 CUDA 만 지원한다. 저자는 1 주간 매일 14 시간 작업으로 V4 의 프롬프트 렌더링, KV 상태, Tool Calling, 코딩 에이전트를 단일 바이너리에 모두 담았고, GitHub 스타는 수일 내 11K 를 넘겼다. 「한 번에 한 모델에만 베팅한다」는 설계 덕에 2026 년 시점에 Mac 에서 V4 를 돌릴 수 있는 사실상 유일한 엔진이 되었다 — 작성 시점에 llama.cpp 와 LM Studio 모두 V4 아키텍처를 지원하지 않는다.

2. DeepSeek V4 Flash / V4-Pro 사양과 V3 와의 차이

DeepSeek 은 2026-04-24 에 V4 시리즈 두 가지를 동시에 공개했다 (MIT 라이선스, 1M 토큰 컨텍스트):

사양	V4 Flash	V4-Pro
총 파라미터	284B (MoE)	1.6T (MoE)
토큰당 활성	13B	49B
컨텍스트 윈도우	1,000,000 tokens	1,000,000 tokens
최대 출력	384,000 tokens	384,000 tokens
가중치 크기	약 160 GB (FP4 + FP8 혼합)	약 865 GB (FP4 + FP8 혼합)
라이선스	MIT	MIT
로컬 가동성	소비자급 Mac 가능	512GB Mac Studio 또는 멀티 GPU 서버만

V3.x 에서 「thinking / non-thinking」 모델을 별도 ID 로 나눴던 것과 달리 V4 는 reasoning effort 를 요청 파라미터 (non-thinking / thinking / max-thinking) 로 통합했다. 추론 엔진 입장에서는 가중치를 한 번만 로드해 KV 를 전 모드에서 재사용할 수 있다. Flash 의 13B 활성 파라미터가 Mac 에서 동작 가능한 결정타다 — MoE 라우팅 후 토큰당 계산량은 dense 13B 수준으로 dense 30B 보다 훨씬 가볍다.

3. 하드웨어 요건의 진실: 96/128/256/512GB

「ds4 는 96GB 면 된다」고 단순화한 글이 많지만 KV 캐시와 컨텍스트도 메모리를 먹는다. ds4 README 와 커뮤니티 실측을 결합한 현실:

메모리	모델	양자화	컨텍스트 상한	대표 기종	참고 가격
96 GB	V4 Flash	q2	~100k tokens	MacBook Pro M3/M4 Max	약 6 백만원~
128 GB	V4 Flash	q2 권장	~250–300k tokens	MacBook Pro / Mac Studio Max	약 8 백만원~
256 GB	V4 Flash	q4 고품질	500k+ tokens	Mac Studio M3/M4 Ultra	약 1.2 천만원~
512 GB	V4 Flash + V4-Pro q2	q4 / q2-Pro	거의 1M tokens	Mac Studio M3 Ultra 최상위	약 2.2 천만원~

q2 가중치만 81GB, OS 와 Metal 버퍼를 빼면 96GB 머신의 KV 여유는 15GB 미만. 1M 토큰 KV 캐시는 약 26GB 필요하므로 96GB 실용 상한은 100k 토큰 부근이고 긴 대화는 페이징 또는 OOM 을 유발한다. 128GB 가 「고민 없이 동작」 하한, 512GB 가 V4 를 프로덕션 추론 인프라로 다룰 수 있는 유일한 구성이다.

4. Metal 벤치 매트릭스

ds4 저장소에 공개된 공식 벤치 (짧은 프롬프트와 ~11K–12K 토큰 긴 프롬프트 포함):

머신	양자화	Prompt 길이	Prefill	Generation
MacBook Pro M3 Max, 128GB	q2	short	58.52 t/s	26.68 t/s
MacBook Pro M3 Max, 128GB	q2	11,709 tokens	250.11 t/s	21.47 t/s
Mac Studio M3 Ultra, 512GB	q2	short	84.43 t/s	36.86 t/s
Mac Studio M3 Ultra, 512GB	q2	11,709 tokens	468.03 t/s	27.39 t/s
Mac Studio M3 Ultra, 512GB	q4	short	78.95 t/s	35.50 t/s
Mac Studio M3 Ultra, 512GB	q4	12,018 tokens	448.82 t/s	26.62 t/s
NVIDIA DGX Spark GB10, 128GB	q2	7,047 tokens	343.81 t/s	13.75 t/s

결론 세 가지: 긴 프롬프트의 prefill 은 Ultra 가 MBP M3 Max 대비 거의 2 배로 UMA 대역 차이와 일치한다. Ultra 에서 q2 와 q4 의 generation 은 거의 동률 (36.86 vs 35.50 t/s) 이므로 메모리만 충분하면 q4 는 사실상 무료 품질 업그레이드. DGX Spark 는 prefill 이 강하지만 generation 은 13.75 t/s 로 Ultra 의 절반 — CUDA 경로는 아직 다듬어지는 중이고 2026 년 상반기는 Apple Silicon 이 소비자급 V4 추론의 최적 위치를 차지했다.

5. 결정 매트릭스: 최고급 Mac 구매 vs Mac VPS 임대 vs GPU 클라우드

결정을 좌우하는 한 장:

축	최고급 Mac 구매	Mac VPS 임대	Linux GPU 클라우드
초기 투자	6 백만~2.2 천만원	0 원, 월 결제	0 원, 시간 결제
월 비용 (128GB 동등)	감가 약 25 만~40 만원	25 만~70 만원	H100 1 장당 250 만~500 만원
V4 Flash q2	네이티브 Metal	네이티브 Metal	CUDA 브랜치 필요
V4-Pro	2.2 천만원 512GB 만	512GB 인스턴스로 전환	멀티 GPU H200 / B200
프라이버시	최강, 온디바이스	강, 전용 인스턴스	약, 공유 물리
탄력성	없음, 하드웨어 고정	온디맨드 스케일링	시간 단위 극탄력
iOS / macOS 툴체인	네이티브	네이티브	미지원
퇴역 리스크	2 년 후 50% 이상 하락	없음	없음

판독: 하루 1–2 시간 추론이면 임대가 구매보다 저렴. 학습이나 장시간 파인튜닝이 필요하면 Mac VPS 를 제어 플레인, 학습 부하를 GPU 클라우드로 위임. 가장 위험한 것은 「중간 단계」 — 1.2 천만원으로 256GB Mac Studio 를 사고 1 년 뒤 V5 와 새 양자화 표준이 나오면 하드웨어 감가가 예상보다 빨라진다.

6. 왜 Mac 이어야 하는가: UMA, Metal, 디스크 KV 의 대체 불가성

세 가지 이유. 첫째, Apple Silicon 의 통합 메모리 아키텍처 (UMA) 는 GPU 가 PCIe 복사 없이 512GB 전체를 직접 어드레싱한다 — 독립 GPU 가 복제할 수 없는 물리적 우위. RTX 5090 의 32GB VRAM 으로는 V4 Flash 의 160GB 가중치조차 담을 수 없고 5090 4 장도 V4-Pro q4 를 담지 못하지만, Mac Studio M3 Ultra 한 대가 160–180W 로 V4-Pro Q4 를 로드한다. 둘째, macOS NVMe SSD 와 ds4 의 디스크 KV 캐시 가 세션 컨텍스트를 완전 영속화해 재기동 시 수 분의 re-prefill 을 없앤다 — GPU 클라우드의 임시 컨테이너로는 사실상 불가능. 셋째, 현재 macOS CPU 경로에는 가상 메모리 커널 버그가 있어 ds4 CPU 백엔드는 호스트를 패닉시킨다 — Metal 가능 고메모리 Mac 만 실용적이다.

7. 최소 재현 Runbook: Mac VPS 에서 5 단계로 ds4 구동

VPSMAC 128GB Mac VPS 에서 0 부터 Cursor 연결까지:

1 단계: clone 후 Metal 바이너리 빌드. Mac VPS 에 SSH, Xcode Command Line Tools 설치 후:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # ./ds4 와 ./ds4-server 생성

2 단계: V4 Flash q2 GGUF 다운로드. IQ2XXS-w2Q2K-AProjQ8 등 커뮤니티 권장 양자화는 약 81GB. aria2c -x 16 또는 huggingface-cli download 를 백그라운드로. 3 단계: ds4-server 기동과 KV 영속화 확인:

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

4 단계: Cursor / opencode / 자체 Agent 연결. ds4-server 는 OpenAI 호환 /v1/chat/completions 와 Tool Calling 을 제공한다. Cursor 의 OpenAI API base 를 http://your-mac-vps:8080/v1 로 변경하고 안전을 위해 ssh -L 8080:127.0.0.1:8080 로 루프백에 묶는다. 5 단계: launchd 상주와 모니터링. launchd plist 를 ~/Library/LaunchAgents/ 에 두고 KeepAlive 와 로그 경로를 설정, log stream 으로 패닉을 잡고 OpenClaw 게이트웨이의 알림과 연동한다.

8. Mac VPS + ds4: 로컬 추론과 탄력 컴퓨팅의 최적 조합

Linux GPU 클라우드, Docker 컨테이너, Windows AI PC 로 V4 를 돌리는 경로는 각각 실제 문제를 안고 있다. Linux GPU 클라우드는 UMA 가 없어 V4 Flash 동작에 H100/H200 부터 필요하고 월 비용은 동급 메모리 Mac Studio 를 능가하기 쉽다. macOS 의 Docker 는 Apple Virtualization 과 IO 추상화를 우회해야 해 처리량이 떨어진다. Windows 의 RTX 5090 32GB 는 이 모델 크기를 감당할 수 없다. Mac 직접 구매는 하드웨어 고정과 2 년 감가라는 또 다른 벽을 만든다. 「ds4 추론 + iOS 툴체인 + OpenClaw 게이트웨이 + launchd 상주 + 원격 GPU 오케스트레이션」 을 한 SSH 습관으로 관리하고 싶다면 VPSMAC 의 Apple Silicon Mac 클라우드를 임대하는 것이 보통 더 나은 답이다 — 전용 128/256/512GB 인스턴스에서 ds4 를 돌리고 필요하면 메모리 계층을 전환하며, 향후 학습이나 멀티 GPU 추론이 필요해지면 CoreWeave / Lambda / RunPod 에 위임한다 (CoreWeave 결정 매트릭스 참조). Mac VPS 를 제어 플레인으로 유지하면 모든 것을 GPU 노드에 쌓는 것보다 TCO 가 명확히 낮다.

9. FAQ

ds4 와 OpenClaw 는 공존 가능한가요? 완전히 가능. ds4-server 는 기본 8080, OpenClaw Gateway 는 18789 로 충돌하지 않는다. OpenClaw 의 Provider 를 ds4 의 OpenAI 호환 엔드포인트로 향하게 하면 에이전트가 직접 로컬 V4 를 호출해 외부 API 청구를 줄일 수 있다. OpenClaw v2026.5.20 업그레이드 Runbook 참조.

ROCm 과 CUDA 브랜치는 지금 쓸 수 있나요? CUDA 본선은 DGX Spark (GB10) 와 일반 CUDA GPU 를 make cuda-spark 혹은 make cuda-generic 으로 지원. ROCm 은 커뮤니티 유지 브랜치로 시차가 있어 프로덕션에서는 Metal 또는 CUDA 권장. llama.cpp / LM Studio 는 언제 V4 를 지원합니까? 2026 년 5 월 시점에는 미합류. V4 의 커스텀 op 와 reasoning 스케줄링은 이식 비용이 크고 수개월이 더 필요해 보인다. 그때까지 ds4 가 Mac 에서 사실상 유일한 V4 엔진. 온디맨드 과금에서 「잊고 켜둔」 인스턴스를 어떻게 피합니까? launchd 와 「X 시간 무활성 시 알림」 스크립트를 결합하거나 ds4-server 를 유휴 타임아웃으로 종료하게 설정하고 VPSMAC 콘솔의 시간 단위 과금과 결합해 자동 정지한다.

10. 결론

antirez 의 ds4 는 「DeepSeek V4 를 로컬에서 돌린다」 를 이론에서 동작 가능한 엔지니어링으로 끌어올렸다. 그러나 그 경계는 하드웨어 요건 — 96GB 는 입장권, 128GB 가 무난한 하한, 512GB 만이 타협 없는 로컬 추론의 진정한 목표. 최고급 Mac 구매는 1 천만 원대 일회성 지출과 2 년 후 감가라는 두 청구서. Mac VPS 임대는 그 곡선을 평탄화하고 필요할 때 128/256/512GB 인스턴스를 띄우며 V4 Flash 에서 V4-Pro 로 하드웨어 교체 없이 이동하고 학습을 위해 GPU 클라우드와 분업한다 — 2026 년 「ds4 + 로컬 V4 + Apple 툴체인」 의 가장 현실적인 안착 경로다.

2026 antirez ds4 가 DeepSeek V4 를 Mac 에서 구동: 96/128/512GB 메모리 요건, Metal 추론 벤치, 「구매 vs Mac VPS 임대」 결정 매트릭스

목차