2026 antirez ds4 가 DeepSeek V4 를 Mac 에서 구동: 96/128/512GB 메모리 요건, Metal 추론 벤치, 「구매 vs Mac VPS 임대」 결정 매트릭스
2026 년 5 월, Redis 작자 antirez 가 일주일 만에 ds4 (DwarfStar 4) 를 오픈소스로 공개하면서 DeepSeek V4 Flash 가 Mac 에서 처음으로 실용 속도로 동작했고, GitHub 스타가 며칠 만에 11K 를 돌파했다. 그러나 96GB 입문, 128GB 권장, 512GB 가 있어야 V4-Pro 까지 다루는 메모리 요건은 약 6 백만 원에서 2 천 2 백만 원 사이의 Mac 본체 가격을 모든 개발자 앞에 들이민다. 본문은 ds4 에 끌렸지만 코드와 민감 데이터를 제 3 자 API 에 올리기를 거부하는 독립 개발자와 소규모 팀을 위해, 8 개 장에서 하드웨어 요건, Metal 벤치 매트릭스, 3 자 결정표, 최소 재현 Runbook, FAQ 를 정리하고 「Mac VPS + DeepSeek V4 + ds4」 탄력 컴퓨팅 조합을 제시한다.
목차
- 1. ds4 란 무엇인가
- 2. DeepSeek V4 Flash / V4-Pro 사양과 V3 와의 차이
- 3. 하드웨어 요건의 진실: 96/128/256/512GB 4 단계
- 4. Metal 벤치 매트릭스: MBP M3 Max / Mac Studio Ultra / DGX Spark
- 5. 결정 매트릭스: 최고급 Mac 구매 vs Mac VPS 임대 vs GPU 클라우드
- 6. 왜 Mac 이어야 하는가: UMA, Metal, 디스크 KV 의 대체 불가성
- 7. 최소 재현 Runbook: Mac VPS 에서 5 단계로 ds4 구동
- 8. Mac VPS + ds4: 로컬 추론과 탄력 컴퓨팅의 최적 조합
- 9. FAQ
- 10. 결론
1. ds4 란 무엇인가
2026 년 5 월 Redis 작자 antirez 는 ds4 (DwarfStar 4) 를 공개했다. 순수 C 로 작성된 DeepSeek V4 Flash 전용 로컬 추론 엔진으로, 본선은 Metal 과 CUDA 만 지원한다. 저자는 1 주간 매일 14 시간 작업으로 V4 의 프롬프트 렌더링, KV 상태, Tool Calling, 코딩 에이전트를 단일 바이너리에 모두 담았고, GitHub 스타는 수일 내 11K 를 넘겼다. 「한 번에 한 모델에만 베팅한다」는 설계 덕에 2026 년 시점에 Mac 에서 V4 를 돌릴 수 있는 사실상 유일한 엔진이 되었다 — 작성 시점에 llama.cpp 와 LM Studio 모두 V4 아키텍처를 지원하지 않는다.
2. DeepSeek V4 Flash / V4-Pro 사양과 V3 와의 차이
DeepSeek 은 2026-04-24 에 V4 시리즈 두 가지를 동시에 공개했다 (MIT 라이선스, 1M 토큰 컨텍스트):
| 사양 | V4 Flash | V4-Pro |
|---|---|---|
| 총 파라미터 | 284B (MoE) | 1.6T (MoE) |
| 토큰당 활성 | 13B | 49B |
| 컨텍스트 윈도우 | 1,000,000 tokens | 1,000,000 tokens |
| 최대 출력 | 384,000 tokens | 384,000 tokens |
| 가중치 크기 | 약 160 GB (FP4 + FP8 혼합) | 약 865 GB (FP4 + FP8 혼합) |
| 라이선스 | MIT | MIT |
| 로컬 가동성 | 소비자급 Mac 가능 | 512GB Mac Studio 또는 멀티 GPU 서버만 |
V3.x 에서 「thinking / non-thinking」 모델을 별도 ID 로 나눴던 것과 달리 V4 는 reasoning effort 를 요청 파라미터 (non-thinking / thinking / max-thinking) 로 통합했다. 추론 엔진 입장에서는 가중치를 한 번만 로드해 KV 를 전 모드에서 재사용할 수 있다. Flash 의 13B 활성 파라미터가 Mac 에서 동작 가능한 결정타다 — MoE 라우팅 후 토큰당 계산량은 dense 13B 수준으로 dense 30B 보다 훨씬 가볍다.
3. 하드웨어 요건의 진실: 96/128/256/512GB
「ds4 는 96GB 면 된다」고 단순화한 글이 많지만 KV 캐시와 컨텍스트도 메모리를 먹는다. ds4 README 와 커뮤니티 실측을 결합한 현실:
| 메모리 | 모델 | 양자화 | 컨텍스트 상한 | 대표 기종 | 참고 가격 |
|---|---|---|---|---|---|
| 96 GB | V4 Flash | q2 | ~100k tokens | MacBook Pro M3/M4 Max | 약 6 백만원~ |
| 128 GB | V4 Flash | q2 권장 | ~250–300k tokens | MacBook Pro / Mac Studio Max | 약 8 백만원~ |
| 256 GB | V4 Flash | q4 고품질 | 500k+ tokens | Mac Studio M3/M4 Ultra | 약 1.2 천만원~ |
| 512 GB | V4 Flash + V4-Pro q2 | q4 / q2-Pro | 거의 1M tokens | Mac Studio M3 Ultra 최상위 | 약 2.2 천만원~ |
q2 가중치만 81GB, OS 와 Metal 버퍼를 빼면 96GB 머신의 KV 여유는 15GB 미만. 1M 토큰 KV 캐시는 약 26GB 필요하므로 96GB 실용 상한은 100k 토큰 부근이고 긴 대화는 페이징 또는 OOM 을 유발한다. 128GB 가 「고민 없이 동작」 하한, 512GB 가 V4 를 프로덕션 추론 인프라로 다룰 수 있는 유일한 구성이다.
4. Metal 벤치 매트릭스
ds4 저장소에 공개된 공식 벤치 (짧은 프롬프트와 ~11K–12K 토큰 긴 프롬프트 포함):
| 머신 | 양자화 | Prompt 길이 | Prefill | Generation |
|---|---|---|---|---|
| MacBook Pro M3 Max, 128GB | q2 | short | 58.52 t/s | 26.68 t/s |
| MacBook Pro M3 Max, 128GB | q2 | 11,709 tokens | 250.11 t/s | 21.47 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | short | 84.43 t/s | 36.86 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | 11,709 tokens | 468.03 t/s | 27.39 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | short | 78.95 t/s | 35.50 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | 12,018 tokens | 448.82 t/s | 26.62 t/s |
| NVIDIA DGX Spark GB10, 128GB | q2 | 7,047 tokens | 343.81 t/s | 13.75 t/s |
결론 세 가지: 긴 프롬프트의 prefill 은 Ultra 가 MBP M3 Max 대비 거의 2 배로 UMA 대역 차이와 일치한다. Ultra 에서 q2 와 q4 의 generation 은 거의 동률 (36.86 vs 35.50 t/s) 이므로 메모리만 충분하면 q4 는 사실상 무료 품질 업그레이드. DGX Spark 는 prefill 이 강하지만 generation 은 13.75 t/s 로 Ultra 의 절반 — CUDA 경로는 아직 다듬어지는 중이고 2026 년 상반기는 Apple Silicon 이 소비자급 V4 추론의 최적 위치를 차지했다.
5. 결정 매트릭스: 최고급 Mac 구매 vs Mac VPS 임대 vs GPU 클라우드
결정을 좌우하는 한 장:
| 축 | 최고급 Mac 구매 | Mac VPS 임대 | Linux GPU 클라우드 |
|---|---|---|---|
| 초기 투자 | 6 백만~2.2 천만원 | 0 원, 월 결제 | 0 원, 시간 결제 |
| 월 비용 (128GB 동등) | 감가 약 25 만~40 만원 | 25 만~70 만원 | H100 1 장당 250 만~500 만원 |
| V4 Flash q2 | 네이티브 Metal | 네이티브 Metal | CUDA 브랜치 필요 |
| V4-Pro | 2.2 천만원 512GB 만 | 512GB 인스턴스로 전환 | 멀티 GPU H200 / B200 |
| 프라이버시 | 최강, 온디바이스 | 강, 전용 인스턴스 | 약, 공유 물리 |
| 탄력성 | 없음, 하드웨어 고정 | 온디맨드 스케일링 | 시간 단위 극탄력 |
| iOS / macOS 툴체인 | 네이티브 | 네이티브 | 미지원 |
| 퇴역 리스크 | 2 년 후 50% 이상 하락 | 없음 | 없음 |
판독: 하루 1–2 시간 추론이면 임대가 구매보다 저렴. 학습이나 장시간 파인튜닝이 필요하면 Mac VPS 를 제어 플레인, 학습 부하를 GPU 클라우드로 위임. 가장 위험한 것은 「중간 단계」 — 1.2 천만원으로 256GB Mac Studio 를 사고 1 년 뒤 V5 와 새 양자화 표준이 나오면 하드웨어 감가가 예상보다 빨라진다.
6. 왜 Mac 이어야 하는가: UMA, Metal, 디스크 KV 의 대체 불가성
세 가지 이유. 첫째, Apple Silicon 의 통합 메모리 아키텍처 (UMA) 는 GPU 가 PCIe 복사 없이 512GB 전체를 직접 어드레싱한다 — 독립 GPU 가 복제할 수 없는 물리적 우위. RTX 5090 의 32GB VRAM 으로는 V4 Flash 의 160GB 가중치조차 담을 수 없고 5090 4 장도 V4-Pro q4 를 담지 못하지만, Mac Studio M3 Ultra 한 대가 160–180W 로 V4-Pro Q4 를 로드한다. 둘째, macOS NVMe SSD 와 ds4 의 디스크 KV 캐시 가 세션 컨텍스트를 완전 영속화해 재기동 시 수 분의 re-prefill 을 없앤다 — GPU 클라우드의 임시 컨테이너로는 사실상 불가능. 셋째, 현재 macOS CPU 경로에는 가상 메모리 커널 버그가 있어 ds4 CPU 백엔드는 호스트를 패닉시킨다 — Metal 가능 고메모리 Mac 만 실용적이다.
7. 최소 재현 Runbook: Mac VPS 에서 5 단계로 ds4 구동
VPSMAC 128GB Mac VPS 에서 0 부터 Cursor 연결까지:
1 단계: clone 후 Metal 바이너리 빌드. Mac VPS 에 SSH, Xcode Command Line Tools 설치 후:
git clone https://github.com/antirez/ds4.git cd ds4 && make # ./ds4 와 ./ds4-server 생성
2 단계: V4 Flash q2 GGUF 다운로드. IQ2XXS-w2Q2K-AProjQ8 등 커뮤니티 권장 양자화는 약 81GB. aria2c -x 16 또는 huggingface-cli download 를 백그라운드로. 3 단계: ds4-server 기동과 KV 영속화 확인:
./ds4-server -m ./ds4flash.gguf --ctx 128000 \
--kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models
4 단계: Cursor / opencode / 자체 Agent 연결. ds4-server 는 OpenAI 호환 /v1/chat/completions 와 Tool Calling 을 제공한다. Cursor 의 OpenAI API base 를 http://your-mac-vps:8080/v1 로 변경하고 안전을 위해 ssh -L 8080:127.0.0.1:8080 로 루프백에 묶는다. 5 단계: launchd 상주와 모니터링. launchd plist 를 ~/Library/LaunchAgents/ 에 두고 KeepAlive 와 로그 경로를 설정, log stream 으로 패닉을 잡고 OpenClaw 게이트웨이의 알림과 연동한다.
8. Mac VPS + ds4: 로컬 추론과 탄력 컴퓨팅의 최적 조합
Linux GPU 클라우드, Docker 컨테이너, Windows AI PC 로 V4 를 돌리는 경로는 각각 실제 문제를 안고 있다. Linux GPU 클라우드는 UMA 가 없어 V4 Flash 동작에 H100/H200 부터 필요하고 월 비용은 동급 메모리 Mac Studio 를 능가하기 쉽다. macOS 의 Docker 는 Apple Virtualization 과 IO 추상화를 우회해야 해 처리량이 떨어진다. Windows 의 RTX 5090 32GB 는 이 모델 크기를 감당할 수 없다. Mac 직접 구매는 하드웨어 고정과 2 년 감가라는 또 다른 벽을 만든다. 「ds4 추론 + iOS 툴체인 + OpenClaw 게이트웨이 + launchd 상주 + 원격 GPU 오케스트레이션」 을 한 SSH 습관으로 관리하고 싶다면 VPSMAC 의 Apple Silicon Mac 클라우드를 임대하는 것이 보통 더 나은 답이다 — 전용 128/256/512GB 인스턴스에서 ds4 를 돌리고 필요하면 메모리 계층을 전환하며, 향후 학습이나 멀티 GPU 추론이 필요해지면 CoreWeave / Lambda / RunPod 에 위임한다 (CoreWeave 결정 매트릭스 참조). Mac VPS 를 제어 플레인으로 유지하면 모든 것을 GPU 노드에 쌓는 것보다 TCO 가 명확히 낮다.
9. FAQ
ds4 와 OpenClaw 는 공존 가능한가요? 완전히 가능. ds4-server 는 기본 8080, OpenClaw Gateway 는 18789 로 충돌하지 않는다. OpenClaw 의 Provider 를 ds4 의 OpenAI 호환 엔드포인트로 향하게 하면 에이전트가 직접 로컬 V4 를 호출해 외부 API 청구를 줄일 수 있다. OpenClaw v2026.5.20 업그레이드 Runbook 참조.
ROCm 과 CUDA 브랜치는 지금 쓸 수 있나요? CUDA 본선은 DGX Spark (GB10) 와 일반 CUDA GPU 를 make cuda-spark 혹은 make cuda-generic 으로 지원. ROCm 은 커뮤니티 유지 브랜치로 시차가 있어 프로덕션에서는 Metal 또는 CUDA 권장. llama.cpp / LM Studio 는 언제 V4 를 지원합니까? 2026 년 5 월 시점에는 미합류. V4 의 커스텀 op 와 reasoning 스케줄링은 이식 비용이 크고 수개월이 더 필요해 보인다. 그때까지 ds4 가 Mac 에서 사실상 유일한 V4 엔진. 온디맨드 과금에서 「잊고 켜둔」 인스턴스를 어떻게 피합니까? launchd 와 「X 시간 무활성 시 알림」 스크립트를 결합하거나 ds4-server 를 유휴 타임아웃으로 종료하게 설정하고 VPSMAC 콘솔의 시간 단위 과금과 결합해 자동 정지한다.
10. 결론
antirez 의 ds4 는 「DeepSeek V4 를 로컬에서 돌린다」 를 이론에서 동작 가능한 엔지니어링으로 끌어올렸다. 그러나 그 경계는 하드웨어 요건 — 96GB 는 입장권, 128GB 가 무난한 하한, 512GB 만이 타협 없는 로컬 추론의 진정한 목표. 최고급 Mac 구매는 1 천만 원대 일회성 지출과 2 년 후 감가라는 두 청구서. Mac VPS 임대는 그 곡선을 평탄화하고 필요할 때 128/256/512GB 인스턴스를 띄우며 V4 Flash 에서 V4-Pro 로 하드웨어 교체 없이 이동하고 학습을 위해 GPU 클라우드와 분업한다 — 2026 년 「ds4 + 로컬 V4 + Apple 툴체인」 의 가장 현실적인 안착 경로다.