Un MacBook Pro 96 Go fait il vraiment tourner ds4 et DeepSeek V4 Flash ?

Oui, mais avec des reserves. Les poids quantises en q2 pesent environ 81 Go ; apres le systeme et les tampons Metal il reste moins de 15 Go pour le cache KV. Un cache KV complet sur 1 M de tokens demande environ 26 Go, donc sur 96 Go la fenetre pratique tourne autour de 100 k tokens. L auteur recommande 128 Go comme plancher confortable et un Mac Studio Ultra 512 Go pour debrider la fenetre 1 M de tokens.

Quelle est la place de ds4 face a llama.cpp, LM Studio ou Ollama ?

ds4 est un moteur d inference Metal dedie a DeepSeek V4 Flash, pas un runner GGUF generique. En mai 2026 ni llama.cpp ni LM Studio ne prennent en charge V4, donc sur Mac ds4 est quasiment la seule option viable pour V4. Ollama gere DeepSeek R1 et les modeles plus anciens mais pas V4.

Pourquoi ne pas simplement louer du cloud GPU Linux pour DeepSeek V4 ?

C est possible mais V4 Flash pese 160 Go et V4-Pro 865 Go ; tenir le modele sur une carte impose H100, H200 ou B200 a forte memoire dont le cout mensuel depasse souvent un Mac Studio a memoire equivalente. Les clouds GPU Linux ne fournissent pas d UMA ni de cache KV sur disque ni de chaine d outils iOS native, ce qui rend le duo Mac VPS plus cloud GPU plus rentable a moyen terme.

2026 antirez ds4 fait tourner DeepSeek V4 sur Mac : seuils memoire 96/128/512 Go, benchmarks Metal et matrice de decision Mac VPS

En mai 2026, le createur de Redis antirez publie ds4 (DwarfStar 4) en une semaine et fait tourner DeepSeek V4 Flash sur Mac a une vitesse exploitable pour la premiere fois ; le projet depasse 11K etoiles GitHub en quelques jours. Mais la pile de seuils memoire 96 Go pour entrer, 128 Go pour etre a l aise, 512 Go pour V4-Pro se traduit par des prix de 4 000 a 14 000 euros qui freinent chaque developpeur independant. Ce guide s adresse aux equipes qui aiment ds4 mais refusent d envoyer leur code ou leurs donnees sensibles a une API tierce : huit sections couvrent seuils materiels, matrice de benchmarks Metal, tableau de decision a trois voies, Runbook reproductible et FAQ. Il debouche sur une combinaison elastique Mac VPS plus DeepSeek V4 plus ds4.

1. ds4 : un moteur V4 ecrit en une semaine par antirez

En mai 2026, le createur de Redis antirez publie ds4 (DwarfStar 4), un moteur d inference local en pur C dedie a DeepSeek V4 Flash, ciblant Metal et CUDA. En une semaine de quatorze heures par jour, l auteur assemble V4 prompt rendering, gestion KV, Tool Calling et agent de codage dans un binaire ; 11K etoiles GitHub en quelques jours. Le pari volontairement restreint d un seul modele rend ds4 incontournable sur Mac : ni llama.cpp ni LM Studio ne supportent encore V4.

2. Specifications V4 Flash et V4-Pro et evolutions face a V3

DeepSeek a publie les deux variantes le 24 avril 2026 sous licence MIT, avec une fenetre de contexte de 1 M de tokens :

Specification	V4 Flash	V4-Pro
Parametres totaux	284 G (MoE)	1,6 T (MoE)
Actifs par token	13 G	49 G
Fenetre de contexte	1 000 000 tokens	1 000 000 tokens
Sortie maximale	384 000 tokens	384 000 tokens
Poids sur disque	~160 Go (FP4 + FP8 mixte)	~865 Go (FP4 + FP8 mixte)
Licence	MIT	MIT
Faisabilite locale	Mac grand public haut de gamme	Seulement Mac Studio 512 Go ou serveur multi-GPU

V4 transforme l effort de raisonnement en parametre de requete (non-thinking, thinking, max-thinking), contrairement a V3 qui le separait en deux IDs ; le moteur ne charge qu une copie des poids et reutilise le KV entre modes. Les 13 milliards de parametres actifs de Flash sont la cle pour Mac : apres routage MoE, le cout par token equivaut a un dense 13 G, bien plus leger qu un dense 30 G.

3. Realite materielle : 96/128/256/512 Go

Le cache KV et le contexte consomment aussi de la memoire. Le vrai panorama, issu du README ds4 et des mesures communautaires :

Memoire	Modele	Quant	Plafond contexte	Materiel type	Prix de reference
96 Go	V4 Flash	q2	~100 k tokens	MacBook Pro M3/M4 Max	a partir de 4 000 EUR
128 Go	V4 Flash	q2 recommande	~250 a 300 k tokens	MacBook Pro / Mac Studio Max	a partir de 5 000 EUR
256 Go	V4 Flash	q4 haute qualite	500 k+ tokens	Mac Studio M3/M4 Ultra	a partir de 8 000 EUR
512 Go	V4 Flash + V4-Pro q2	q4 / q2-Pro	presque 1 M tokens	Mac Studio M3 Ultra haut de gamme	a partir de 14 000 EUR

Les poids q2 pesent 81 Go ; OS et tampons Metal laissent moins de 15 Go pour le KV sur 96 Go. Un cache 1 M tokens demande ~26 Go, donc la fenetre pratique tourne autour de 100 k et toute session plus longue declenche pagination ou OOM. 128 Go est le plancher confortable, 512 Go la seule configuration pour une infrastructure de production V4.

4. Matrice de benchmarks Metal

Chiffres officiels publies dans le depot ds4, couvrant prompt court et long (environ 11 k a 12 k tokens) :

Machine	Quant	Longueur prompt	Prefill	Generation
MacBook Pro M3 Max, 128 Go	q2	court	58,52 t/s	26,68 t/s
MacBook Pro M3 Max, 128 Go	q2	11 709 tokens	250,11 t/s	21,47 t/s
Mac Studio M3 Ultra, 512 Go	q2	court	84,43 t/s	36,86 t/s
Mac Studio M3 Ultra, 512 Go	q2	11 709 tokens	468,03 t/s	27,39 t/s
Mac Studio M3 Ultra, 512 Go	q4	court	78,95 t/s	35,50 t/s
Mac Studio M3 Ultra, 512 Go	q4	12 018 tokens	448,82 t/s	26,62 t/s
NVIDIA DGX Spark GB10, 128 Go	q2	7 047 tokens	343,81 t/s	13,75 t/s

Trois conclusions : le Mac Studio Ultra prefille presque deux fois plus vite que le MBP M3 Max sur prompt long (gap UMA) ; q2 et q4 sont a egalite en generation sur Ultra (36,86 vs 35,50 t/s), donc q4 est quasiment gratuit en qualite si la memoire suit ; le DGX Spark prefille fort mais genere a 13,75 t/s, moitie de l Ultra — CUDA encore en chantier, Apple Silicon occupe au S1 2026 la meilleure place grand public pour V4.

5. Matrice de decision : acheter, louer Mac VPS ou cloud GPU

Le tableau decisif :

Critere	Mac haut de gamme achete	Mac VPS loue	Cloud GPU Linux H100/H200
Investissement initial	4 000 a 14 000 EUR	0 EUR, mensuel	0 EUR, horaire
Cout mensuel (128 Go equiv.)	~200 a 350 EUR d amortissement	200 a 550 EUR selon palier	2 000 a 4 000 EUR par H100
Faire tourner V4 Flash q2	Metal natif	Metal natif	Branche CUDA requise
Faire tourner V4-Pro	Reserve aux 512 Go (14 000 EUR)	Basculer sur 512 Go a la demande	Multi-GPU H200 / B200
Vie privee	Maximale, en local	Forte, instance dediee	Faible, machine partagee
Elasticite	Aucune, materiel fige	A la demande	Extreme, horaire
Chaine iOS / macOS	Native	Native	Indisponible
Risque de retrait	50 % et plus de decote en 2 ans	Nul	Nul

Lecture : une ou deux heures d inference par jour, louer revient moins cher qu acheter ; entrainement ou fine-tuning longs, garder le Mac VPS comme plan de controle et pousser l entrainement sur cloud GPU. Le piege le plus coute reste le milieu de gamme : 8 000 EUR pour un Mac Studio 256 Go obsolete un an plus tard avec V5 et de nouvelles quantizations.

6. Pourquoi un Mac : UMA, Metal et cache KV sur SSD

Trois raisons. L architecture memoire unifiee (UMA) d Apple Silicon adresse directement 512 Go depuis le GPU sans PCIe : 32 Go VRAM d une RTX 5090 ne tiennent pas 160 Go V4 Flash, quatre 5090 ne suffisent pas pour V4-Pro q4, un Mac Studio Ultra charge V4-Pro Q4 sous 160-180 W. Le SSD NVMe plus le cache KV sur disque persistent les contextes de session et suppriment les minutes de re-prefill, impossible en conteneur ephemere de cloud GPU. Enfin le chemin CPU macOS contient un bug de memoire virtuelle qui fait paniquer l hote en CPU ds4 — il faut donc un Mac avec memoire confortable et Metal.

7. Runbook minimal reproductible

De zero a la connexion de Cursor sur un Mac VPS VPSMAC 128 Go :

Etape 1 : cloner et compiler les binaires Metal. SSH sur le Mac VPS, installation des Xcode Command Line Tools puis :

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # produit ./ds4 et ./ds4-server

Etape 2 : telecharger un GGUF V4 Flash q2. Les quants communautaires recommandes (IQ2XXS-w2Q2K-AProjQ8 par exemple) pesent environ 81 Go ; utiliser aria2c -x 16 ou huggingface-cli download en arriere-plan pour ne pas bloquer la session SSH. Etape 3 : lancer ds4-server et verifier le KV sur disque :

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

Etape 4 : brancher Cursor, opencode ou son agent. ds4-server expose un endpoint OpenAI compatible /v1/chat/completions avec Tool Calling ; pointer la base API OpenAI de Cursor vers http://your-mac-vps:8080/v1 et utiliser ssh -L 8080:127.0.0.1:8080 pour garder le port sur la boucle locale plutot que sur Internet. Etape 5 : daemoniser avec launchd et superviser. Deposer un plist launchd dans ~/Library/LaunchAgents/ avec KeepAlive et des chemins de log, charger avec launchctl load, brancher log stream pour capter les paniques et integrer le tout dans l alerting OpenClaw existant.

8. Mac VPS plus ds4 : l inference locale elastique

Le cloud GPU Linux, Docker ou PC AI Windows pour V4 ont chacun de vrais defauts : pas d UMA donc H100/H200 obligatoires (cout mensuel superieur a un Mac Studio equivalent), Docker sur macOS perd du debit, RTX 5090 32 Go ne charge meme pas V4 Flash, acheter un Mac fige le materiel pour deux ans de decote. Pour piloter ds4, iOS, OpenClaw, launchd et l orchestration de GPU distants par une seule routine SSH, louer un Mac VPS Apple Silicon chez VPSMAC est le plus souvent la meilleure reponse — ds4 sur instance dediee 128/256/512 Go, bascule a la demande ; pour l entrainement ou le multi-GPU, deleguer a CoreWeave / Lambda / RunPod (matrice CoreWeave) tout en gardant le Mac VPS comme plan de controle. TCO superieur a un noeud GPU unique.

9. FAQ

ds4 peut il cohabiter avec OpenClaw ? Oui. ds4-server ecoute par defaut sur 8080 et la passerelle OpenClaw sur 18789, sans conflit. Pointer le provider OpenClaw vers l endpoint compatible OpenAI de ds4 permet a l agent d appeler V4 en local et supprime la facture d API tierce. Voir Runbook OpenClaw v2026.5.20.

Les branches ROCm et CUDA sont elles exploitables ? La branche principale CUDA supporte DGX Spark (GB10) et les GPU CUDA generiques via make cuda-spark ou make cuda-generic ; ROCm vit dans une branche communautaire, l auteur ne disposant pas de materiel AMD, donc en production privilegier Metal ou CUDA. Quand llama.cpp ou LM Studio supporteront ils V4 ? Aucune fusion en mai 2026 ; V4 utilise des ops personnalisees et un ordonnancement de raisonnement specifiques, et le portage prendra encore plusieurs mois. Jusque la ds4 reste la seule option V4 sur Mac. Comment eviter qu une instance louee tourne inutilement ? Combiner launchd avec un script qui alerte apres X heures sans requete, ou configurer ds4-server pour s arreter sur idle et coupler ce comportement a la facturation horaire de la console VPSMAC pour declencher un arret automatique.

10. Conclusion

ds4 fait passer DeepSeek V4 local du fantasme a un projet d ingenierie reproductible, mais l ingenierie bute sur la memoire : 96 Go ticket d entree, 128 Go plancher confortable, 512 Go seule configuration sans compromis. Acheter un Mac haut de gamme cumule cheque a cinq chiffres et decote cachee. Louer un Mac VPS lisse la courbe, ouvre 128/256/512 Go a la demande, fait passer V4 Flash a V4-Pro sans changer de machine, s associe a un cloud GPU pour l entrainement — chemin le plus realiste en 2026.

2026 antirez ds4 fait tourner DeepSeek V4 sur Mac : seuils memoire 96/128/512 Go, benchmarks Metal et matrice de decision acheter vs louer un Mac VPS

Sommaire