2026 antirez ds4 fait tourner DeepSeek V4 sur Mac : seuils memoire 96/128/512 Go, benchmarks Metal et matrice de decision acheter vs louer un Mac VPS
En mai 2026, le createur de Redis antirez publie ds4 (DwarfStar 4) en une semaine et fait tourner DeepSeek V4 Flash sur Mac a une vitesse exploitable pour la premiere fois ; le projet depasse 11K etoiles GitHub en quelques jours. Mais la pile de seuils memoire 96 Go pour entrer, 128 Go pour etre a l aise, 512 Go pour V4-Pro se traduit par des prix de 4 000 a 14 000 euros qui freinent chaque developpeur independant. Ce guide s adresse aux equipes qui aiment ds4 mais refusent d envoyer leur code ou leurs donnees sensibles a une API tierce : huit sections couvrent seuils materiels, matrice de benchmarks Metal, tableau de decision a trois voies, Runbook reproductible et FAQ. Il debouche sur une combinaison elastique Mac VPS plus DeepSeek V4 plus ds4.
Sommaire
- 1. ds4 : moteur V4 ecrit en une semaine par antirez
- 2. Specifications V4 Flash et V4-Pro et evolutions face a V3
- 3. Realite materielle : 96/128/256/512 Go en parallele
- 4. Matrice de benchmarks Metal : MBP M3 Max, Mac Studio Ultra, DGX Spark
- 5. Matrice de decision : Mac haut de gamme, Mac VPS ou cloud GPU
- 6. Pourquoi un Mac : UMA, Metal et cache KV sur SSD
- 7. Runbook minimal reproductible : ds4 en cinq etapes
- 8. Mac VPS plus ds4 : l inference locale elastique
- 9. FAQ
- 10. Conclusion
1. ds4 : un moteur V4 ecrit en une semaine par antirez
En mai 2026, le createur de Redis antirez publie ds4 (DwarfStar 4), un moteur d inference local en pur C dedie a DeepSeek V4 Flash, ciblant Metal et CUDA. En une semaine de quatorze heures par jour, l auteur assemble V4 prompt rendering, gestion KV, Tool Calling et agent de codage dans un binaire ; 11K etoiles GitHub en quelques jours. Le pari volontairement restreint d un seul modele rend ds4 incontournable sur Mac : ni llama.cpp ni LM Studio ne supportent encore V4.
2. Specifications V4 Flash et V4-Pro et evolutions face a V3
DeepSeek a publie les deux variantes le 24 avril 2026 sous licence MIT, avec une fenetre de contexte de 1 M de tokens :
| Specification | V4 Flash | V4-Pro |
|---|---|---|
| Parametres totaux | 284 G (MoE) | 1,6 T (MoE) |
| Actifs par token | 13 G | 49 G |
| Fenetre de contexte | 1 000 000 tokens | 1 000 000 tokens |
| Sortie maximale | 384 000 tokens | 384 000 tokens |
| Poids sur disque | ~160 Go (FP4 + FP8 mixte) | ~865 Go (FP4 + FP8 mixte) |
| Licence | MIT | MIT |
| Faisabilite locale | Mac grand public haut de gamme | Seulement Mac Studio 512 Go ou serveur multi-GPU |
V4 transforme l effort de raisonnement en parametre de requete (non-thinking, thinking, max-thinking), contrairement a V3 qui le separait en deux IDs ; le moteur ne charge qu une copie des poids et reutilise le KV entre modes. Les 13 milliards de parametres actifs de Flash sont la cle pour Mac : apres routage MoE, le cout par token equivaut a un dense 13 G, bien plus leger qu un dense 30 G.
3. Realite materielle : 96/128/256/512 Go
Le cache KV et le contexte consomment aussi de la memoire. Le vrai panorama, issu du README ds4 et des mesures communautaires :
| Memoire | Modele | Quant | Plafond contexte | Materiel type | Prix de reference |
|---|---|---|---|---|---|
| 96 Go | V4 Flash | q2 | ~100 k tokens | MacBook Pro M3/M4 Max | a partir de 4 000 EUR |
| 128 Go | V4 Flash | q2 recommande | ~250 a 300 k tokens | MacBook Pro / Mac Studio Max | a partir de 5 000 EUR |
| 256 Go | V4 Flash | q4 haute qualite | 500 k+ tokens | Mac Studio M3/M4 Ultra | a partir de 8 000 EUR |
| 512 Go | V4 Flash + V4-Pro q2 | q4 / q2-Pro | presque 1 M tokens | Mac Studio M3 Ultra haut de gamme | a partir de 14 000 EUR |
Les poids q2 pesent 81 Go ; OS et tampons Metal laissent moins de 15 Go pour le KV sur 96 Go. Un cache 1 M tokens demande ~26 Go, donc la fenetre pratique tourne autour de 100 k et toute session plus longue declenche pagination ou OOM. 128 Go est le plancher confortable, 512 Go la seule configuration pour une infrastructure de production V4.
4. Matrice de benchmarks Metal
Chiffres officiels publies dans le depot ds4, couvrant prompt court et long (environ 11 k a 12 k tokens) :
| Machine | Quant | Longueur prompt | Prefill | Generation |
|---|---|---|---|---|
| MacBook Pro M3 Max, 128 Go | q2 | court | 58,52 t/s | 26,68 t/s |
| MacBook Pro M3 Max, 128 Go | q2 | 11 709 tokens | 250,11 t/s | 21,47 t/s |
| Mac Studio M3 Ultra, 512 Go | q2 | court | 84,43 t/s | 36,86 t/s |
| Mac Studio M3 Ultra, 512 Go | q2 | 11 709 tokens | 468,03 t/s | 27,39 t/s |
| Mac Studio M3 Ultra, 512 Go | q4 | court | 78,95 t/s | 35,50 t/s |
| Mac Studio M3 Ultra, 512 Go | q4 | 12 018 tokens | 448,82 t/s | 26,62 t/s |
| NVIDIA DGX Spark GB10, 128 Go | q2 | 7 047 tokens | 343,81 t/s | 13,75 t/s |
Trois conclusions : le Mac Studio Ultra prefille presque deux fois plus vite que le MBP M3 Max sur prompt long (gap UMA) ; q2 et q4 sont a egalite en generation sur Ultra (36,86 vs 35,50 t/s), donc q4 est quasiment gratuit en qualite si la memoire suit ; le DGX Spark prefille fort mais genere a 13,75 t/s, moitie de l Ultra — CUDA encore en chantier, Apple Silicon occupe au S1 2026 la meilleure place grand public pour V4.
5. Matrice de decision : acheter, louer Mac VPS ou cloud GPU
Le tableau decisif :
| Critere | Mac haut de gamme achete | Mac VPS loue | Cloud GPU Linux H100/H200 |
|---|---|---|---|
| Investissement initial | 4 000 a 14 000 EUR | 0 EUR, mensuel | 0 EUR, horaire |
| Cout mensuel (128 Go equiv.) | ~200 a 350 EUR d amortissement | 200 a 550 EUR selon palier | 2 000 a 4 000 EUR par H100 |
| Faire tourner V4 Flash q2 | Metal natif | Metal natif | Branche CUDA requise |
| Faire tourner V4-Pro | Reserve aux 512 Go (14 000 EUR) | Basculer sur 512 Go a la demande | Multi-GPU H200 / B200 |
| Vie privee | Maximale, en local | Forte, instance dediee | Faible, machine partagee |
| Elasticite | Aucune, materiel fige | A la demande | Extreme, horaire |
| Chaine iOS / macOS | Native | Native | Indisponible |
| Risque de retrait | 50 % et plus de decote en 2 ans | Nul | Nul |
Lecture : une ou deux heures d inference par jour, louer revient moins cher qu acheter ; entrainement ou fine-tuning longs, garder le Mac VPS comme plan de controle et pousser l entrainement sur cloud GPU. Le piege le plus coute reste le milieu de gamme : 8 000 EUR pour un Mac Studio 256 Go obsolete un an plus tard avec V5 et de nouvelles quantizations.
6. Pourquoi un Mac : UMA, Metal et cache KV sur SSD
Trois raisons. L architecture memoire unifiee (UMA) d Apple Silicon adresse directement 512 Go depuis le GPU sans PCIe : 32 Go VRAM d une RTX 5090 ne tiennent pas 160 Go V4 Flash, quatre 5090 ne suffisent pas pour V4-Pro q4, un Mac Studio Ultra charge V4-Pro Q4 sous 160-180 W. Le SSD NVMe plus le cache KV sur disque persistent les contextes de session et suppriment les minutes de re-prefill, impossible en conteneur ephemere de cloud GPU. Enfin le chemin CPU macOS contient un bug de memoire virtuelle qui fait paniquer l hote en CPU ds4 — il faut donc un Mac avec memoire confortable et Metal.
7. Runbook minimal reproductible
De zero a la connexion de Cursor sur un Mac VPS VPSMAC 128 Go :
Etape 1 : cloner et compiler les binaires Metal. SSH sur le Mac VPS, installation des Xcode Command Line Tools puis :
git clone https://github.com/antirez/ds4.git cd ds4 && make # produit ./ds4 et ./ds4-server
Etape 2 : telecharger un GGUF V4 Flash q2. Les quants communautaires recommandes (IQ2XXS-w2Q2K-AProjQ8 par exemple) pesent environ 81 Go ; utiliser aria2c -x 16 ou huggingface-cli download en arriere-plan pour ne pas bloquer la session SSH. Etape 3 : lancer ds4-server et verifier le KV sur disque :
./ds4-server -m ./ds4flash.gguf --ctx 128000 \
--kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models
Etape 4 : brancher Cursor, opencode ou son agent. ds4-server expose un endpoint OpenAI compatible /v1/chat/completions avec Tool Calling ; pointer la base API OpenAI de Cursor vers http://your-mac-vps:8080/v1 et utiliser ssh -L 8080:127.0.0.1:8080 pour garder le port sur la boucle locale plutot que sur Internet. Etape 5 : daemoniser avec launchd et superviser. Deposer un plist launchd dans ~/Library/LaunchAgents/ avec KeepAlive et des chemins de log, charger avec launchctl load, brancher log stream pour capter les paniques et integrer le tout dans l alerting OpenClaw existant.
8. Mac VPS plus ds4 : l inference locale elastique
Le cloud GPU Linux, Docker ou PC AI Windows pour V4 ont chacun de vrais defauts : pas d UMA donc H100/H200 obligatoires (cout mensuel superieur a un Mac Studio equivalent), Docker sur macOS perd du debit, RTX 5090 32 Go ne charge meme pas V4 Flash, acheter un Mac fige le materiel pour deux ans de decote. Pour piloter ds4, iOS, OpenClaw, launchd et l orchestration de GPU distants par une seule routine SSH, louer un Mac VPS Apple Silicon chez VPSMAC est le plus souvent la meilleure reponse — ds4 sur instance dediee 128/256/512 Go, bascule a la demande ; pour l entrainement ou le multi-GPU, deleguer a CoreWeave / Lambda / RunPod (matrice CoreWeave) tout en gardant le Mac VPS comme plan de controle. TCO superieur a un noeud GPU unique.
9. FAQ
ds4 peut il cohabiter avec OpenClaw ? Oui. ds4-server ecoute par defaut sur 8080 et la passerelle OpenClaw sur 18789, sans conflit. Pointer le provider OpenClaw vers l endpoint compatible OpenAI de ds4 permet a l agent d appeler V4 en local et supprime la facture d API tierce. Voir Runbook OpenClaw v2026.5.20.
Les branches ROCm et CUDA sont elles exploitables ? La branche principale CUDA supporte DGX Spark (GB10) et les GPU CUDA generiques via make cuda-spark ou make cuda-generic ; ROCm vit dans une branche communautaire, l auteur ne disposant pas de materiel AMD, donc en production privilegier Metal ou CUDA. Quand llama.cpp ou LM Studio supporteront ils V4 ? Aucune fusion en mai 2026 ; V4 utilise des ops personnalisees et un ordonnancement de raisonnement specifiques, et le portage prendra encore plusieurs mois. Jusque la ds4 reste la seule option V4 sur Mac. Comment eviter qu une instance louee tourne inutilement ? Combiner launchd avec un script qui alerte apres X heures sans requete, ou configurer ds4-server pour s arreter sur idle et coupler ce comportement a la facturation horaire de la console VPSMAC pour declencher un arret automatique.
10. Conclusion
ds4 fait passer DeepSeek V4 local du fantasme a un projet d ingenierie reproductible, mais l ingenierie bute sur la memoire : 96 Go ticket d entree, 128 Go plancher confortable, 512 Go seule configuration sans compromis. Acheter un Mac haut de gamme cumule cheque a cinq chiffres et decote cachee. Louer un Mac VPS lisse la courbe, ouvre 128/256/512 Go a la demande, fait passer V4 Flash a V4-Pro sans changer de machine, s associe a un cloud GPU pour l entrainement — chemin le plus realiste en 2026.