2026 antirez ds4 запускает DeepSeek V4 на Mac: пороги памяти 96/128/512 ГБ, бенчмарки Metal и матрица решений купить vs арендовать Mac VPS

В мае 2026 создатель Redis antirez выпустил ds4 (DwarfStar 4) за неделю и впервые запустил DeepSeek V4 Flash на Mac с практичной скоростью; за несколько дней проект набрал свыше 11 K звёзд на GitHub. Однако лестница порогов памяти 96 ГБ для входа, 128 ГБ для комфорта и 512 ГБ для V4-Pro превращается в цены 4 000–14 000 долларов и встаёт стеной перед каждым независимым разработчиком. Этот гид написан для разработчиков и небольших команд, которых привлёк ds4, но которые отказываются отправлять код и приватные данные в чужие API: восемь разделов охватывают пороги железа, матрицу бенчмарков Metal, трёхвариантную таблицу решений, воспроизводимый Runbook и FAQ. Завершается он гибкой связкой Mac VPS + DeepSeek V4 + ds4.

Иллюстрация движка вывода ds4, запускающего DeepSeek V4 Flash на Apple Silicon Mac и Mac VPS, с архитектурой унифицированной памяти и арендуемыми Mac-облачными узлами

Содержание

1. Что такое ds4: V4-движок antirez за одну неделю

В мае 2026 создатель Redis antirez выпустил ds4 (DwarfStar 4) — движок локального вывода на чистом C, заточенный под DeepSeek V4 Flash; основная ветка поддерживает только Metal и CUDA. За неделю по четырнадцать часов в день автор собрал в один бинарник рендеринг V4-промпта, KV-состояние, Tool Calling и встроенный кодинг-агент; за несколько дней проект собрал свыше 11 K звёзд. Установка «одна модель за раз» делает ds4 практически безальтернативным на Mac: ни llama.cpp, ни LM Studio в мае 2026 не поддерживают V4.

2. Спецификации DeepSeek V4 Flash и V4-Pro

DeepSeek выпустил обе вариации V4 24 апреля 2026 под лицензией MIT с окном контекста 1 М токенов:

ПараметрV4 FlashV4-Pro
Всего параметров284 Г (MoE)1,6 Т (MoE)
Активных на токен13 Г49 Г
Окно контекста1 000 000 токенов1 000 000 токенов
Макс. вывод384 000 токенов384 000 токенов
Размер весов~160 ГБ (FP4 + FP8)~865 ГБ (FP4 + FP8)
ЛицензияMITMIT
ЛокальноТоп потребительский MacТолько 512 ГБ Mac Studio или мульти-GPU сервер

В отличие от V3, где режимы thinking и non-thinking жили под разными ID, V4 делает усилие рассуждения параметром запроса (non-thinking, thinking, max-thinking); движок загружает один комплект весов и переиспользует KV между режимами. 13 Г активных параметров Flash — ключ для Mac: после MoE-маршрутизации стоимость токена сравнима с плотной 13 Г моделью и существенно ниже плотной 30 Г.

3. Реальные пороги железа: 96/128/256/512 ГБ

Многие статьи пишут «нужно 96 ГБ» и забывают, что KV-кэш и контекст тоже едят память. Реальная картина из README ds4 и замеров сообщества:

ПамятьМодельКвантЛимит контекстаТипичное железоЦена
96 ГБV4 Flashq2~100 k токеновMacBook Pro M3/M4 Maxот 4 000 $
128 ГБV4 Flashq2 рекоменд.~250–300 k токеновMacBook Pro / Mac Studio Maxот 5 000 $
256 ГБV4 Flashq4 высокое качество500 k+ токеновMac Studio M3/M4 Ultraот 8 000 $
512 ГБV4 Flash + V4-Pro q2q4 / q2-Proпочти 1 М токеновMac Studio M3 Ultra топот 14 000 $

Веса q2 занимают 81 ГБ; ОС и буферы Metal оставляют на 96 ГБ менее 15 ГБ для KV. Полный KV на 1 М токенов требует около 26 ГБ, поэтому практическое окно на 96 ГБ — около 100 k, а длинные сессии уходят в пейджинг или OOM. 128 ГБ — безболезненный минимум, 512 ГБ — единственная конфигурация, в которой V4 становится производственной инфраструктурой вывода.

4. Матрица бенчмарков Metal

Официальные цифры из репозитория ds4 (короткие и длинные ~11–12 k токенов промпты):

МашинаКвантДлина промптаPrefillGeneration
MacBook Pro M3 Max, 128 ГБq2короткий58,52 t/s26,68 t/s
MacBook Pro M3 Max, 128 ГБq211 709 токенов250,11 t/s21,47 t/s
Mac Studio M3 Ultra, 512 ГБq2короткий84,43 t/s36,86 t/s
Mac Studio M3 Ultra, 512 ГБq211 709 токенов468,03 t/s27,39 t/s
Mac Studio M3 Ultra, 512 ГБq4короткий78,95 t/s35,50 t/s
Mac Studio M3 Ultra, 512 ГБq412 018 токенов448,82 t/s26,62 t/s
NVIDIA DGX Spark GB10, 128 ГБq27 047 токенов343,81 t/s13,75 t/s

Три вывода: длинный prefill у Mac Studio Ultra почти вдвое быстрее MBP M3 Max — соответствует разнице пропускной способности UMA; на Ultra q2 и q4 сравнялись по генерации (36,86 vs 35,50 t/s) — при достаточной памяти q4 даёт качество почти бесплатно; DGX Spark силён в prefill, но генерирует лишь 13,75 t/s — половина Ultra. CUDA-путь ещё дорабатывается, а Apple Silicon в первом полугодии 2026 неожиданно занимает лучшее место для V4 на потребительском железе.

5. Матрица решений

Решающая таблица:

ПараметрКупить топ-MacАрендовать Mac VPSLinux GPU облако
Начальные инвестиции4 000–14 000 $0, помесячно0, почасово
Месяц (128 ГБ экв.)~200–350 $ амортизация200–550 $2 000–4 000 $ за H100
V4 Flash q2Нативный MetalНативный MetalНужна CUDA-ветка
V4-ProТолько 14 000 $ 512 ГБПереключиться на 512 ГБМульти-GPU H200 / B200
ПриватностьМаксимум, на устройствеСильно, выделенный инстансСлабее, общая машина
ЭластичностьНет, железо зафиксированоМасштабированиеПочасово, очень гибко
iOS / macOSНативноНативноНе поддерживается
Риск устаревания−50 %+ за 2 годаНетНет

Прочтение: 1–2 часа вывода в день — Mac VPS дешевле, чем покупка. Нужны тренировка или длинный fine-tuning — Mac VPS как control plane, тренировку в GPU облако. Самая дорогая ловушка — середина: 8 000 $ за 256 ГБ Mac Studio, который через год устаревает с приходом V5 и новых квантизаций до окончания амортизации.

6. Почему Mac: UMA, Metal и дисковый KV-кэш

Три причины. UMA Apple Silicon адресует все 512 ГБ Mac Studio с GPU без PCIe-копий — повторить это на дискретных GPU невозможно: 32 ГБ VRAM RTX 5090 не вместят 160 ГБ V4 Flash, четыре 5090 не возьмут V4-Pro q4, а один Mac Studio M3 Ultra грузит V4-Pro Q4 при 160–180 Вт TDP. NVMe SSD macOS и дисковый KV-кэш ds4 сохраняют сессионный контекст между запусками и убирают минуты re-prefill — в эфемерных контейнерах GPU облака это почти недостижимо. Наконец, в текущем macOS есть баг виртуальной памяти, из-за которого CPU-режим ds4 крашит ядро, поэтому годится только Mac с достаточной памятью и работающим Metal.

7. Минимальный воспроизводимый Runbook

С нуля до подключения Cursor на VPSMAC Mac VPS 128 ГБ:

Шаг 1: клонировать и собрать Metal-бинарники. SSH на Mac VPS, установить Xcode Command Line Tools, затем:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # создаёт ./ds4 и ./ds4-server

Шаг 2: скачать GGUF V4 Flash q2. Рекомендованные сообществом кванты вроде IQ2XXS-w2Q2K-AProjQ8 весят ~81 ГБ; aria2c -x 16 или huggingface-cli download в фоне освобождают SSH-сессию. Шаг 3: запустить ds4-server и проверить KV на диске:

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

Шаг 4: подключить Cursor, opencode или свой агент. ds4-server даёт OpenAI-совместимый /v1/chat/completions с Tool Calling; установите OpenAI API base в Cursor на http://your-mac-vps:8080/v1 и держите порт на петле через ssh -L 8080:127.0.0.1:8080. Шаг 5: launchd для постоянной работы и мониторинга. Положите plist в ~/Library/LaunchAgents/ с KeepAlive и логами, загрузите через launchctl load, ловите паники log stream и подключите алерты в OpenClaw-шлюз.

8. Mac VPS + ds4: гибкая локальная связка

Linux GPU облако, Docker или Windows AI PC для V4 имеют реальные проблемы: без UMA V4 Flash требует H100/H200, чья цена выше эквивалентной памяти Mac Studio; Docker на macOS добавляет Apple Virtualization и абстракции IO, теряя пропускную способность; Windows с RTX 5090 32 ГБ просто не загрузит V4 Flash; покупка Mac жёстко фиксирует железо и даёт двухлетнюю амортизацию. Когда нужно одной SSH-практикой управлять «ds4-выводом + iOS-цепочкой + OpenClaw-шлюзом + launchd-демонами + удалённой GPU-оркестрацией», аренда Apple Silicon Mac VPS у VPSMAC обычно лучше — ds4 на выделенном инстансе 128/256/512 ГБ, смена ярусов по требованию; когда нужна тренировка или мульти-GPU, делегируйте CoreWeave / Lambda / RunPod (см. матрицу CoreWeave), оставляя Mac VPS контроль-плоскостью. TCO выигрывает у схемы «всё на GPU-узле».

9. FAQ

ds4 и OpenClaw могут сосуществовать? Да. ds4-server по умолчанию слушает 8080, OpenClaw Gateway — 18789, конфликта нет. Укажите провайдера OpenClaw на OpenAI-совместимый эндпоинт ds4 — агент вызывает локальный V4 без счётов за внешние API. См. OpenClaw v2026.5.20 Runbook.

Можно ли использовать ветки ROCm и CUDA? Основная ветка CUDA поддерживает DGX Spark (GB10) и обычные CUDA-GPU через make cuda-spark или make cuda-generic; ROCm — отдельная ветка, поддерживаемая сообществом, для прода предпочтительно Metal или CUDA. Когда llama.cpp / LM Studio поддержат V4? К маю 2026 не смержено; в V4 кастомные op и планирование рассуждений с высоким барьером портирования — ожидайте ещё несколько месяцев. До этого ds4 — единственный движок V4 на Mac. Как не оставить арендованный инстанс впустую? launchd плюс скрипт «алерт при X часах простоя», либо настройте idle-timeout у ds4-server и сочетайте с почасовым биллингом VPSMAC для автоостановки.

10. Выводы

ds4 от antirez превращает «DeepSeek V4 локально» из теории в реальную инженерную задачу, но граница — память: 96 ГБ — входной билет, 128 ГБ — комфортный минимум, 512 ГБ — единственная конфигурация без компромиссов. Покупка топ-Mac — пятизначный чек плюс скрытая амортизация через два года. Аренда Mac VPS сглаживает кривую: 128/256/512 ГБ по требованию, переход V4 Flash → V4-Pro без смены железа, естественная связка с GPU облаком для тренировки — самый реалистичный путь 2026 для ds4, локального V4 и цепочки Apple.