Действительно ли на MacBook Pro 96 ГБ можно запустить ds4 + DeepSeek V4 Flash?

Да, но с оговорками. Веса q2 занимают около 81 ГБ; после ОС и буферов Metal на KV-кэш остаётся менее 15 ГБ. Полный KV на 1 М токенов требует около 26 ГБ, поэтому на 96 ГБ практическое окно — около 100 k токенов. Автор рекомендует 128 ГБ как комфортный минимум и Mac Studio Ultra 512 ГБ для полного использования окна 1 М.

Как ds4 соотносится с llama.cpp, LM Studio или Ollama?

ds4 — это Metal-движок вывода для DeepSeek V4 Flash, а не универсальный GGUF runner. По состоянию на май 2026 ни llama.cpp, ни LM Studio не поддерживают V4, поэтому на Mac ds4 фактически единственный вариант. Ollama работает с DeepSeek R1 и более ранними моделями, но не с V4.

Почему не арендовать Linux GPU облако для DeepSeek V4?

Можно, но V4 Flash весит 160 ГБ, V4-Pro — 865 ГБ; для них нужны узлы H100/H200/B200 с большой памятью VRAM, ежемесячная стоимость которых обычно выше Mac Studio с эквивалентной памятью. В Linux GPU облаках нет UMA, нет KV на диске и нет родной цепочки iOS, поэтому связка Mac VPS + GPU облако даёт лучший долгосрочный ROI.

2026 antirez ds4 запускает DeepSeek V4 на Mac: пороги 96/128/512 ГБ, бенчмарки Metal и матрица решений Mac VPS

В мае 2026 создатель Redis antirez выпустил ds4 (DwarfStar 4) за неделю и впервые запустил DeepSeek V4 Flash на Mac с практичной скоростью; за несколько дней проект набрал свыше 11 K звёзд на GitHub. Однако лестница порогов памяти 96 ГБ для входа, 128 ГБ для комфорта и 512 ГБ для V4-Pro превращается в цены 4 000–14 000 долларов и встаёт стеной перед каждым независимым разработчиком. Этот гид написан для разработчиков и небольших команд, которых привлёк ds4, но которые отказываются отправлять код и приватные данные в чужие API: восемь разделов охватывают пороги железа, матрицу бенчмарков Metal, трёхвариантную таблицу решений, воспроизводимый Runbook и FAQ. Завершается он гибкой связкой Mac VPS + DeepSeek V4 + ds4.

1. Что такое ds4: V4-движок antirez за одну неделю

В мае 2026 создатель Redis antirez выпустил ds4 (DwarfStar 4) — движок локального вывода на чистом C, заточенный под DeepSeek V4 Flash; основная ветка поддерживает только Metal и CUDA. За неделю по четырнадцать часов в день автор собрал в один бинарник рендеринг V4-промпта, KV-состояние, Tool Calling и встроенный кодинг-агент; за несколько дней проект собрал свыше 11 K звёзд. Установка «одна модель за раз» делает ds4 практически безальтернативным на Mac: ни llama.cpp, ни LM Studio в мае 2026 не поддерживают V4.

2. Спецификации DeepSeek V4 Flash и V4-Pro

DeepSeek выпустил обе вариации V4 24 апреля 2026 под лицензией MIT с окном контекста 1 М токенов:

Параметр	V4 Flash	V4-Pro
Всего параметров	284 Г (MoE)	1,6 Т (MoE)
Активных на токен	13 Г	49 Г
Окно контекста	1 000 000 токенов	1 000 000 токенов
Макс. вывод	384 000 токенов	384 000 токенов
Размер весов	~160 ГБ (FP4 + FP8)	~865 ГБ (FP4 + FP8)
Лицензия	MIT	MIT
Локально	Топ потребительский Mac	Только 512 ГБ Mac Studio или мульти-GPU сервер

В отличие от V3, где режимы thinking и non-thinking жили под разными ID, V4 делает усилие рассуждения параметром запроса (non-thinking, thinking, max-thinking); движок загружает один комплект весов и переиспользует KV между режимами. 13 Г активных параметров Flash — ключ для Mac: после MoE-маршрутизации стоимость токена сравнима с плотной 13 Г моделью и существенно ниже плотной 30 Г.

3. Реальные пороги железа: 96/128/256/512 ГБ

Многие статьи пишут «нужно 96 ГБ» и забывают, что KV-кэш и контекст тоже едят память. Реальная картина из README ds4 и замеров сообщества:

Память	Модель	Квант	Лимит контекста	Типичное железо	Цена
96 ГБ	V4 Flash	q2	~100 k токенов	MacBook Pro M3/M4 Max	от 4 000 $
128 ГБ	V4 Flash	q2 рекоменд.	~250–300 k токенов	MacBook Pro / Mac Studio Max	от 5 000 $
256 ГБ	V4 Flash	q4 высокое качество	500 k+ токенов	Mac Studio M3/M4 Ultra	от 8 000 $
512 ГБ	V4 Flash + V4-Pro q2	q4 / q2-Pro	почти 1 М токенов	Mac Studio M3 Ultra топ	от 14 000 $

Веса q2 занимают 81 ГБ; ОС и буферы Metal оставляют на 96 ГБ менее 15 ГБ для KV. Полный KV на 1 М токенов требует около 26 ГБ, поэтому практическое окно на 96 ГБ — около 100 k, а длинные сессии уходят в пейджинг или OOM. 128 ГБ — безболезненный минимум, 512 ГБ — единственная конфигурация, в которой V4 становится производственной инфраструктурой вывода.

4. Матрица бенчмарков Metal

Официальные цифры из репозитория ds4 (короткие и длинные ~11–12 k токенов промпты):

Машина	Квант	Длина промпта	Prefill	Generation
MacBook Pro M3 Max, 128 ГБ	q2	короткий	58,52 t/s	26,68 t/s
MacBook Pro M3 Max, 128 ГБ	q2	11 709 токенов	250,11 t/s	21,47 t/s
Mac Studio M3 Ultra, 512 ГБ	q2	короткий	84,43 t/s	36,86 t/s
Mac Studio M3 Ultra, 512 ГБ	q2	11 709 токенов	468,03 t/s	27,39 t/s
Mac Studio M3 Ultra, 512 ГБ	q4	короткий	78,95 t/s	35,50 t/s
Mac Studio M3 Ultra, 512 ГБ	q4	12 018 токенов	448,82 t/s	26,62 t/s
NVIDIA DGX Spark GB10, 128 ГБ	q2	7 047 токенов	343,81 t/s	13,75 t/s

Три вывода: длинный prefill у Mac Studio Ultra почти вдвое быстрее MBP M3 Max — соответствует разнице пропускной способности UMA; на Ultra q2 и q4 сравнялись по генерации (36,86 vs 35,50 t/s) — при достаточной памяти q4 даёт качество почти бесплатно; DGX Spark силён в prefill, но генерирует лишь 13,75 t/s — половина Ultra. CUDA-путь ещё дорабатывается, а Apple Silicon в первом полугодии 2026 неожиданно занимает лучшее место для V4 на потребительском железе.

5. Матрица решений

Решающая таблица:

Параметр	Купить топ-Mac	Арендовать Mac VPS	Linux GPU облако
Начальные инвестиции	4 000–14 000 $	0, помесячно	0, почасово
Месяц (128 ГБ экв.)	~200–350 $ амортизация	200–550 $	2 000–4 000 $ за H100
V4 Flash q2	Нативный Metal	Нативный Metal	Нужна CUDA-ветка
V4-Pro	Только 14 000 $ 512 ГБ	Переключиться на 512 ГБ	Мульти-GPU H200 / B200
Приватность	Максимум, на устройстве	Сильно, выделенный инстанс	Слабее, общая машина
Эластичность	Нет, железо зафиксировано	Масштабирование	Почасово, очень гибко
iOS / macOS	Нативно	Нативно	Не поддерживается
Риск устаревания	−50 %+ за 2 года	Нет	Нет

Прочтение: 1–2 часа вывода в день — Mac VPS дешевле, чем покупка. Нужны тренировка или длинный fine-tuning — Mac VPS как control plane, тренировку в GPU облако. Самая дорогая ловушка — середина: 8 000 $ за 256 ГБ Mac Studio, который через год устаревает с приходом V5 и новых квантизаций до окончания амортизации.

6. Почему Mac: UMA, Metal и дисковый KV-кэш

Три причины. UMA Apple Silicon адресует все 512 ГБ Mac Studio с GPU без PCIe-копий — повторить это на дискретных GPU невозможно: 32 ГБ VRAM RTX 5090 не вместят 160 ГБ V4 Flash, четыре 5090 не возьмут V4-Pro q4, а один Mac Studio M3 Ultra грузит V4-Pro Q4 при 160–180 Вт TDP. NVMe SSD macOS и дисковый KV-кэш ds4 сохраняют сессионный контекст между запусками и убирают минуты re-prefill — в эфемерных контейнерах GPU облака это почти недостижимо. Наконец, в текущем macOS есть баг виртуальной памяти, из-за которого CPU-режим ds4 крашит ядро, поэтому годится только Mac с достаточной памятью и работающим Metal.

7. Минимальный воспроизводимый Runbook

С нуля до подключения Cursor на VPSMAC Mac VPS 128 ГБ:

Шаг 1: клонировать и собрать Metal-бинарники. SSH на Mac VPS, установить Xcode Command Line Tools, затем:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # создаёт ./ds4 и ./ds4-server

Шаг 2: скачать GGUF V4 Flash q2. Рекомендованные сообществом кванты вроде IQ2XXS-w2Q2K-AProjQ8 весят ~81 ГБ; aria2c -x 16 или huggingface-cli download в фоне освобождают SSH-сессию. Шаг 3: запустить ds4-server и проверить KV на диске:

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

Шаг 4: подключить Cursor, opencode или свой агент. ds4-server даёт OpenAI-совместимый /v1/chat/completions с Tool Calling; установите OpenAI API base в Cursor на http://your-mac-vps:8080/v1 и держите порт на петле через ssh -L 8080:127.0.0.1:8080. Шаг 5: launchd для постоянной работы и мониторинга. Положите plist в ~/Library/LaunchAgents/ с KeepAlive и логами, загрузите через launchctl load, ловите паники log stream и подключите алерты в OpenClaw-шлюз.

8. Mac VPS + ds4: гибкая локальная связка

Linux GPU облако, Docker или Windows AI PC для V4 имеют реальные проблемы: без UMA V4 Flash требует H100/H200, чья цена выше эквивалентной памяти Mac Studio; Docker на macOS добавляет Apple Virtualization и абстракции IO, теряя пропускную способность; Windows с RTX 5090 32 ГБ просто не загрузит V4 Flash; покупка Mac жёстко фиксирует железо и даёт двухлетнюю амортизацию. Когда нужно одной SSH-практикой управлять «ds4-выводом + iOS-цепочкой + OpenClaw-шлюзом + launchd-демонами + удалённой GPU-оркестрацией», аренда Apple Silicon Mac VPS у VPSMAC обычно лучше — ds4 на выделенном инстансе 128/256/512 ГБ, смена ярусов по требованию; когда нужна тренировка или мульти-GPU, делегируйте CoreWeave / Lambda / RunPod (см. матрицу CoreWeave), оставляя Mac VPS контроль-плоскостью. TCO выигрывает у схемы «всё на GPU-узле».

9. FAQ

ds4 и OpenClaw могут сосуществовать? Да. ds4-server по умолчанию слушает 8080, OpenClaw Gateway — 18789, конфликта нет. Укажите провайдера OpenClaw на OpenAI-совместимый эндпоинт ds4 — агент вызывает локальный V4 без счётов за внешние API. См. OpenClaw v2026.5.20 Runbook.

Можно ли использовать ветки ROCm и CUDA? Основная ветка CUDA поддерживает DGX Spark (GB10) и обычные CUDA-GPU через make cuda-spark или make cuda-generic; ROCm — отдельная ветка, поддерживаемая сообществом, для прода предпочтительно Metal или CUDA. Когда llama.cpp / LM Studio поддержат V4? К маю 2026 не смержено; в V4 кастомные op и планирование рассуждений с высоким барьером портирования — ожидайте ещё несколько месяцев. До этого ds4 — единственный движок V4 на Mac. Как не оставить арендованный инстанс впустую? launchd плюс скрипт «алерт при X часах простоя», либо настройте idle-timeout у ds4-server и сочетайте с почасовым биллингом VPSMAC для автоостановки.

10. Выводы

ds4 от antirez превращает «DeepSeek V4 локально» из теории в реальную инженерную задачу, но граница — память: 96 ГБ — входной билет, 128 ГБ — комфортный минимум, 512 ГБ — единственная конфигурация без компромиссов. Покупка топ-Mac — пятизначный чек плюс скрытая амортизация через два года. Аренда Mac VPS сглаживает кривую: 128/256/512 ГБ по требованию, переход V4 Flash → V4-Pro без смены железа, естественная связка с GPU облаком для тренировки — самый реалистичный путь 2026 для ds4, локального V4 и цепочки Apple.

2026 antirez ds4 запускает DeepSeek V4 на Mac: пороги памяти 96/128/512 ГБ, бенчмарки Metal и матрица решений купить vs арендовать Mac VPS

Содержание