2026 antirez ds4 запускает DeepSeek V4 на Mac: пороги памяти 96/128/512 ГБ, бенчмарки Metal и матрица решений купить vs арендовать Mac VPS
В мае 2026 создатель Redis antirez выпустил ds4 (DwarfStar 4) за неделю и впервые запустил DeepSeek V4 Flash на Mac с практичной скоростью; за несколько дней проект набрал свыше 11 K звёзд на GitHub. Однако лестница порогов памяти 96 ГБ для входа, 128 ГБ для комфорта и 512 ГБ для V4-Pro превращается в цены 4 000–14 000 долларов и встаёт стеной перед каждым независимым разработчиком. Этот гид написан для разработчиков и небольших команд, которых привлёк ds4, но которые отказываются отправлять код и приватные данные в чужие API: восемь разделов охватывают пороги железа, матрицу бенчмарков Metal, трёхвариантную таблицу решений, воспроизводимый Runbook и FAQ. Завершается он гибкой связкой Mac VPS + DeepSeek V4 + ds4.
Содержание
- 1. Что такое ds4: V4-движок antirez за одну неделю
- 2. Спецификации DeepSeek V4 Flash и V4-Pro
- 3. Реальные пороги железа: 96/128/256/512 ГБ
- 4. Матрица бенчмарков Metal: MBP M3 Max, Mac Studio Ultra, DGX Spark
- 5. Матрица решений: топ-Mac, Mac VPS или GPU облако
- 6. Почему Mac: UMA, Metal и дисковый KV-кэш
- 7. Минимальный Runbook: ds4 за пять шагов
- 8. Mac VPS + ds4: гибкая локальная связка
- 9. FAQ
- 10. Выводы
1. Что такое ds4: V4-движок antirez за одну неделю
В мае 2026 создатель Redis antirez выпустил ds4 (DwarfStar 4) — движок локального вывода на чистом C, заточенный под DeepSeek V4 Flash; основная ветка поддерживает только Metal и CUDA. За неделю по четырнадцать часов в день автор собрал в один бинарник рендеринг V4-промпта, KV-состояние, Tool Calling и встроенный кодинг-агент; за несколько дней проект собрал свыше 11 K звёзд. Установка «одна модель за раз» делает ds4 практически безальтернативным на Mac: ни llama.cpp, ни LM Studio в мае 2026 не поддерживают V4.
2. Спецификации DeepSeek V4 Flash и V4-Pro
DeepSeek выпустил обе вариации V4 24 апреля 2026 под лицензией MIT с окном контекста 1 М токенов:
| Параметр | V4 Flash | V4-Pro |
|---|---|---|
| Всего параметров | 284 Г (MoE) | 1,6 Т (MoE) |
| Активных на токен | 13 Г | 49 Г |
| Окно контекста | 1 000 000 токенов | 1 000 000 токенов |
| Макс. вывод | 384 000 токенов | 384 000 токенов |
| Размер весов | ~160 ГБ (FP4 + FP8) | ~865 ГБ (FP4 + FP8) |
| Лицензия | MIT | MIT |
| Локально | Топ потребительский Mac | Только 512 ГБ Mac Studio или мульти-GPU сервер |
В отличие от V3, где режимы thinking и non-thinking жили под разными ID, V4 делает усилие рассуждения параметром запроса (non-thinking, thinking, max-thinking); движок загружает один комплект весов и переиспользует KV между режимами. 13 Г активных параметров Flash — ключ для Mac: после MoE-маршрутизации стоимость токена сравнима с плотной 13 Г моделью и существенно ниже плотной 30 Г.
3. Реальные пороги железа: 96/128/256/512 ГБ
Многие статьи пишут «нужно 96 ГБ» и забывают, что KV-кэш и контекст тоже едят память. Реальная картина из README ds4 и замеров сообщества:
| Память | Модель | Квант | Лимит контекста | Типичное железо | Цена |
|---|---|---|---|---|---|
| 96 ГБ | V4 Flash | q2 | ~100 k токенов | MacBook Pro M3/M4 Max | от 4 000 $ |
| 128 ГБ | V4 Flash | q2 рекоменд. | ~250–300 k токенов | MacBook Pro / Mac Studio Max | от 5 000 $ |
| 256 ГБ | V4 Flash | q4 высокое качество | 500 k+ токенов | Mac Studio M3/M4 Ultra | от 8 000 $ |
| 512 ГБ | V4 Flash + V4-Pro q2 | q4 / q2-Pro | почти 1 М токенов | Mac Studio M3 Ultra топ | от 14 000 $ |
Веса q2 занимают 81 ГБ; ОС и буферы Metal оставляют на 96 ГБ менее 15 ГБ для KV. Полный KV на 1 М токенов требует около 26 ГБ, поэтому практическое окно на 96 ГБ — около 100 k, а длинные сессии уходят в пейджинг или OOM. 128 ГБ — безболезненный минимум, 512 ГБ — единственная конфигурация, в которой V4 становится производственной инфраструктурой вывода.
4. Матрица бенчмарков Metal
Официальные цифры из репозитория ds4 (короткие и длинные ~11–12 k токенов промпты):
| Машина | Квант | Длина промпта | Prefill | Generation |
|---|---|---|---|---|
| MacBook Pro M3 Max, 128 ГБ | q2 | короткий | 58,52 t/s | 26,68 t/s |
| MacBook Pro M3 Max, 128 ГБ | q2 | 11 709 токенов | 250,11 t/s | 21,47 t/s |
| Mac Studio M3 Ultra, 512 ГБ | q2 | короткий | 84,43 t/s | 36,86 t/s |
| Mac Studio M3 Ultra, 512 ГБ | q2 | 11 709 токенов | 468,03 t/s | 27,39 t/s |
| Mac Studio M3 Ultra, 512 ГБ | q4 | короткий | 78,95 t/s | 35,50 t/s |
| Mac Studio M3 Ultra, 512 ГБ | q4 | 12 018 токенов | 448,82 t/s | 26,62 t/s |
| NVIDIA DGX Spark GB10, 128 ГБ | q2 | 7 047 токенов | 343,81 t/s | 13,75 t/s |
Три вывода: длинный prefill у Mac Studio Ultra почти вдвое быстрее MBP M3 Max — соответствует разнице пропускной способности UMA; на Ultra q2 и q4 сравнялись по генерации (36,86 vs 35,50 t/s) — при достаточной памяти q4 даёт качество почти бесплатно; DGX Spark силён в prefill, но генерирует лишь 13,75 t/s — половина Ultra. CUDA-путь ещё дорабатывается, а Apple Silicon в первом полугодии 2026 неожиданно занимает лучшее место для V4 на потребительском железе.
5. Матрица решений
Решающая таблица:
| Параметр | Купить топ-Mac | Арендовать Mac VPS | Linux GPU облако |
|---|---|---|---|
| Начальные инвестиции | 4 000–14 000 $ | 0, помесячно | 0, почасово |
| Месяц (128 ГБ экв.) | ~200–350 $ амортизация | 200–550 $ | 2 000–4 000 $ за H100 |
| V4 Flash q2 | Нативный Metal | Нативный Metal | Нужна CUDA-ветка |
| V4-Pro | Только 14 000 $ 512 ГБ | Переключиться на 512 ГБ | Мульти-GPU H200 / B200 |
| Приватность | Максимум, на устройстве | Сильно, выделенный инстанс | Слабее, общая машина |
| Эластичность | Нет, железо зафиксировано | Масштабирование | Почасово, очень гибко |
| iOS / macOS | Нативно | Нативно | Не поддерживается |
| Риск устаревания | −50 %+ за 2 года | Нет | Нет |
Прочтение: 1–2 часа вывода в день — Mac VPS дешевле, чем покупка. Нужны тренировка или длинный fine-tuning — Mac VPS как control plane, тренировку в GPU облако. Самая дорогая ловушка — середина: 8 000 $ за 256 ГБ Mac Studio, который через год устаревает с приходом V5 и новых квантизаций до окончания амортизации.
6. Почему Mac: UMA, Metal и дисковый KV-кэш
Три причины. UMA Apple Silicon адресует все 512 ГБ Mac Studio с GPU без PCIe-копий — повторить это на дискретных GPU невозможно: 32 ГБ VRAM RTX 5090 не вместят 160 ГБ V4 Flash, четыре 5090 не возьмут V4-Pro q4, а один Mac Studio M3 Ultra грузит V4-Pro Q4 при 160–180 Вт TDP. NVMe SSD macOS и дисковый KV-кэш ds4 сохраняют сессионный контекст между запусками и убирают минуты re-prefill — в эфемерных контейнерах GPU облака это почти недостижимо. Наконец, в текущем macOS есть баг виртуальной памяти, из-за которого CPU-режим ds4 крашит ядро, поэтому годится только Mac с достаточной памятью и работающим Metal.
7. Минимальный воспроизводимый Runbook
С нуля до подключения Cursor на VPSMAC Mac VPS 128 ГБ:
Шаг 1: клонировать и собрать Metal-бинарники. SSH на Mac VPS, установить Xcode Command Line Tools, затем:
git clone https://github.com/antirez/ds4.git cd ds4 && make # создаёт ./ds4 и ./ds4-server
Шаг 2: скачать GGUF V4 Flash q2. Рекомендованные сообществом кванты вроде IQ2XXS-w2Q2K-AProjQ8 весят ~81 ГБ; aria2c -x 16 или huggingface-cli download в фоне освобождают SSH-сессию. Шаг 3: запустить ds4-server и проверить KV на диске:
./ds4-server -m ./ds4flash.gguf --ctx 128000 \
--kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models
Шаг 4: подключить Cursor, opencode или свой агент. ds4-server даёт OpenAI-совместимый /v1/chat/completions с Tool Calling; установите OpenAI API base в Cursor на http://your-mac-vps:8080/v1 и держите порт на петле через ssh -L 8080:127.0.0.1:8080. Шаг 5: launchd для постоянной работы и мониторинга. Положите plist в ~/Library/LaunchAgents/ с KeepAlive и логами, загрузите через launchctl load, ловите паники log stream и подключите алерты в OpenClaw-шлюз.
8. Mac VPS + ds4: гибкая локальная связка
Linux GPU облако, Docker или Windows AI PC для V4 имеют реальные проблемы: без UMA V4 Flash требует H100/H200, чья цена выше эквивалентной памяти Mac Studio; Docker на macOS добавляет Apple Virtualization и абстракции IO, теряя пропускную способность; Windows с RTX 5090 32 ГБ просто не загрузит V4 Flash; покупка Mac жёстко фиксирует железо и даёт двухлетнюю амортизацию. Когда нужно одной SSH-практикой управлять «ds4-выводом + iOS-цепочкой + OpenClaw-шлюзом + launchd-демонами + удалённой GPU-оркестрацией», аренда Apple Silicon Mac VPS у VPSMAC обычно лучше — ds4 на выделенном инстансе 128/256/512 ГБ, смена ярусов по требованию; когда нужна тренировка или мульти-GPU, делегируйте CoreWeave / Lambda / RunPod (см. матрицу CoreWeave), оставляя Mac VPS контроль-плоскостью. TCO выигрывает у схемы «всё на GPU-узле».
9. FAQ
ds4 и OpenClaw могут сосуществовать? Да. ds4-server по умолчанию слушает 8080, OpenClaw Gateway — 18789, конфликта нет. Укажите провайдера OpenClaw на OpenAI-совместимый эндпоинт ds4 — агент вызывает локальный V4 без счётов за внешние API. См. OpenClaw v2026.5.20 Runbook.
Можно ли использовать ветки ROCm и CUDA? Основная ветка CUDA поддерживает DGX Spark (GB10) и обычные CUDA-GPU через make cuda-spark или make cuda-generic; ROCm — отдельная ветка, поддерживаемая сообществом, для прода предпочтительно Metal или CUDA. Когда llama.cpp / LM Studio поддержат V4? К маю 2026 не смержено; в V4 кастомные op и планирование рассуждений с высоким барьером портирования — ожидайте ещё несколько месяцев. До этого ds4 — единственный движок V4 на Mac. Как не оставить арендованный инстанс впустую? launchd плюс скрипт «алерт при X часах простоя», либо настройте idle-timeout у ds4-server и сочетайте с почасовым биллингом VPSMAC для автоостановки.
10. Выводы
ds4 от antirez превращает «DeepSeek V4 локально» из теории в реальную инженерную задачу, но граница — память: 96 ГБ — входной билет, 128 ГБ — комфортный минимум, 512 ГБ — единственная конфигурация без компромиссов. Покупка топ-Mac — пятизначный чек плюс скрытая амортизация через два года. Аренда Mac VPS сглаживает кривую: 128/256/512 ГБ по требованию, переход V4 Flash → V4-Pro без смены железа, естественная связка с GPU облаком для тренировки — самый реалистичный путь 2026 для ds4, локального V4 и цепочки Apple.