В этой статье я делюсь личным опытом выбора платформы для локального инференса (запуска) LLM. Формат - дневник инженера: детали, цифры и грабли вперемешку с эмоВ этой статье я делюсь личным опытом выбора платформы для локального инференса (запуска) LLM. Формат - дневник инженера: детали, цифры и грабли вперемешку с эмо

Ну, LLM, погоди…

9b326cc2664940b24f47b8faae7b146f.jpg

В этой статье я делюсь личным опытом выбора платформы для локального инференса (запуска) LLM. Формат - дневник инженера: детали, цифры и грабли вперемешку с эмоциями и выводами по ходу дела. Это не энциклопедия, и, совершенно точно, не "единственно правильный" рецепт, но, надеюсь, статья сэкономит время тем, кто сейчас решает, на каком железе и каким способом запускать модели.

Для тех, кто не готов погружаться в цепочку событий, сразу зафиксирую итог:

  1. Цель: создание ИИ‑агентов для управления архитектурой предприятия с использованием авторского подхода "Архитектура как код".

  2. Платформа развертывания: Mac Studio M4 Max, 128 GB RAM, 2 TB SSD. (Скорость генерации ниже указана для этой конфигурации и получена по моим эмпирическим замерам).

  3. Модель для сложных задач и длинных ответов: mlx-community/Qwen2.5-72B-Instruct-4bit (~12 токен/с).

  4. Модель для генерации кода: mlx-community/Qwen2.5-Coder-7B-Instruct-8bit (~60 токен/с).

  5. Цена: ~4000 $.

Предисловие

Меня зовут Роман Пионтик. Я развиваю подход "Архитектура как код" в России. С моими публикациями на эту тему можно познакомиться в профиле. В контексте этой статьи особенно рекомендую вот эту публикацию - в ней (конец 2023 года) я аккуратно подводил к мысли, что архитектура, описываемая кодом, отлично сочетается с тогда только зарождавшимся паттерном "вайб‑кодинг".

Сегодня уже можно уверенно сказать: так и произошло. Всего через два года ИТ‑индустрия с трудом представляет себя без ИИ.

2024–2025 годы принесли в ИИ огромное количество нового. По моим ощущениям, произошла не только технологическая, но и социальная революция: ИИ начал заметно влиять почти на все сферы жизни. Модели и их разнообразие росли стремительно - и мне, честно говоря, хотелось попробовать все. Стандартизации при этом почти не было. Правила игры тогда только формировались и продолжают формироваться до сих пор.

Поэтому наиболее разумным сценарием я долгое время считал работу через агрегаторы с доступом к моделям по API, которые дают доступ к топовым моделям. Но со временем мне стало этого недостаточно: понадобились полный контроль над окружением и конфиденциальность данных.

Настало время опираясь на накопленный опыт и уверенностью в выбранном направлении, подобрать модель под свои задачи и перейти к ее развитию.

В этой статье я хочу показать, как за январские праздники 2026г эволюционировало мое мнение о локальном инференсе. Для наглядности расскажу историю в хронологическом порядке.

Чтобы не перегружать текст и сохранить комфорт чтения, я опустил второстепенные детали о моем продукте. При желании их можно найти в репозитории DocHub.

Начало 2025г

97efe00944e3b79e9aa6ced654788ce3.jpg

Начало 2025 года в мире ИИ для меня выглядело как массовая распаковка подарков: то тут, то там появлялись новые модели и вендоры, каждый из которых претендовал на лидерство в стремительно растущей индустрии. Я физически не успевал отслеживать все новинки. Понимая, что на наших глазах творится история и важно научиться использовать плоды прогресса, я все же держал фокус на своей задаче.

Моя стратегия на тот период была простой: я делал для моделей "квалификационные экзамены". Для этого я сформулировал набор референсных вопросов и ожидаемых ответов. Прогоняя через них очередную модель, я быстро понимал ее сильные и слабые стороны. Если результаты выглядели перспективно, я брал модель в более плотную работу и ставил глубокие эксперименты с ней.

О локальном развертывании тогда я даже не думал: очень быстро менялся рынок и слишком много было неопределенности. Единственным практичным окном к моделям для меня оставались российские агрегаторы.

Используя агрегаторы, я закрывал три ключевые проблемы:

  1. Преодолевал санкционные ограничения;

  2. Получал унифицированный протокол доступа к разным моделям, что заметно экономило время;

  3. Имел простой путь миграции на более совершенные модели.

Конечно, были и минусы:

  1. Я в основном работаю через мобильный интернет. В 2025 году это стало проблемой из‑за внезапной и длительной недоступности многих сервисов в России;

  2. Ограниченная управляемость параметрами. Да, я мог тщательно писать промпт, но на результат заметно влиял системный промпт, на который я не мог воздействовать;

  3. Популярные модели насыщены широко распространенными знаниями - это отлично для задач и специалистов начального и среднего уровня. Но, когда нужно заставить модель уверенно работать в зоне узкой экспертизы, этот фон иногда начинает мешать: модель тянет ответы в сторону обобщений и шаблонов.

На начало 2025 года чаша весов для меня однозначно перевешивала в сторону агрегаторов: удобство, скорость и гибкость доступа важнее, чем ограничения и риски.

Ключевые технологии, которые я развивал в этот период, были следующими:

  1. Движок генерации контекстов для моделей на основе архитектурного описания и цифровых следов организации;

  2. Движок управления знаниями;

  3. Разработка концепции применения ИИ в области управления архитектурой предприятия;

  4. Разработка фреймворка управления архитектурой предприятия через код;

  5. Разработка специализированной IDE.

Принципиально важно, что на тот момент все эти решения находились в стадии прототипирования и не требовали достоверных (боевых) данных для проверки гипотез. Было достаточно синтетических данных.

Подводя итог к августу 2025 года, я пришел к выводу, что ИИ действительно способен на многое. Существует класс задач, которые он решает с высокой эффективностью - при условии грамотной постановки, корректных ожиданий и понимания его ограничений. Лично я достиг всех первичных целей.

Если говорить о лидере моделей в моих глазах, то им стал ChatGPT 5.x. Версия 4.x была заметно слабее. После появления 5.x я фактически перестал переключаться между моделями.

Конец 2025г

3ad97024178ef11e2ad9d7b96cbd5b66.jpg

Примерно с сентября 2025г я начал испытывать трудности с развитием продукта. Многое уже было проверено, нужные промпты накоплены - пора было переходить к прикладной работе на реальных данных, то есть к MVP. Но сделать этот шаг в рамках прежней стратегии я уже не мог.

Данные, необходимые для следующего этапа, как минимум относятся к чувствительной информации (коммерческая и банковская тайна). Передавать их даже вендору модели - неразумно, а использование агрегатора кратно ухудшает ситуацию с безопасностью. Это стало радикальным сдерживающим фактором и пополнило список недостатков подхода.

Параллельно на первый план вышел конфликт между "общими знаниями" модели и разрабатываемым мной фреймворком. Типичная модель насыщена распространенными представлениями об управлении архитектурой в духе "традиционной" архитектурной практики и популярных методологий. Подход "Архитектура как код" подразумевает другую логику: управление архитектурой через кодовую базу и правила работы с репозиторием. В "картину мира" стандартной модели основанной на изображениях это ложится плохо - приходится писать расширенные промпты и фактически заставлять ее игнорировать часть усвоенных шаблонов.

Все это приводит к неприятным последствиям:

  1. Промпты пухнут и начинают выглядеть неестественно: в них много запретов и отрицательных инструкций вроде "TOGAF - лишь один из фреймворков, не используй его по умолчанию". Таких "не" слишком много - и это тревожный сигнал.

  2. Несмотря на усилия, агент периодически "выдает базу": начинает критиковать сам подход описания архитектуры через код вместо того, чтобы помогать пользователю получить результат.

  3. Есть вещи, о которых модель не знает, но считает, что знает - и уверенно выдает убедительную ерунду. Это похоже на галлюцинации, но, по моим наблюдениям, причина иная: судя по моим попыткам "реверса", модель могла быть обучена на некачественных или противоречивых данных и воспроизводит их как норму.

Тем не менее, к концу 2025 года я все же нашел прикладную задачу, на которой прототип показал себя: интеграция банка с платформой цифрового рубля. Поскольку задача была почти полностью основана на публичной информации (проект с нуля), я смог разместить в архитектурном репозитории практически все, что требовалось.

В результате получился архитектурный репозиторий, который умеет отвечать на вопросы о проекте - как со стороны бизнеса, так и со стороны разработки. По сути, это архитектурное решение, оформленное как отчуждаемое знание. Его можно передавать, тиражировать, развивать, проверять и, конечно, использовать. Рабочее название прототипа - AI Architecture Box (AIBox).

Структура такой "коробки" примерно следующая:

  1. Квалификационные тесты - позволяют проверить, что подключаемый ИИ действительно корректно отвечает на основе репозитория;

  2. Граф знаний - специализированная форма каталогизации знаний в репозитории. Дает возможность работать ИИ без классического RAG и без развертывания отдельного бэкенда;

  3. Инструкции репозитория - набор специфичных промптов, необходимых для корректной работы агентов в контексте репозитория;

  4. Декларативная метамодель - позволяет описать содержимое репозитория через формальную схему;

  5. Фундаментальные данные - факты, которые составляют неоспоримую базу репозитория. В данном случае - закон о цифровом рубле и разъяснения Банка России.

  6. Архитектурные решения - зафиксированные и принятые решения по архитектуре.

AIBox хранится в git-репозитории и запускается в специальной среде, которая адаптируется под роль пользователя. Для бизнеса это портал с чатом, для разработчика - плагин в IDE.

Этот результат окончательно укрепил меня в мысли, что нужно переходить к собственному инференсу моделей и иметь возможность их дообучать. Тогда я еще не решил, делать ли это полностью локально или на хостинге, но стало ясно, чем я займусь на январских праздниках.

Вечер 01.01.2026: первый подход к снаряду

2d5e3073578ec61e5012ff001e41951b.jpg

Куранты отгремели, гости разошлись, и наступил первый по‑настоящему свободный вечер. Я, наконец, сел разбираться с темой, которая давно зудела в голове: как собрать локальную платформу для LLM.

На первый взгляд все выглядело очевидно. Ноутбук у меня вполне бодрый (i9, 64 GB RAM, RTX 4070), значит, не хватает только одного - вынести вычисления на внешнюю графику. Идея была простая: докупить eGPU (а лучше - несколько) и получить относительно мощный сетап без покупки отдельной рабочей станции. С этим настроем я пошел выяснять, как все это “подружить”, какой реальный профит по производительности можно ожидать и во сколько обойдется такой апгрейд.

Первое разочарование случилось почти сразу: в моем ноутбуке нет Thunderbolt - того самого высокоскоростного интерфейса, необходимого для интеграции с eGPU.

Из доступных вариантов оставалось рукоделие с OCuLink. Его у меня тоже не было, но теоретически можно было получить через M.2. Для этого нужно разобрать ноутбук, вытащить один из SSD, воткнуть переходник, а затем чуть‑чуть поработать напильником по корпусу - буквально, физически. И это все ради конфигурации, где итог вообще не гарантирован: весь проект держался на уверениях восточного продавца переходника, что я “хороший друг”, а значит, все получится.

Я ярко почувствовал, как эта затея пахнет бесценным опытом, который я получу вместо того, что мне нужно. Поэтому я вежливо отказался и продавец потерял хорошего друга в моем лице.

С наскока не вышло.

Утро 02.01.2026: первое принятие реальности

be57558fe5f3ac77e90a04a8b53bc5b9.jpg

Как по мне, нет ничего суетнее 2 января. Участники событий ночи с 31-го на 1-е успевают отоспаться, восстановить силы и тут же пытаются вернуть ощущение праздника - себе и всем вокруг. Итог предсказуем: звонки, спонтанные встречи, "заезжай на чай" и прочие социальные активности. Обычно у меня в этот день плотный график.

Но в этот раз я был настроен решительно. К черту компромиссы: если не получается с ноутбуком - значит, идем в облако.

Поход в облака, правда, оказался коротким. Открыв "самые выгодные" предложения крупных хостеров, я быстро понял: мои амбиции в районе 128 GB VRAM для инференса стоят примерно 700 р/час. А это, на секундочку, около 500К р/мес.

Тут важно пояснить логику возникшего требования в 128Gb VRAM. Концептуально я пришел к тому, что мне нужны две модели, каждая под свой сценарий:

  1. Модель для глубокого анализа архитектурного описания: должна быть максимально "умной". Пусть даже медленной. Вероятно - рассуждающей.

  2. Модель для кодинга: нужна быстрая и компактная. Именно она должна жить рядом с IDE и помогать в работе с архитектурным кодом и артефактами.

Прикинув кандидатов на эти роли и нужный контекст, я решил, что инференс двух моделей (~70b + 7..14b) одновременно укладывается примерно в 128 GB VRAM и остается достаточно места под контекст. Разумеется, это были оценки "на салфетке", но порядок цифр выглядел реалистично.

"Ну можно же умерить аппетиты…" - можно, но зачем? Честно говоря, я и сумму в десять раз меньше не был готов платить без понятной экономической целесообразности. К тому же за "вменяемые" деньги облако предлагало конфигурации уровня:

  • 1× GTX 1080 (8 GB)

  • 8 vCPU

  • 24 GB RAM

Напомню, что у меня на ноутбуке уже есть RTX 4070 (8GB), i9 и 64 GB RAM. Да, ноутбучное железо урезано по TDP и охлаждению - но все же RTX 4070 это современная архитектура, и в сравнение с GTX 1080 выбор очевиден.

Ну и ладно, подумал я. Не очень-то и хотелось. Я вообще не фанат облаков. Есть план Б: собрать свой сервер в гараже. Сказано - сделано: я пошел на сайт всем известной компании "на три буквы" и накидал конфигурацию на скорую руку:

  • Ultra 9

  • 64 GB RAM

  • RTX 5090 (32 GB)

  • SSD 2 TB

И получил ценник примерно ~600K.

"Так…" - подумал я. Ладно, процессор можно взять попроще. Памяти - докинуть. С видеокартой - поиграться. Но когда я полез смотреть стоимость компонентов, у меня случился небольшой когнитивный диссонанс: 32 GB памяти - около 90К.

Сначала решил, что случайно выбрал "премиальный бренд". Пошел менять - и тут выяснилось, что это не ошибка выбора: с августа (когда я покупал память последний раз) цена действительно улетела почти в 3 раза.

И это я еще не пытался дотянуться до своей мечты по VRAM. 32 GB даже на топовой карте - все равно "всего лишь 32". О трех дополнительных видеокартах по ~300К каждая не могло быть и речи.

Попытки "схитрить" тоже особой выгоды не дали:

  • варианты с другими сериями видеокарт;

  • условно доступное Б/У "с севера";

  • старые решения типа Tesla P40.

В итоге конфигурация мечты с 128 GB VRAM уверенно переваливала за 1 млн. И внезапно облака уже не казались такой безумной идеей.

На этой мысли, ближе к обеду, я остановился: пришли очередные гости, и решение пришлось отложить до вечера. Вечером я вернулся к ноутбуку - уже с другой планкой ожиданий.

Вечер 02.01.2026: я все придумал

98f6525f4598edb9bcdda6da3cbbbff8.jpg

Жуя салаты и переваривая реальность, я прикинул: возможно, стоит вернуться к идее обновления ноутбука. После ценников на "десктоп мечты" я психологически был готов заметно расширить бюджет на "ноутбук мечты".

Да, ноутбук не решает все проблемы, но выглядит так, что за относительно адекватные деньги можно получить мощную базу: CPU/RAM/SSD. А самую проблемную часть - GPU и VRAM - я могу вынести во внешний контур через eGPU. В этой мысле меня укреплял известный ресурс EGPU.IO Но есть важное условие: обязательно нужен Thunderbolt.

Плюс у ноутбука есть бонусы, которые реально мной используются каждый день: мобильность, качественный экран (в сегменте 300k+ это часто OLED), приличная камера и т. п. В этом смысле затраты выглядят более оправданными и многофункциональными.

Остаток вечера я посвятил изучению рынка - и, кажется, нашел "того самого": царя-ноутбуков. В моем случае им стал Lenovo Legion Pro 7 OLED: Ultra 9 275HX, 64 GB RAM, SSD 1 TB, RTX 5090 (24 GB VRAM). На маркетплейсе в тот вечер ценник значился "всего" 330К. Thunderbolt - на борту. Отзывы - один другого восторженнее.

24 GB видеопамяти уже выглядели как вменяемая стартовая точка: можно ставить нормальные эксперименты с моделью для кодинга, а заодно запускать квантованные версии крупных моделей - без плясок с бубном на каждом шаге.

Остальное я добил рационализацией: сначала разберусь с новой для себя областью на одной видяхе, а когда станет понятно, где именно упираюсь, начну наращивать ресурсы через eGPU внешними картами.

План - огонь. Можно было ложиться спать.

Утро 03.01.2026: удар судьбы

08c7767770a55f2b1e3d20c4f93ef918.jpg

Какой там сон… Думаю, многим знакомо это томящее предвкушение покупки вещи, которая на ближайшие годы станет частью твоей жизни. В такие периоды я засыпаю плохо. Я уже строил планы, как буду настраивать систему, перебирал утилиты и фреймворки для инференса и обучения, мучал ChatGPT вопросами. В итоге уснул далеко за полночь.

Утро началось тревожно. Как ни крути, предстояло провести убедительную презентацию жене - почему мне жизненно необходим новый ноутбук. Не то чтобы она была "в теме", но появление на моем столе свежего, сверкающего алюминием (и, конечно, с RGB-подсветкой) устройства неизбежно вызвало бы вопросы. Особенно на фоне того, что у нее телефон еще прошлой серии. В общем, презентация должна была быть блестящей.

И я был прекрасен в то утро. В жанре сторителлинга я описал свои мысленные блуждания, плавно подвел к решению, что только эта покупка спасет человечество от неминуемой гибели цивилизации без моделей, способных писать архитектурный код.

Пока шла "защита проекта", у меня на экране телефона была открыта карточка товара. Она демонстрировала "удивительно выгодный ценник" по сравнению с альтернативами. На всякий случай я несколько раз обновлял страницу прямо по ходу выступления.

Наконец прозвучало сдержанное: "Ну если ты считаешь, что без этого никак…". Лучшего "да" я бы все равно не получил - значит, пора действовать. Я еще раз автоматически обновил страницу и… сердце куда-то провалилось. На экране красовалась цена, уже ближе к 400К.

Сначала я решил, что, наверное, случайно что-то нажал, и "оно само пропало". Зашел в избранное, снова открыл карточку. Но новогоднего чуда не произошло. Цена осталась в стратосфере.

Стоит ли говорить, что я расстроился? Само по себе абсолютное значение еще укладывалось в мои морально‑финансовые рамки. Но скачок на ~20% буквально "на ровном месте" не позволял нажать кнопку заказа. А пока мой дух авантюризма метался в чугунной клетке разума, цена успела подрасти еще примерно на 30К. Теперь на меня надменно смотрел ценник, который я уже не мог принять ни морально, ни финансово. Я получил удар ниже пояса.

Лирическое отступление. Этот кейс полностью отбил у меня желание покупать что-то дорогое на маркетплейсах. Позже я нашел похожие истории у знакомых. Но у них все было еще хуже: они оплачивали дорогие заказы, а маркетплейс просто отменял покупку и поднимал цену. В результате деньги зависали на площадке до возврата, а купить товар по той же цене уже было невозможно. На мой взгляд, это отвратительная практика, которая требует законодательного регулирования.

В общем, я снова переключился на салаты - пытаясь осознать очередную, новую реальность.

Вечер 03.01.2026: и тут включился мозг

b37a0bf1b3cfc80ea0963e96b1274f9d.jpg

Откровенно говоря, последние два дня были больше про эмоции, чем про рациональность. Да, я заранее "покопал тему" и собрал немного опыта из интернета. Например, уверенности добавляли материалы международного комьюнити по eGPU. Но глубоко в этот мир я не нырял: скорее выхватил несколько ключевых тезисов и успокоил себя мыслью, что когда дойдет до реализации - разберусь по ходу.

Важно отметить, что я задавал конкретные вопросы поиску и разным ИИ и получал соответствующие, вполне корректные ответы. Что-то в духе: "Какие видеокарты лучше подходят для домашнего инференса DeepSeek?" или "Какая б/у карта сейчас оптимальна для локальных LLM по соотношению цена/память/производительность?". А как известно, правильно сформулированный вопрос - это половина ответа. Вот я и получал: набор рекомендаций, примеры конфигураций, личный опыт людей в узких рамках моего восприятия мира аппаратной части ИИ… Очевидно, что эти ответы усиливали мое мнение, что именно это “мой путь”.

История с ноутбуком стала поводом остановиться и оглядеться. Сначала я сделал очевидное: попытался найти ту же конфигурацию в других местах. И, надо признать, это реально - встречается и на барахолках, и на "Горбушке", и у мелких продавцов. Но почти всегда всплывают два нюанса: покупка за наличные и туманные перспективы по гарантии. Формально - вариант есть. Практически - вопросов больше, чем ответов.

В итоге я пошел другим путем и позвонил знакомому матерому сисадмину. Вдруг он подскажет, где адекватно купить нужное железо - или предложит альтернативную реализацию. Неожиданный ход, правда?

Под руку попался Степан. Я излил на него все свои мысли и переживания последних дней. Он внимательно выслушал и начал раскладывать по полочкам. С местом покупки он, увы, не помог: по ощущениям, рынок железа сейчас действительно местами напоминает 90-е. Нужно знать хорошие места и уметь договариваться с хорошими людьми.

Зато Степан подкинул информацию, которая перевернула мне картину мира. Во‑первых, он сообщил, что в 2025 году NVIDIA выпустила "утилитарную" платформу для ИИ. Для меня это было новостью. Правда по инерции я подумал, что это строго enterprise‑история за бесконечные бюджеты - и потому сразу не уделил этой информации должного внимания. Во‑вторых, он вскользь сказал ключевую вещь: "есть же ARM, где память общая". И добавил, что у Apple на ARM в ИИ‑задачах у людей часто вполне позитивный опыт - именно из‑за общей памяти.

Я созвонился еще с парой знакомых, которые профессионально занимаются обучением моделей. Картина получилась ожидаемой: один совсем недавно собрал под проекты "монстра под столом" на NVIDIA‑картах; второй живет в мире серверного железа и в "чудо локального инференса" особо не верит. Но оба подтвердили, что если идти в классический ПК‑подход, то все быстро упирается в VRAM, цену и доступность железа.

С этим багажом я снова ушел в интернет - уже с другим фокусом. И довольно быстро нашел то, о чем говорил Степан: Nvidia DGX Spark 128GB AI Supercomputer. "Ого, 128 GB!" - первая мысль была ровно такой. И следом - вторая: "Точно не для моего бюджета".

Но любопытство победило, и я на всякий случай изучил предложения в России. И тут, наконец, случилось маленькое новогоднее чудо: оказалось, что этот гаджет можно купить в пределах моих финансовых рамок. Не “дешево”, но, можно и даже есть предложения в России с наличием. Цена что-то около 400К.

Для меня открылась дверь в Нарнию. Я начал жадно разбираться, что это вообще за класс устройств. Выяснилось, что платформа построена на ARM‑архитектуре, а ключевая особенность - общая память CPU и GPU. То есть модель может жить не только в узких рамках VRAM, а опираться на гораздо большие объемы общей памяти. Где-то я это уже слышал…

Копая глубже, я обнаружил, что похожие решения появились сразу у нескольких вендоров: отметились MSI, AMD, Dell, ASUS, и, подозреваю, список этим не ограничится. И это как раз зацепило сильнее всего: когда сразу несколько производителей начинают двигаться в одном направлении, обычно за этим есть очень практичная причина.

Но основной фокус у меня, конечно, ушел на NVIDIA - и на заявленные характеристики NVIDIA GB10 Grace Blackwell Superchip. Многие найденные мной устройства оказались вариациями на тему Blackwell: похожая идея, близкая компоновка, плюс‑минус один класс задач. Самое время было искать не рекламные проспекты, а реальный опыт людей: что работает, что не работает, где ограничения, и насколько это вообще "домашняя" история.

А тем временем закончился еще один день январских праздников.

04.01.2026: ну кто бы мог подумать…

63e3cf045eee9f59cbab6f26dec93fad.jpg

Я никогда не жаловал Apple. Для этого у меня было всего две причины:

  1. Закрытость экосистемы: я не могу свободно использовать купленное железо. Простейший пример - на iPhone нельзя поставить приложение "как на Android".

  2. Философия интерфейсов: мне сложно принять логику UI/UX Apple - она просто "не моя".

Поэтому платформы Apple я никогда не рассматривал как рабочую станцию. Когда-то я жил на Windows и довольно глубоко понимал, как он устроен. Но в момент, когда Windows решил, что лучше меня знает, когда мне ставить обновления, я почувствовал потерю контроля над системой. В итоге примерно с 2015 года полностью перешел на Linux.

Как ни странно, пока я изучал тему NVIDIA DGX Spark, я постоянно натыкался на сравнения с Mac Studio. Причем не "вообще с Mac", а с вполне конкретными конфигурациями:

  • Mac Studio M4 Max 128GB

  • Mac Studio M3 Ultra 96GB и выше

И главное открытие для меня было не в конкретных бенчмарках, а в архитектурной идее: Apple, похоже, угадала потребности LLM еще задолго до 2025 года. Унифицированная память (общая для CPU и GPU) оказалась очень практичной для инференса больших моделей.

Субъективно (и без претензии на "разобрался в деталях реализации") это выглядит так, будто NVIDIA пришла к очень похожей концепции, но "намазала сверху" привычную экосистему CUDA.

Еще меня насторожило вот что: в качестве ОС NVIDIA DGX Spark использует NVIDIA DGX™ OS, а под капотом там - Ubuntu 24.04.

Да, возможно, это мой личный негативный опыт, но на Ubuntu у меня регулярно всплывают вопросы к драйверам NVIDIA в бытовых сценариях: например, добиться полностью стабильной работы нескольких мониторов с разной частотой на RTX 4070 - это не "поставил и забыл". И когда я увидел "Ubuntu + NVIDIA + обещание идеально затюненного под железо стека", я отнесся к этому скептически.

Подтверждение сомнений нашлось довольно быстро: в сообществе встречаются сообщения о проблемах (ниже - краткая выжимка; компиляцию пунктов мне помог сделать ИИ, но источники и обсуждения - живые):

  1. Перегрев и троттлинг: при длительных нагрузках устройство уходит в температурные ограничения, что ведет к падению частот и даже внезапным перезагрузкам. Встречались кейсы, когда потребление "упиралось" примерно в 100 Вт вместо заявленных 240 Вт - именно из‑за термолимитов.

  2. Производительность ниже маркетинга: некоторые эксперты (включая Джона Кармака) отмечали, что в задачах FP4/BF16 реальная производительность может быть заметно ниже обещаний (условно: порядка 480 TFLOPS вместо рекламного "около 1 PFLOPS" для FP4).

  3. Пропускная способность памяти: примерно 273GB/с называют потенциальным узким местом для инференса крупных LLM - и снова всплывают сравнения с Mac Studio (у которого в некоторых конфигурациях выше пропускная способность памяти).

  4. Проблемы с драйверами: есть сообщения о том, что nvidia-smi не видит устройство/драйвер не инициализируется, хотя диагностические панели при этом показывают "что-то живое".

  5. Кластеризация "не такая, как в рекламных слайдах": официально в текущих версиях ПО объединение в кластер может быть ограничено всего двумя устройствами (вместо ощущаемой "легкой масштабируемости" из маркетинга).

  6. Нет ECC: в 128GB унифицированной памяти LPDDR5X отсутствует коррекция ошибок, что важно для некоторых длительных расчетов и части профессиональных сценариев.

Выглядит так, что у NVIDIA есть вопросы именно к "доведенности" софт-стека под это железо.

Еще один момент, который всплыл по ходу изучения: чтобы получить часть обещанных возможностей, может понадобиться Enterprise‑подписка. Возможно, частному разработчику она и не нужна - но сам факт "лучшие сценарии за подпиской" добавляет неопределенности.

В итоге выбора у меня почти не осталось: если DGX Spark постоянно сравнивают с Mac Studio, а по отзывам у него есть детские болезни, то логично хотя бы разобраться, что там у Apple в реальности.

С первых шагов я увидел устойчиво позитивную оценку Mac Studio именно как коробки для инференса LLM. В фокусе сообщества чаще всего оказываются:

  • Mac Studio Max на M4 с 128GB памяти (младшие версии вроде 36GB для серьезного инференса обычно смысла не имеют);

  • Mac Studio Ultra на M2/M3, где конфигурации начинаются примерно с 96GB.

Самые конкурирующие конфигурации, которые я встречал в обсуждениях - это M4 Max 128GB и M3 Ultra 96GB. Главная причина - цена: в этих вариантах она нередко оказывается сопоставимой.

M3 Ultra - это фактически два чипа M3 в одном корпусе, и в задачах генерации (скорость ответа модели) он может заметно обгонять M4 Max. Выбор неочевидный: память или скорость за ту же цену?

Сравнительных таблиц по этой теме уже достаточно - при желании их легко найти через поиск. Из того, что у меня сработало лучше всего: задать вопрос в Google в режиме "ИИ" и дальше уточнять детали. Он неплохо собирает выжимку из обсуждений на форумах.

На Habr есть статья, которая мне в этом заметно помогла - не вижу смысла пересказывать ее целиком и дублировать работу автора. Ниже приведу только ключевое сравнение с небольшими уточнениями платформ NVIDIA DGX Spark и Mac Studio M3 Ultra - исключительно для удобства читателя:

Параметр

Nvidia DGX Spark

Mac Studio M3 Ultra

Strix Halo

Скорость генерации для llama3.1:8b (4bit), t/s

43.18

85.02

40.81

Скорость генерации для deepseek-r1:14b (4bit), t/s

21.45

46.50

20.57

Размер ОЗУ, Gb

128

96, 256, 512

64 или 128

Энергопотребление, W

до 240

до 480

до 140

Цена, USD

$3999

от $4000 до $14099

$1999

В таблице хорошо видно, что Mac Studio уверенно опережает альтернативные платформы. При этом у нее большой запас по конфигурациям: на Ultra с 512GB памяти, пожалуй, можно развернуть почти все, что имеет смысл запускать локально. Да, за такой объем придется заплатить - но это плата именно за гибкость и отсутствие жестких компромиссов.

И это еще не все: Mac Studio умеет работать в кластере. На Хабре есть краткое саммари по теме.

К концу дня у меня уже не оставалось сомнений, что брать нужно Mac Studio. Оставался только вопрос - какую именно. На выбор по-прежнему было два варианта: Mac Studio M4 Max с 128GB или Mac Studio M3 Ultra с 98GB. В итоге я решил, что для моих задач объем памяти и более современная архитектура на будущее важнее, чем прирост производительности примерно на ∼ 50% "здесь и сейчас".

Идеальным вариантом для меня был бы Mac Studio M3 Ultra со 128GB, но такой конфигурации я не нашел. А 256GB, судя по моим сценариям, уже избыточны - и стоят заметно дороже.

Впереди была еще одна ночь и еще один заход в исследование рынка.

05.01.2026: добро пожаловать в 90е

b5d8d72e5f815b3591b8c954af847ea5.jpg

На мой взгляд, рынок высокотехнологичной - а тем более нишевой - гражданской техники сегодня все больше напоминает "Горбушку" 30-летней давности. Многое решается через знакомых, личные договоренности и банальную удачу.

Формально, конечно, есть маркетплейсы. Но на практике они чаще продают массовый ширпотреб от продавцов с сомнительной репутацией. Найти что-то действительно интересное удается редко - и обычно либо по неадекватной цене, либо с "маркетинговыми приколами" вроде неполных комплектов, мутных гарантий и прочих оговорок мелким шрифтом. Единственное, что радует: остается надежда, что деньги не исчезнут вместе с площадкой. Хотя по факту маркетплейс нередко предлагает разбираться с проблемами напрямую с продавцом - со всеми вытекающими.

Из условно надежного офлайна у меня, по сути, остался один магазин, где баланс цена/риски/гарантия выглядит разумно. Тот самый, на три буквы. К нему тоже есть вопросы, но важное отличие - возможность приехать, на месте проверить товар и сразу принять решение. Правда, часть позиций у них уже продается только по предоплате. И главное: нужной мне Mac Studio в ассортименте не оказалось.

Есть вариант с "брокером" - по сути, онлайн-магазин известной российской курьерской компании, которая может привезти нужную конфигурацию под заказ примерно за месяц. Вариант выглядит рабочим, но ждать долго.

Во всем остальном - почти как раньше: выходишь на дикий рынок объявлений и начинаешь разгребать тонны шлака в поисках реального предложения, полагаясь на чутье и везение. Именно через это мне и пришлось пройти.

Подавляющее большинство объявлений оказались "заманухами". В карточке - ходовая конфигурация по привлекательной цене, но при звонке выясняется, что "только что забронировали". Зато есть "почти такая же", но на 40К дороже, или "позвоните через месяц". Если идти этим путем, лучше сразу запастись терпением, не верить обещаниям на 100% и всегда держать план Б.

Вторая неприятная особенность современной покупки - "цена за наличку". У большинства продавцов в объявлении указана стоимость именно при оплате наличными, а при безнале сверху добавляется от 6% до 15%. Оплата без чека - это уже совсем другой уровень рисков, поэтому помимо наличия нужной конфигурации приходится искать еще и вменяемые условия сделки.

В итоге мне посоветовали продавца. Точнее, я собрал несколько вариантов, а затем проконсультировался с человеком, который регулярно покупает технику Apple под профессиональные задачи - и он порекомендовал из списка конкретного.

Дальше все прошло спокойно. Продавец оказался открытым и адекватным. На момент сделки моя Mac Studio была в Москве, ее везли в Петербург. Мне заранее дали трек, и я подъехал в магазин сразу после того, как устройство поступило к продавцу.

07.01.2026: мой первый локальный инференс

f3f6fa947bf3580a18de3b051a15fcd1.jpg

Оставшееся время 5-го и почти все 6-е января прошло в ожидании. Я раз за разом гонял ИИ по вопросам "а точно ли Mac Studio M4 Max 128GB лучший вариант под мои задачи?", сравнивал с альтернативами и каждый раз приходил к одному выводу: да, это именно то, что нужно на сегодня.

Вечером 06.01.2026 я наконец забрал студию. Ощущения - почти торжественные: как ни крути, Apple умеет делать распаковку событием. На месте я прошел стандартные проверки: авторизовался в iCloud, сверил серийный номер, убедился в конфигурации - все сошлось.

Уже ночью поставил скачиваться первую модель для локального инференса - deepseek-r1:70b. Утром прогнал ее через ollama и получил такие цифры:

total duration: 36.507699666s load duration: 87.245166ms prompt eval count: 9 token(s) prompt eval duration: 4.823104333s prompt eval rate: 1.87 tokens/s eval count: 335 token(s) eval duration: 30.171868132s eval rate: 11.10 tokens/s

Ура - мой первый локальный инференс состоялся! Конечно, хочется быстрее (хочется всегда), но для модели уровня 70b результат меня полностью устроил - особенно в контексте моих задач.

Следом - еще один прогон deepseek-r1:14b (тоже через ollama), и тут уже заметно бодрее:

total duration: 19.584083417s load duration: 74.256375ms prompt eval count: 10 token(s) prompt eval duration: 1.148582042s prompt eval rate: 8.71 tokens/s eval count: 694 token(s) eval duration: 14.896679051s eval rate: 46.59 tokens/s

Стало быстрее, но для "модели общих знаний" я скорее выбираю "умнее", а не "быстрее".

После первых быстрых тестов я перешел к своим рабочим вопросам (в первую очередь - проверка квалификации по нужным темам) и дальше уже гонял модели через mlx. На текущий момент лучше всего показали себя такие варианты:

mlx-community/Qwen2.5-72B-Instruct-4bit:

Prompt: 39 tokens, 45.439 tokens-per-sec Generation: 909 tokens, 11.537 tokens-per-sec Peak memory: 41.263 GB

mlx-community/Qwen2.5-Coder-7B-Instruct-8bit:

Prompt: 39 tokens, 361.979 tokens-per-sec Generation: 133 tokens, 60.934 tokens-per-sec Peak memory: 8.165 GB

Именно эти две модели я пока считаю наиболее перспективными для своих задач. Но, как обычно, окончательный ответ даст практика - и время.

В заключении

25490db286c35ef3b44ec0c850c022de.jpg

Эти семь дней для меня ощущаются как маленькая жизнь. Не скажу, что за неделю я "прокачался" до уровня эксперта по развертыванию моделей, но точно сделал несколько важных для себя открытий - и уверен, что они заметно помогут мне дальше.

Работы впереди много: придется отпилить лишние копыта и причесать моделям хвост. Но это уже мои модели.

Ключевое - я довольно четко понимал свои задачи. Мой выбор плохо подходит для продакшен-инференса и тем более для серьезного обучения, зато он закрывает ровно то, что нужно мне здесь и сейчас:

  1. Локальный инференс, чтобы исключить компрометацию чувствительных данных.

  2. Расширенные возможности форматирования ответов (в том числе для подсказок кода) с использованием Outlines + MLX.

  3. Дообучение через LoRA или QLoRA.

Важно: все это - в однопользовательском режиме. Задачи "тяжелого" обучения (надеюсь, они и не понадобятся) я все равно буду решать в облаке, на заранее подготовленных данных. И здесь, кстати, я тоже рассчитываю на помощь студии - хотя бы на этапе подготовки датасетов и пайплайнов.

На чем делать продакшен-инференс, я пока не решил - это отдельный вопрос, который, скорее всего, будет каждый раз решаться под конкретного клиента и его ограничения.

Если бы бюджет был заметно шире, я, возможно, смотрел бы в сторону M3 Ultra 256GB. Но не уверен: тут все покажет только реальная эксплуатация. Других сопоставимых по смыслу альтернатив "из коробки" я на сегодня для себя не вижу.

Судя по всему, в ближайшее время нас ждет рост отдельного направления - локализации инференса. Выглядит так, что пройдет немного времени, Nvidia DGX Spark вылечит детские болезни, и мы получим сильную платформу с более широкими возможностями, чем сейчас предлагает Apple.

Еще одно наблюдение. Если смотреть на "аппаратный портрет" миниатюрных ИИ-станций, заметен явный вектор в сторону унификации памяти CPU и GPU. Мне это кажется очень разумным: прямо сейчас в моем ноутбуке простаивают 8 GB быстрой VRAM, потому что в большинстве сценариев я упираюсь в CPU. Параллельно бросается в глаза и целевой объем VRAM - порядка 128 GB. Если такие устройства станут массовыми, вероятно, начнется стандартизация моделей и пресетов под эти возможности - на мой взгляд, это хорошо.

В статье я сознательно избегал прямых ссылок на продавцов и карточки товаров, чтобы не нарушать правила Хабра. Надеюсь, по контексту и так понятно, о чем речь. Если ссылки все же нужны - оставлю их в канале.

Удачи!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Stellar (XLM) нацелен на $0,28 после того, как дорожная карта сигнализирует о росте стейблкоинов и кредитования

Stellar (XLM) нацелен на $0,28 после того, как дорожная карта сигнализирует о росте стейблкоинов и кредитования

Stellar (XLM) предпринимает важные шаги в мире DeFi с новой дорожной картой на первый квартал 2026 года, которая была представлена. Эта новая дорожная карта сосредоточена на предстоящем mainnet
Поделиться
Tronweekly2026/01/12 03:30
XRP Ledger может получить обновление токенизированного золота, заявляет крипто-босс

XRP Ledger может получить обновление токенизированного золота, заявляет крипто-босс

Статья XRP Ledger может получить обновление токенизированного золота, раскрывает криптобосс появилась на BitcoinEthereumNews.com. Говорят, что журналисты никогда по-настоящему не заканчивают работу. Но для
Поделиться
BitcoinEthereumNews2026/01/12 03:13
Stoke Therapeutics объявляет об обновлении сроков завершения набора участников и получения данных Фазы 3 из исследования EMPEROR препарата Zorevunersen для лечения синдрома Драве

Stoke Therapeutics объявляет об обновлении сроков завершения набора участников и получения данных Фазы 3 из исследования EMPEROR препарата Zorevunersen для лечения синдрома Драве

— Компания теперь ожидает завершить набор 150 пациентов во втором квартале 2026 года, с получением данных Фазы 3 в середине 2027 года; планируется начать последовательную подачу NDA в
Поделиться
AI Journal2026/01/12 03:15