В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным.
Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь.
В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь.
В качестве вводных считаем, что дрова установлены корректно. Лучше это проверить заранее, в т. ч. nvlsm и fabric-manager, чтобы потом не отлавливать ошибки запуска моделей одновременно с проблемами настройки железа.
DeepSeek-V3.2
Если R1 совсем прошлогодняя (январь-май 2025), то V3.2 - относительно свежа, декабрь 2025. (Из очень странных проблем - при запуске исходной R1 постоянно, причём на разных safetensors, вылетала ошибка валидации весов, которую не удалось забороть перекачиванием и сверкой хэшей... Зато DeepSeek-R1-0528 полетела с первого раза. Как и V3.2. После небольшого исправления. Берём образ (в т.ч. свежий vllm/vllm-openai:v0.16.0), получаем ошибку Error 803: system has unsupported display driver / cuda driver combination.
Причина бага - несовместимость свежих релизов vllm с последними драйверами в системе, которая лечится переменной
environment: - LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu
От железа не зависит, на B200 и H200 проявляется. От версии CUDA внутри самого образа vllm тоже не зависит.
Характерное изменение в DeepSeek V3.2 - отсутствие шаблона чата. К модели прилагаются примеры кода, конечно - но для работы через API в openai-совместимом режиме проще подставить рекомендованный параметр запуска --tokenizer-mode deepseek_v32. v4 пока не вышел, хотя, по слухам, обещали ещё вчера... Ждём.
Z.ai GLM
По инструкции, для вышедшей в декабре 2025 версии 4.7 (любой, полновесной и -flash) добиваем образ трансформерами из сырцов.
FROM vllm/vllm-openai:v0.15.0-cu130 RUN apt update && apt install git -y RUN pip install -U git+https://github.com/huggingface/transformers.git
В нашем случае исходный образ был 0.15. up... оп! - опять Error 803. Но лечится немного по-другому, чем в прошлый раз:
volumes: - /dev/null:/etc/ld.so.conf.d/00-cuda-compat.conf
Для GLM-5 (февраль 2026) разработчики vllm выпустили отдельный образ, который для последних дров тоже надо патчить при запуске. Уже через env переменную LD_LIBRARY_PATH (см. про DeepSeek и vllm 0.16).
Moonshot AI Kimi-K2.5
Опубликована аккурат 1 января 2026. Тяжёлая, больше триллиона параметров (в INT4). В доках от VLLM написано, что работает с версии 0.15 - на самом деле, нормально поехало только с 0.16 (которая очень кстати подъехала 26 февраля). На предыдущем релизе и nightly сборках так и не получилось забороть все ошибки. vllm периодически крашился в процессе работы. Возможно, дело в параметрах тонкой настройки, но это выходит за рамки запуска"out-of-the-box". Из дополнительных параметров обязательно требуется флаг --trust-remote-code для кода, который поставляется с моделью. vllm версии 0.16 требует того же патча через LD_LIBRARY_PATH .
Kimi доставил(а). Настойчиво идентифицирует себя как Claude. На простейший запрос "What is your cutoff date?" последовательно можно получить примерно такие результаты:
На Реддите даже тредик есть по этому поводу.
Qwen3.5
Две недели от роду. Уменьшенной версии и того меньше - публикуют с интервалом в неделю. Документация по vllm говорит, что для запуска Квина нужны nightly сборки и обещают зафиксировать всё необходимое в коде предстоящей версии vllm 0.17, но, по факту, работает только в образе vllm/vllm-openai:qwen3_5 "от производителя". Во всяком случае, быстро собрать всё нужное из nightly и дополнительных источников не вышло. Но у "фирменного" образа те же проблемы при запуске на свежих дровах, поэтому рецепт стандартный для vllm версий от 0.16 - через env. Модель забавная. Навскидку пытается сказать, что знает всё до 2026 года, но потом съезжает в 2024. Ризонинг сырого, не ограниченного промптами Квина довольно странный. Слишком много думает и делает вид, что перепроверяет себя. В чате без установочных промптов довольно специфична.
TL;DR
Если вкратце, то потраченного времени удалось избежать бы, не будь вот этого бага vllm со свежими драйверами Nvidia. В треде есть ссылка на чуть более ранние упоминания, но это всё ещё не полечено в nightly сборках vllm.
Патч для запуска vllm 0.15 на 590.48.01:
volumes: - /dev/null:/etc/ld.so.conf.d/00-cuda-compat.conf
Для запуска vllm 0.16+:
environment: - LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu
Под специфичными параметрами подразумеваем те, без которых не полетит:
|
Модель |
Образ vllm для запуска |
Специфичные параметры |
|
DeepSeek-V3.2 |
vllm/vllm-openai:v0.16.0-cu130 |
|
|
GLM-4.7 |
vllm/vllm-openai:v0.15.0-cu130 + transformers nightly |
n/a |
|
GLM-5 |
vllm/vllm-openai:glm5 |
n/a |
|
Kimi-K2.5 |
vllm/vllm-openai:v0.16.0-cu130 |
|
|
Qwen3.5 |
vllm/vllm-openai:qwen3_5-cu130 |
n/a |
Всё перечисленное в равной степени верно и подходит для уменьшенных версий каждой из модели (если доступны), так что экспериментировать можно на любом железе. По качественным показателям свежие модельки похожего размера довольно близки, каких-то существенных отрывов нет. Дальше интересно попробовать на реальных задачах (чаты, кодинг, агрегация и генерация документов) оценить, например, целесообразность запуска 4-8ми инстансов GLM-4.7-flash вместо одной полноразмерной GLM-4.7, или Qwen3.5 в варианте 35B вместо 397B. Если у кого-то есть практический опыт - делитесь в комментариях.
Источник


