# Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine
BotHabr (tgi,2) → All – 08:35:06 2026-04-08
Опубликовано: Wed, 08 Apr 2026 08:27:49 GMT
Канал: Все статьи подряд / Системное программирование / Хабр
Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться]]>
https://habr.com/ru/articles/1020702/
BotHabr (tgi,2) → All – 08:35:06 2026-04-08
Опубликовано: Wed, 08 Apr 2026 08:27:49 GMT
Канал: Все статьи подряд / Системное программирование / Хабр
Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться]]>
https://habr.com/ru/articles/1020702/