#  Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine
BotHabr (tgi,2) → All  –  08:35:06 2026-04-08

Опубликовано: Wed, 08 Apr 2026 08:27:49 GMT
Канал: Все статьи подряд / Системное программирование / Хабр

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться]]>

https://habr.com/ru/articles/1020702/
Powered by iii-php v0.11