Оптимизация LLM через SparseGPT и Wanda: снижение потребления VRAM на облачных GPU
DigitalOcean выложил практический разбор сжатия больших языковых моделей через SparseGPT и Wanda. Туториал от 19 июня разбирает прунинг, оценку памяти и подготовку модели к инференсу на облачных GPU.

Архитектура прунинга в двух формулах
SparseGPT формулирует задачу как послойную разреженную регрессию и восстанавливает веса после удаления, используя информацию второго порядка. Метод требует вычисления гессиана, но работает one-shot — за один проход.
Wanda идёт проще: оценка важности веса = произведение его магнитуды на норму входных активаций. Никакого обновления весов, никакого гессиана. Конкурентный уровень разреженности при минимуме вычислений.
Оба метода бьют по неструктурной разреженности. Это критическое уточнение: реальное ускорение на GPU появляется только при наличии sparse-ядер в стеке инференса. Без них — меньше памяти, но не меньше времени.
Цифры по VRAM и где они ломаются
Рабочий пример из туториала: модель на 7 миллиардов параметров в FP16 — 14 ГБ VRAM только на веса. Без учёта буферов активаций и KV-кеша.
KV-кеш растёт линейно от длины контекста и батча. На длинных генерациях он легко съедает столько же, сколько веса. Буферы активаций зависят от архитектуры и batch size — закладывать запас.
Следствие: 14 ГБ — нижняя граница. Реальное потребление в проде выше на десятки процентов.
Что проверять перед выкаткой
Метрика деградации качества относительно плотной модели. Зависит от домена, плотности прунинга и калибровочного датасета. Без замера на репрезентативных данных выкатка — рулетка.
Поддержка sparse-ядер в выбранном фреймворке инференса (vLLM, TGI, Triton). Без неё получим экономию памяти без экономии compute.
Per-request cost в пересчёте на целевой GPU-инстанс. Сжатие меняет sizing: та же модель может влезть в более дешёвый класс GPU, но время ответа и throughput требуют повторного замера.
Незакрытые вопросы
Туториал документирует прикладную инженерию, не новую архитектуру. SparseGPT и Wanda — методы 2023 года, их применение к инференсу упирается в одно и то же узкое горлышко: без аппаратной поддержки sparse-матриц ускорение остаётся теоретическим. DigitalOcean не публиковал бенчмарков latency и throughput на своём облаке — только методику расчёта памяти. Для практического вывода о TCO этого недостаточно.