Искусственный интеллект

Оптимизация LLM через SparseGPT и Wanda: снижение потребления VRAM на облачных GPU

DigitalOcean выложил практический разбор сжатия больших языковых моделей через SparseGPT и Wanda. Туториал от 19 июня разбирает прунинг, оценку памяти и подготовку модели к инференсу на облачных GPU.

Новость21 июня, 17:02Отдел новостей

Оптимизация LLM через SparseGPT и Wanda: снижение потребления VRAM на облачных GPU

Цель — снизить VRAM-аппетит и стоимость одного запроса.

Архитектура прунинга в двух формулах

SparseGPT формулирует задачу как послойную разреженную регрессию и восстанавливает веса после удаления, используя информацию второго порядка. Метод требует вычисления гессиана, но работает one-shot — за один проход.

Wanda идёт проще: оценка важности веса = произведение его магнитуды на норму входных активаций. Никакого обновления весов, никакого гессиана. Конкурентный уровень разреженности при минимуме вычислений.

По теме также можно посмотреть превентивная медицина и здоровый образ жизни.

По теме также можно посмотреть Тех- и гаджет-тренды: новинки гаджетов, AI-устройства, стоит ли покупать, аксессуары и.

Оба метода бьют по неструктурной разреженности. Это критическое уточнение: реальное ускорение на GPU появляется только при наличии sparse-ядер в стеке инференса. Без них — меньше памяти, но не меньше времени.

Цифры по VRAM и где они ломаются

Рабочий пример из туториала: модель на 7 миллиардов параметров в FP16 — 14 ГБ VRAM только на веса. Без учёта буферов активаций и KV-кеша.

KV-кеш растёт линейно от длины контекста и батча. На длинных генерациях он легко съедает столько же, сколько веса. Буферы активаций зависят от архитектуры и batch size — закладывать запас.

Следствие: 14 ГБ — нижняя граница. Реальное потребление в проде выше на десятки процентов.

Что проверять перед выкаткой

Метрика деградации качества относительно плотной модели. Зависит от домена, плотности прунинга и калибровочного датасета. Без замера на репрезентативных данных выкатка — рулетка.

Поддержка sparse-ядер в выбранном фреймворке инференса (vLLM, TGI, Triton). Без неё получим экономию памяти без экономии compute.

Per-request cost в пересчёте на целевой GPU-инстанс. Сжатие меняет sizing: та же модель может влезть в более дешёвый класс GPU, но время ответа и throughput требуют повторного замера.

Незакрытые вопросы

Туториал документирует прикладную инженерию, не новую архитектуру. SparseGPT и Wanda — методы 2023 года, их применение к инференсу упирается в одно и то же узкое горлышко: без аппаратной поддержки sparse-матриц ускорение остаётся теоретическим. DigitalOcean не публиковал бенчмарков latency и throughput на своём облаке — только методику расчёта памяти. Для практического вывода о TCO этого недостаточно.

Оптимизация LLM через SparseGPT и Wanda: снижение потребления VRAM на облачных GPU

Архитектура прунинга в двух формулах

Цифры по VRAM и где они ломаются

Что проверять перед выкаткой

Незакрытые вопросы

Свежее по теме