Стартап Subquadratic: прорыв в архитектуре LLM и отказ от трансформеров

Майамский стартап Subquadratic выходит из стелс-режима с заявлением, которое ломает привычную картину рынка LLM.

Новость20 июня, 11:55Отдел новостей

Стартап Subquadratic: прорыв в архитектуре LLM и отказ от трансформеров

Новая модель SubQ, по словам разработчиков, обходит ключевое узкое место трансформерной архитектуры — плотное внимание (dense attention), обрабатывает до 12 раз больше текста за один проход и при этом сопоставима по качеству с моделями Google DeepMind, OpenAI и Anthropic на задачах кодинга. Заявлено кратное снижение стоимости инференса и энергопотребления.

Что подтверждено, а что нет

На старте компания опубликовала лишь собственные тестовые прогоны. Реакция сообщества — скептическая. Инженер Дэн Макатир (Dan McAteer) в X сформулировал диспозицию коротко: «SubQ — либо крупнейший прорыв со времён Transformer, либо AI-версия Theranos». Спустя месяц Subquadratic передала модель стороннему оценщику Appen. Директор по исследованиям генеративного AI в Appen Жанин Синанан-Сингх (Jeanine Sinanan-Singh) подтвердила результаты на ключевых бенчмарках и назвала архитектуру валидированной, отдельно отметив, что «шокирующие результаты» требуют именно внешней верификации, а не внутренней.

Сам CTO компании Алекс Уидон (Alex Whedon) признал, что публикация сторонних бенчмарков одновременно с анонсом сняла бы большую часть сомнений. CEO Джастин Дангел (Justin Dangel) заявил, что в перспективе Subquadratic рассчитывает «запустить новую эру эффективности» и что через несколько лет, по его мнению, никто не будет строить модели на трансформерах.

По теме также можно посмотреть Кризис акций Big Tech: почему инвесторы уходят из ИИ-сектора.

Где именно узкое место

Механизм внимания в трансформере — это попарное сравнение каждого токена с каждым внутри окна контекста. Сложность растёт квадратично от длины входа. Это структурный потолок, а не оптимизационная мелочь: при росте контекстного окна стоимость одного прохода растёт непропорционально, упираясь в память GPU и пропускную способность HBM. Классическая работа Google 2017 года «Attention Is All You Need» формально открыла эру LLM, но плотное внимание в ней — и есть тот модуль, который определяет экономику инференса при длинных контекстах.

Если SubQ действительно снимает квадратичную зависимость, последствия выходят за рамки одного продукта. Речь о смене базового примитива: любая альтернатива, дающая сублинейную сложность по длине входа, меняет профиль энергопотребления, требования к VRAM и архитектуру серверной стороны под inference.

Что осталось за кадром

Модель пока не выложена в открытый доступ. Независимое воспроизведение на сторонних мощностях, помимо Appen, не задокументировано. Не опубликованы детали архитектуры в форме, позволяющей рецензируемую проверку. Нет данных об устойчивости к галлюцинациям, поведении на длинных контекстах за пределами тестовых срезов, деградации качества при масштабировании параметров. Заявление «никто не будет строить на трансформерах через несколько лет» — прогноз, а не факт; инерция инфраструктуры, натренированные пайплайны и привязка к существующим GPU-кластерам делают мгновенный переход маловероятным. До появления открытых весов, воспроизводимых бенчмарков и публичной документации по архитектуре SubQ остаётся сильным инженерным тезисом — но не состоявшимся замещением текущего стека.

Стартап Subquadratic: прорыв в архитектуре LLM и отказ от трансформеров

Что подтверждено, а что нет

Где именно узкое место

Что осталось за кадром

Свежее по теме