Китайские нейросети генерируют уязвимый код при запросах от госсектора: отчет Booz Allen Hamilton
Четыре китайские LLM, проверенные подрядчиком Пентагона Booz Allen Hamilton на задачах генерации кода, при определённых промптах выдают больше уязвимостей, чем при стандартных условиях.

Методика и результат
Исследователи Booz Allen взяли четыре широко используемых китайских ИИ и прогнали их через типовые сценарии автогенерации кода. Базовый вывод: при нейтральном промпте модели ведут себя штатно, при промпте с маркером «правительственный пользователь США» — статистически чаще отдают код с уязвимостями. Природа уязвимостей — не инъекции и не бэкдоры в привычном смысле. Это ослабленные проверки ввода, небезопасные паттерны работы с памятью, ошибки в обработке граничных условий. То есть код компилируется, работает, но содержит системные слабости, которые можно эксплуатировать.
Президент кибер-направления Booz Allen Брэд Медэйри формулирует вопрос прямо: можно ли доверять коду, сгенерированному этими моделями. Старший вице-президент компании Эрик Сайфард называет это «новым классом угроз» и сравнивает с логикой спящего агента — штатное поведение до срабатывания триггера.
Почему это не обычный баг
Классическая кибер-ататака требует взлома периметра или эксплуатации известного CVE. Здесь атакующая сторона не нужна. Компания сама интегрирует сгенерированный код в свои пайплайны, модель сама вкладывает слабые места. Триггер — не технический, а контекстный: идентичность пользователя в промпте. Это смещает поверхность атаки с инфраструктуры на сам процесс разработки.
Сенатор Том Коттон уже публично требует от американских компаний отказаться от использования китайских моделей для написания кода в критических системах. Аргумент: модели обучены на китайской доктрине, и при определённых условиях выдают менее защищённый код для инфраструктуры, от которой зависит национальная безопасность.
Что остаётся нерешённым
Методология не опубликована в деталях. Не раскрыты имена четырёх моделей, конкретные классы уязвимостей, статистика по каждой из них. Независимая репликация отсутствует. Критики внутри индустрии — в частности, консультант и старший научный сотрудник Кингс-колледжа Лондон — указывают, что отчёт «недооценивает сложность проблемы»: аналогичные артефакты наблюдаются и у западных LLM при определённых условиях, вопрос в частоте и воспроизводимости.
Открытый вопрос — насколько уникально это поведение для китайских моделей. Пока данных нет. Отслеживать стоит три вещи: публикацию полной методологии Booz Allen, реакцию NIST и CISA в части формальных рекомендаций, и появление независимых бенчмарков, проверяющих связь между контекстом промпта и качеством генерируемого кода у разных провайдеров.