Уязвимость LLM: нейросети выдают секреты, если запрос оформлен в стихах

Itest Ua 21.01.2026 — 09:36

Ключевые факты

1 Уязвимость «Поэтический джейлбрейк» использует стихи и метафоры для обхода фильтров LLM.
2 Нейросеть воспринимает запрос как литературное задание, игнорируя его вредоносный подтекст.
3 Gemini 2.5 Pro показала 100% уязвимость к этому методу, став самой подверженной атаке моделью.

Исследователи выяснили, что если зашифровать запрос на получение запрещенной информации (например, инструкции по созданию опасных веществ) в поэтической форме, нейросеть воспринимает его как литературное упражнение, а не как вредоносную команду. Защитные механизмы, настроенные на блокировку прямых запросов, игнорируют метафорический контекст. В результате модель спокойно выдает пошаговые инструкции, замаскированные под описание кулинарного рецепта или производственного процесса. Наиболее подверженной этой атаке оказалась модель Gemini 2.5 Pro, где метод сработал в 100% случаев, что указывает на серьезные пробелы в ее системе безопасности.

Источник