Уязвимость LLM: нейросети выдают секреты, если запрос оформлен в стихах
Ключевые факты
- 1 Уязвимость «Поэтический джейлбрейк» использует стихи и метафоры для обхода фильтров LLM.
- 2 Нейросеть воспринимает запрос как литературное задание, игнорируя его вредоносный подтекст.
- 3 Gemini 2.5 Pro показала 100% уязвимость к этому методу, став самой подверженной атаке моделью.
Исследователи выяснили, что если зашифровать запрос на получение запрещенной информации (например, инструкции по созданию опасных веществ) в поэтической форме, нейросеть воспринимает его как литературное упражнение, а не как вредоносную команду. Защитные механизмы, настроенные на блокировку прямых запросов, игнорируют метафорический контекст. В результате модель спокойно выдает пошаговые инструкции, замаскированные под описание кулинарного рецепта или производственного процесса. Наиболее подверженной этой атаке оказалась модель Gemini 2.5 Pro, где метод сработал в 100% случаев, что указывает на серьезные пробелы в ее системе безопасности.