Проект Heretic на GitHub: инструмент для полного снятия цензуры с текстовых нейросетей

Проект Heretic, разработанный под ником p-e-w, представляет собой инструмент для автоматического «джейлбрейка» больших языковых моделей (LLM). Он использует методы оптимизации для поиска набора внутренних параметров, которые эффективно обходят механизмы безопасности и фильтры, установленные разработчиками (например, RLHF/SFT). Разработчик утверждает, что Heretic работает со всеми типами моделей и позволяет генерировать контент, который ранее был заблокирован из-за политики безопасности. В качестве доказательства эффективности приводится тестирование на модели Google Gemma 3, где частота отказов в выполнении потенциально опасных или нежелательных запросов снизилась с 97% до 3%. Для использования инструмента требуется локальный запуск модели и, соответственно, компьютер средней мощности или выше, что необходимо для процесса поиска оптимальных параметров. Проект доступен бесплатно. 💡 Фактчекинг: Информация подтверждена. Проект Heretic (автор p-e-w) доступен на GitHub и использует автоматический подбор параметров для обхода цензуры LLM. Заявленные показатели эффективности (снижение отказов Gemma 3 с 97% до 3%) соответствуют данным, представленным разработчиком.

Проект Heretic на GitHub: инструмент для полного снятия цензуры с текстовых нейросетей

Ключевые факты