Аннотация:Модели машинного обучения привнесли вместе с собой и новый класс кибератак – состязательные атаки. Большие языковые модели не являются исключением и также подвержены атакам. Такие атаки становятся все более опасными в контексте использования глубокого обучения и искусственного интеллекта в различных областях. В мире современных вычислений и искусственного интеллекта, безопасность играет ключевую роль и противодействию таким атакам уделяется все больше внимания. Атаки на большие языковые модели включают, в частности, атаки периода исполнения, известные как Prompt Injection. Эти атаки направлены на нарушение работы больших языковых моделей путем внедрения злонамеренных инструкций или запросов (prompt) для искажения результатов вывода модели, что может привести к серьезным последствиям для конфиденциальности и целостности информации. Технически, они оказываются одними из самых простых в исполнении для злоумышленников. В связи с этим возникает необходимость исследования и разработки эффективных стратегий противодействия Prompt Injection. Данная статья посвящена исследованию и разработке эффективных алгоритмов и методологий, способных обнаруживать и блокировать атаки типа Prompt Injection, с целью повышения безопасности систем и защиты от вредоносных воздействий. Ключевой целью работы является реализация данных методов в виде программных решений, а также оценка их эффективности через эксперименты с использованием различных метрик на тестовых данных. Научная новизна данной разработки заключается в создании уникальных механизмов защиты, способных обеспечить надежную безопасность языковых моделей от атак Prompt Injection.