Аннотация:Магистерская диссертация Юдовой Е.А посвящена проблемам выбора и реализации оптимального алгоритма машинного обучения для классификации и кластеризации аномальных SQL-запросов.
Автором изучены научные публикации, посвященные классификации и кластеризации SQL-инъекций. На основе этого был сделан вывод, что для обнаружения SQL-инъекций следует использовать комбинированный подход, то есть сначала векторизовать запросы, а затем кластеризировать полученные векторы.
Автором был выбран датасет и выполнена предобработка данных. Также было осуществлено сокращение признакового пространства с помощью корреляции Пирсона. была произведена векторизация запросов и полученные данные рассматривались в качестве отдельного набора данных. Векторизация производилась с помощью языковой модели BERT, которая была представлена в 2018 году исследователями компании Google.
Были использованы несколько моделей машинного обучения для классификации SQL-запросов, найдены оптимальные параметры для каждой модели и выполнено сравнение результатов их работы.
Для кластеризации использовался самый популярный и распространённый метод k-cредних. Реализован метод кластеризации SQL-запросов с различными вариациями использования алгоритмов понижения размерности пространства. Выполнено сравнение результатов работы и найдены выбросы при помощи оптимального сочетания методов.