Аннотация:Дипломная работа посвящена исследованию методов решения задач с т.н. нестандартными функционалами качества. Под нестандартностью понимается, прежде всего, отсутствие должного внимания к ним в классических учебных курсах по машинному обучению, а также невозможность «простой подгонки» под такие функционалы алгоритмов из распространённых библиотек для анализа данных. Например, «корреляция» является классическим понятием математической статистики, но задачи регрессии, в которых такой функционал используется для оценки решения, практически не описаны в литературе. В дипломной работе описана одна из таких задач. При изучении химических (или «биологических») соединений часто смотрят на «степень взаимодействия вещества с остальными». При этом, в разных случаях под степенью взаимодействия понимается разное: время реакции, количество выделенного тепла и т.п. Поэтому ответ получается в различных единицах, которые очень сложно привести в одну шкалу. Но можно потребовать от алгоритма, чтобы его ответы коррелировали с истинными (а измеряться они могут «в своей шкале»).
Дипломницей сделано огромное число экспериментов. Подробно исследованы 2 функционала (корреляция и LOGLOSS), а также 2 задачи, при этом одна фактически является набором задач (каждая со своей спецификой). Рассмотрена работа стандартных алгоритмов, а также алгоритмов, в которых настройка «заточена под заданный функционал качества». Рассмотрено построение ансамблей алгоритмов. Отметим, что в процессе работы были использованы системы Matlab, R, а также язык Python и специализированные библиотеки.