ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
В докладе даётся обзор методов решения задач классификации и регрессии с категориальными признаками. Категориальный (факторный, номинальный) признак -- это признак, значения которого обозначают принадлежность объекта к какой-то категории (например, национальность, профессия, идентификационный номер, тарифный план, издательство и т.п.). В последние годы появились задачи, в которых почти все или даже все признаки категориальные. Одна из таких задач используется как тестовая для алгоритмов из обзора: задача Международного соревнования <<Amazon.com -- Employee Access Challenge>> о построении рекомендательной системы для службы безопасности. В докладе рассматриваются следующие модели алгоритмов: {Линейные алгоритмы}, в которых ответ выражается в виде функции от линейной комбинации признаков нового (вещественного) признакового пространства. {Обобщения байесовских алгоритмов}, основанные на кодировании категорий оценками вероятностей принадлежности к классам объектов категорий. {Cингулярное разложение матрицы бинарных признаков}, которая является матрицей характеристических векторов принадлежностей к категориям. {Алгоритмы, основанные на близости}, которые обобщают модель ближайших соседей kNN и алгоритмов вычисления оценок (АВО). {Тензорные разложения}, в которых номера категорий интерпретируются как индексы многомерной матрицы. {Кодировки категориальных признаков в вещественные}, которые позволяют применять стандартные алгоритмы, например, случайные леса (random forest). Работа выполнена при поддержке гранта РФФИ \No 14-07-00965