Аннотация:В работе рассматривается задача классификации людей по типу восприятия трудных жизненных ситуаций.
Имеются два вида обучающей информации: 8-мерный вектор, возникающий в результате ответов на опросник и более чем 150-мерный вектор, который является результатом разметки текста с описанием тяжелой жизненной ситуацией. Считается, что всего типов восприятия тяжелых жизненных ситуаций 5. Элементов в обучающей выборке менее 700. И для каждого опрашиваемого этот тип уже определен психологом. Задача – найти алгоритм классификации, основанный на машинном обучении, который бы давал приемлемую ошибку классификации.
Поскольку обучающая выборка очень маленькая, то прямое использование различных алгоритмов машинного обучения не давали приемлемого результата (вероятность правильного ответа получалась менее 50%). Никите пришлось проявить изрядную изобретательность, чтобы подобрать последовательность разбиений задачи на подзадачи, для каждой находить существенные признаки и подбирать методы классификации. В результате получился некий комбинированный алгоритм классификации, который дает вероятность правильного ответа 80%. Но надо признать, что решающее правило этого алгоритма существенно сложнее решающего правила, основанного на моделировании психолога, и, кажется, имеет место некоторое переобучение, т.е. нет уверенности, что он будет также хорошо работать на новых выборках.