Аннотация:В дипломной работе Лисицкого В.А. исследуется задача автоматической классификации коротких текстов специальных жанров. Решение данной задачи имеет существенную практическую ценность, например, для автоматизации подбора в «сегодняшних» Интернет-блогах привлекательных для многих Интернет-пользователям материалов типа анекдотов, смешных или, наоборот, «печальных» историй, интересных фактов и т.п. Интерес большого числа пользователей затем может быть монетизирован различными способами.
В научном плане задача представляет интерес по следующим причинам. Если задача классификации тематических текстов, например, нормативных актов, материалов СМИ, сообщений информационных агентств и т.п. хорошо изучена, то задача классификации текстов нетематических жанров, особенно коротких изучена значительно меньше. Кроме того является нетривиальным вопрос построения эффективной системы, обеспечивающей массовую обработку значительного входного потока блогов (несколько сотен тысяч документов в день).