ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
Интернет является одним из основных средств обмена информацией и пропаганды для террористических и экстремистских сообществ. В работе развиваются предложенные в методы, основанные на машинном обучении, использующие сценарий поиска по образцу для обнаружения в сети электронных сообщений, документов, web-ресурсов, содержащих экстремистскую информацию, а также пользователей и сообществ в социальных сетях, распространяющих такую информацию. В рамках такого сценария доступен материал экстремистского содержания, и требуется найти семантически близкие материалы в социальной сети. С помощью метода семантического анализа на основе ортонормированной неотрицательной матричной факторизации выделяются ключевые слова образца, которые формируют поисковые запросы для социальной сети, и характерные тематики образца. Основанный на ортонормированной неотрицательной матричной факторизации метод семантического анализа выделяет ключевые слова образца, которые формируют поисковые запросы для социальной сети, и характерные тематики образца. Поисковая выдача по кючевым словам в социальной сети содержит много "шума" - документов, содержащих ключевые слова, но семантически далеких от исходного образца. Для фильтрации шума рассчитывается оценка релевантности найденных документов образцу с использованием проекции на выявленные в образце тематики. Для документов экстремистского содержания характерны многоязычность, случайные и преднамеренные грамматические ошибки, намеренное искажение семантически важных слов, наличие ссылок и хэштегов, что существенно усложняет семантический анализ. Для решения этих проблем используется представление документов на основе n-грамм и "обогащение" текстов документов (откачка и автоматическое аннотирование информации по ссылкам и хэштегам и включение их в тело документа). Программный прототип, в котором реализованы описанные подходы, применен к анализу реальных данных из социальных сетей.