Методы машинного обучения для обнаружения активности экстремистского характера в сети Интернет - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Красняков Евгений Игоревич, Царёв Дмитрий Владимирович, Петровский Михаил Игоревич, Машечкин Игорь Валерьевич
Международная Конференция : Ломоносовские чтения - 2017
Даты проведения конференции: 17-26 апреля 2017
Дата доклада: 26 апреля 2017
Тип доклада: Устный
Докладчик: Царёв Дмитрий Владимирович
Место проведения: МГУ имени М.В. Ломоносова, Russia
Аннотация доклада:
Интернет является одним из основных средств обмена информацией и пропаганды для террористических и экстремистских сообществ. В работе развиваются предложенные в методы, основанные на машинном обучении, использующие сценарий поиска по образцу для обнаружения в сети электронных сообщений, документов, web-ресурсов, содержащих экстремистскую информацию, а также пользователей и сообществ в социальных сетях, распространяющих такую информацию. В рамках такого сценария доступен материал экстремистского содержания, и требуется найти семантически близкие материалы в социальной сети. С помощью метода семантического анализа на основе ортонормированной неотрицательной матричной факторизации выделяются ключевые слова образца, которые формируют поисковые запросы для социальной сети, и характерные тематики образца. Основанный на ортонормированной неотрицательной матричной факторизации метод семантического анализа выделяет ключевые слова образца, которые формируют поисковые запросы для социальной сети, и характерные тематики образца. Поисковая выдача по кючевым словам в социальной сети содержит много "шума" - документов, содержащих ключевые слова, но семантически далеких от исходного образца. Для фильтрации шума рассчитывается оценка релевантности найденных документов образцу с использованием проекции на выявленные в образце тематики. Для документов экстремистского содержания характерны многоязычность, случайные и преднамеренные грамматические ошибки, намеренное искажение семантически важных слов, наличие ссылок и хэштегов, что существенно усложняет семантический анализ. Для решения этих проблем используется представление документов на основе n-грамм и "обогащение" текстов документов (откачка и автоматическое аннотирование информации по ссылкам и хэштегам и включение их в тело документа). Программный прототип, в котором реализованы описанные подходы, применен к анализу реальных данных из социальных сетей.

Доклад на конференции выполнен в рамках проекта (проектов):

Исследование, разработка и применение инновационных технологий построения интеллектуальных программных систем

Добавил в систему: Петровский Михаил Игоревич

	ИСТИНА	Войти в систему Регистрация
	ФНКЦ РР
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ФНКЦ РР

Методы машинного обучения для обнаружения активности экстремистского характера в сети Интернетдоклад на конференции