Аннотация:Рассматривается задача формирования отчета о футбольном матче на основе сообщений социальных сетей. Такая задача сама по себе является интересной, так как есть достаточно востребованный жанр текстовых трансляций о спортивных событиях. Но при постановке задачи данная задача рассматривается, прежде всего, как модельная для решения актуальной задачи составления отчета по материалам социальных сетей о значимых социальных и политических событиях, что актуально в условиях «запаздывания» традиционных медиа. Примерами таких событий являются различного рода катаклизмы, чрезвычайные происшествия.
Были выбраны развивающиеся спортивные события, так как они похожи в том, что наблюдаются одновременно большим количеством очевидцев, имеют аналогичную структуру – как последовательность значимых событий, которые желательно автоматически определять. Также имеется сходство в том, что некоторые события могут освещаться с разных конфликтующих сторон.
Формально задача формулируется как построение обзорного реферата по специфическим коротким документам – сообщениям социальных сетей. При этом имеется возможность подбора параметров на основе сопоставления с (возможно зашумленными и противоречивыми) эталонными аннотациями, в качестве которых можно брать текстовые трансляции, публикуемыми редакторами профессиональных сайтов, пишущих о спорте.
Было разработано программное обеспечение, собирающее текстовые коллекции как сообщений социальных сетей, так и текстовых трансляций. Непосредственно в работе эксперименты проводились на материале футбольных матчей UEFA EURO 2016 (более 50 матчей, около 5 миллионов англоязычных и около 400 тысяч русскоязычных сообщений, для каждого матча рассматривались материалы нескольких текстовых трансляций).
При аннотировании использовались методы на основе LexRank, TextRank, doc2vec. Оценка производилась по разным модификациям метрик ROUGE-1, ROUGE-2, а также полноты. Сравнение разных методов показывает, что лучшие результаты по метрикам ROUGE были получены при использовании современного метода doc2vec.