ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
В рамках проекта: 1) Проведено два тура тестирования систем анализа тональности на русском языке SentiRuEval-2015 и SentiRuEval-2016. Основной целью этих тестирований являлась автоматическая оценка тональности по отношению к заданному объекту и/или его конкретным свойствам. Использовались два типа данных: отзывы пользователей о ресторанах и автомобилях и твиты относительно заданных типов объектов (банки и телекоммуникационные компании) 2) По результатам дорожки анализа сообщений Твиттера в 2015 году (SentiRuEval-2015) был проведен анализ наиболее проблемных сообщений из Твиттера, на которых ошиблись все или почти все участвующие автоматические системы. Было показано, что на тот момент у представленных подходов на основе машинного обучения существует очень высокая зависимость от обучающих данных. Такой же анализ, проведенный по результатам тестирования 2016 года, показал, что лучшие участники стали учитывать дополнительные знания для классификации твитов, включая словари и кластеры слов, сформированные на большой коллекции текстов. Результаты проведенного анализа опубликованы. 3) В 2015 впервые русскоязычные данные были подготовлены для международного тестирования по анализу тональности, проводимом в рамках конференции SemEval-2016 (http://alt.qcri.org/semeval2016/). Было размечены 300 отзывов о ресторанах для обучающей коллекции, и 100 отзывов для тестовой коллекции. В отзывах размечались характеристики ресторанов (аспекты) и тональность, высказанная по отношению к этим аспектам. Задачи, участники и результаты описаны в обзорной статье http://nlp.cs.aueb.gr/pubs/SemEval2015_ABSA_overview.pdf 4) Было выдвинуто предположение, что при извлечении мнений из текстов, особенно в общественно-политической области, важно различать слова, несущие собственно мнение, оценку, и слова, которые имеют негативные или позитивные ассоциации (коннотации), например, слово «безработица» имеет отрицательную коннотацию, а «право» имеет положительную коннотацию. Было произведено извлечение слов с коннотациями из большой новостной коллекции. 5) Создан и опубликован словарь оценочной лексики РуСентиЛекс, собранный автоматизированно и выверенный вручную. Словарь содержит в себе более 12 тысяч слов и выражений. Для многозначных слов, имеющих различную оценочную направленность при использовании в разных значениях, установлены связи значений с соответствующими понятиями в тезаурусе русского языка РуТез, что может облегчить выбор соответствующего значения слова в конкретной предметной области или конкретном контексте. Общий объем словаря, включая разные значения слов, к концу 2016 года составляет 15695 лексических единиц. 6) Создана программа, которая производит оценку тональности по отношению к заданному объекту или характеристикам объекта. Для этого должны быть заданы словари положительных и отрицательных выражений с соответствующими оценками, операторов, меняющих или усиливающих тональность, а также список объектов или характеристик. Были выполнены эксперименты по созданию предметно-ориентированных систем анализа тональности по аспектам для анализа отзывов (рестораны, фильмы), а также для анализа новостных сообщений и аналитических статей в общественно-политической области. 7) В 2016 году проведена предварительная разметка аналитических публикаций в общественно-политической области, содержащих большое количество оценок. В качестве предобработки в текстах были автоматически размечены именованные сущности (имена персон, организаций, мест). В задачу разметчиков было разметить отношение сущностей друг к другу, отношение автора к упоминаемым сущностям, связи между сущностями. Таким образом, сделан первый шаг к более детальному анализу высказываемых мнений в условиях большого количествах упоминаемых сущностей и различной оценочной позиции к ним не только со стороны автора текста, но и между ними самими. 8) Была разработана схема к созданию оценочных фреймов для слов-предикатов.
грант РФФИ |
# | Сроки | Название |
3 | 26 марта 2016 г.-30 декабря 2016 г. | Исследование методов автоматического анализа тональности текстов по отношению к заданному объекту. |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".