Автоматические методы улучшения качества векторных представлений лексических единиц за счет распространения контекстов по лексико-семантическим отношениям - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Лукашевич Н.В.
Ответственный исполнитель: Тихомиров М.М.
Подразделение: 4.04.Лаборатория анализа информационных ресурсов
Срок исполнения: 1 октября 2019 г. - 1 октября 2022 г.
Номер договора (контракта, соглашения): 19-37-90119\19
Номер ЦИТИС: АААА-А19-119100190091-4
Тип: Фундаментальная
Приоритетное направление научных исследований: Фундаментальные проблемы построения систем информатизации, методология, технология и безопасность крупных информационных систем
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Нано-, био-, информационные, когнитивные технологии
Рубрики ГРНТИ:
- 28.23.24 Модели восприятия информации в интеллектуальных системах
Ключевые слова: извлечение отношений из текстов, векторные представления слов, тезаурус, связность текстов, семантическая сеть
word embeddings, semantic network, thesaurus, text cohesion, relation acquisition
Описание:
Целью проекта является разработка новых комбинированных представлений лексических единиц, основанных как на имеющихся лексико-семантических ресурсах, так и на векторных представлениях слов, построенных на основе текстовых корпусов. Задачами проектам являются: - исследование подходов к комбинированию знаний и векторных представлений как задачи распространения контекстов по лексико-семантической сети, - исследование возможных ограничений распространения контекстов по лексико-семантической сети с учетом лексической многозначности, нестандартного употребления слов, редких значений, неточностей описаний в лексико-семантическом ресурса, - тестирование предложенного подхода на тестовых данных и в прикладных задачах, - сравнение предложенного подхода с другими подходами по комбинированию знаний и векторных представлений. Актуальность подхода состоит в том, что востребованные в настоящее время векторные представления лексических единиц, построенные на текстовом корпусе, могут быть недостаточно качественными для значимого количества слов за счет недостаточной частоты употребления слов, специфики употребления слов в корпусе и др. Комбинированные подходы по коррекции векторных представлений с использованием существующих лексико-семантических ресурсов (тезауруса типа WordNet, тезаурус русского языка Рутез и тп.) могут обогатить и улучшить векторные представления таких слов. Новизна подхода состоит в реализации метода распространения контекстов по лексико-семантическим отношениям как основы для комбинирования лексико-семантических знаний и корпусных данных.
Abstract:
The aim of the project is to develop new combined representations of lexical units, based both on the existing lexical-semantic resources and the vector representations of words constructed on text collections/ The tasks for the projects are: - the study of approaches to the combination of knowledge and vector representations as the task of context propagation in a lexical-semantic network, - study of possible restrictions on the context propagation in a lexico-semantic network taking into account lexical ambiguity, non-standard use of words, rare senses, possible inaccurate descriptions in a lexical-semantic resource, - testing the proposed approach on test data and in application, - comparison of the proposed approach with other approaches for combining knowledge and vector representations. The significance of the approach is that the currently in-demand vector representations of lexical units built on the text corpus may not be of sufficient quality for a significant number of words due to their insufficient frequency, the specifics of the use of words in the corpus, etc. Combined approaches to correct vector representations using existing lexico-semantic resources (a thesaurus of the WordNet type, the thesaurus of the Russian language RuThes, etc.) can correct and improve vector representations. The novelty of the approach lies in the implementation of the context propagation method by lexical-semantic relations as the basis for combining lexical-semantic knowledge and corpus data.
Планируемые результаты:
1) Будет предложен новый алгоритм для комбинирования лексико-семантических ресурсов и векторных представлений лексических единиц на основе распространения контекстов по лексическим отношениям, 2) Будет исследовано применение алгоритма в задачах предсказания семантической близости слов, предсказания гиперонимов для новых слов, определения перифраз, определения связности текста, разрешения лексической многозначности, 3) Будут исследованы возможности алгоритма для настройки общих векторных представлений на конкретную предметную область за счет применения специализированного лексико-семантического ресурса, 4) Будут подготовлены статьи и доклады на международные конференции.
Научный задел:
1. Разработка лексико-семантических и терминологических ресурсов Под руководством Н.В. Лукашевич разработана совокупность лингвистических и терминологических ресурсов, которые применяются в различных приложениях автоматической обработки текстов. 2. Автоматическая обработка текстов на основе тезаурусов и лингвистических онтологий Для использования созданных тезаурусов и лингвистических технологий были созданы ряд технологий автоматической обработки текстов. Была предложена и программно реализована модель построения тематического представления текстов, которое представляет основное содержание текста в виде совокупности тематических узлов, объединяющих близкие по смыслу термины описанные в тезаурусе. Тематические узлы делятся на основные и локальные. Основные тематические узлы моделируют основных участников ситуации, описываемой в документе. На основе создаваемого тезауруса и тематического представления текстов были реализованы технологии автоматического концептуального индексирования, автоматической классификации текстов, автоматического аннотирования. 3. Методы автоматического извлечения информации из текстов Ряд исследований были направлены на методы извлечения информации из текстов. Методы извлечения терминов из текстов стали основной создания тезаурусов в разных предметных областях (Лукашевич, Добров, 2001; Добров и др., 2004). С 2008 нами исследуются методы извлечения терминов из текстов на основе предварительного вычисления большого количества признаков терминов-кандидатов и последующего применения методов машинного обучения для комбинирования этих признаков (Лукашевич, Логачев 2010; Nokel, Loukachevitch, 2013). Такая технология заменила прежнюю технологию извлечения, когда исследователи искали какой-то один лучший признак, на основе которого могло бы производиться качественное извлечение.
Добавил в систему: Лукашевич Наталья Валентиновна

Источник финансирования НИР

грант РФФИ

Этапы НИР

#	Сроки	Название
1	1 октября 2019 г.-1 сентября 2021 г.	Автоматические методы улучшения качества векторных представлений лексических единиц за счет распространения контекстов по лексико-семантическим отношениям
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ФНКЦ РР
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ФНКЦ РР

Автоматические методы улучшения качества векторных представлений лексических единиц за счет распространения контекстов по лексико-семантическим отношениямНИР

Automatic methods to improve the quality of vector representations of lexical units based on context propagation among lexical-semantic relations

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты