ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
В докладе представлен подход для извлечения устойчивых словосочетаний (multiword expressions; MWE) из текстовых корпусов на основе кластеризации, не требующий использования обучающей выборки или лингвистических ресурсов. В качестве потенциальных MWE рассматриваются именные группы русского языка вида "прилагательное-существительное" и "существительное-существительное", которые могут быть релевантны для лексических ресурсов (тезаурусы, WordNet и т.д.). В предложенном нами методе мы представляем словосочетания в виде векторов признаков (статистических и контекстных мер ассоциации) и кластеризуем получившиеся векторы для нахождения устойчивых словосочетаний. Предложенный метод превосходит по точности как отдельные меры ассоциации, так и их комбинации, полученные с помощью суммирования или перемножения присваиваемых мерами рангов.
№ | Имя | Описание | Имя файла | Размер | Добавлен |
---|---|---|---|---|---|
1. | Презентация | Measure_clustering_approach.pdf | 1,2 МБ | 14 декабря 2019 [rossyaykin] |