Аннотация:В данной работе рассмотрены основные модели представления текстовой информации (раздел 3), их преимущества, недостатки и методы сравнения документов, представленных каждой из моделей. Кроме этого в работе приведены методы классификации и кластеризации документов, имеющие практическое применение и методы латентно-семантического анализа (раздел 4.).
В разделе 5 приведены области, смежные с рассматриваемой в данной работе, в которых находят применение рассмотренные модели и методы разбиения документов на группы и решения задачи информационного поиска, а также те, которые предлагают различные улучшения исследуемых методов:
• библиотечные каталоги,
• вертикальные поисковые системы,
• фильтрация спама,
• новостные агрегаты,
• задача ранжирования,
• задача аннотирования,
• задача индексации.
Также в работе приводятся идеи улучшения рассматриваемых методов.