Аннотация:Последнее время количество, объем, и сложность Web-ресурсов увеличивается с каждым днем. Сейчас среднестатистическая HTML страница содержит не более 20% значимой информации. Остальной объем HTML кода приходится на скрипты, рекламу, навигационное меню, элементы оформления и другие информационные блоки, не несущие полезной информации для пользователя.
Индекс поисковых систем содержит всю текстовую информацию сайта, но часто она бывает не значимой (например, заголовки навигационных меню, оптимизационный код, ссылки на другие статьи, которые не соотносятся с тематикой данной страницы и многое другое). По этим причинам качество результатов выдачи ухудшается, а время на обработку страниц возрастает.
Возникла необходимость алгоритма, который будет посредником между исходным кодом страниц и поисковой системой, передавая системе индексации обработанный текст, максимально соответствующий тематике данной страницы.
В данной работе будем считать, что значимая информация – это текстовая информация, соответствующая тематике страницы. Вообще, понятие значимой информации нечеткое и зависит от того, для чего будет использоваться полученная информация. Например, оптимизационный текст, находящийся за видимой частью страницы и не несущий никакой информативности для пользователя добавляется на страницы портала для привлечения дополнительных уникальных посетителей. При индексации поисковая система считает, что оптимизационный текст является частью страницы, и в выдаче результатов поиска поднимает сайт на более высокие позиции. В данной работе считается, что оптимизационный текст является малозначимым или незначимым вообще, и для «чистоты» результатов его желательно не использовать при индексировании. Значимость информации определяется по итоговой формуле, и зависит от нескольких параметров: повторяемость текста на страницах ресурса, длина текста и пунктуация.
Целью данной работы является разработка метода автоматического разделения html-страниц на незначимую и содержательную части (будем называть ее значимой частью).