Аннотация:Дипломная работа посвящена разработке алгоритма, устанавливающего соответствие между словом или словосочетанием и его сокращением (например, система линейных уравнений – СЛУ). На вход алгоритма поступают две строки. На основе эвристик делается предположение о том, какая из строк является сокращением, а какая – его расшифровкой. В качестве результата алгоритм генерирует все возможные соответствия между символами сокращения и символами расшифровки, а также возвращает информацию о типе сокращения.
Алгоритм ориентирован на обработку наиболее типичных для русского языка сокращений, в том числе, графических. Разработанный алгоритм может быть применен при решении различных задач автоматической обработки текстов, в которых требуется извлечение из текста слов/словосочетаний и соответствующих им сокращений, таких как создание и обновление машинных словарей, индексирование документов и запросов пользователей для информационного поиска и др.
Тестирование алгоритма было проведено на наборе из 150 сокращений, выбранных из научно-технической литературы, а также на всех сокращениях из документа ГОСТ 7.12-93 (362 сокращения). В результате тестирования было корректно расшифровано 98% сокращений.