Аннотация:Рассматривается задача обнаружения некорректных текстовых заимствований. Поиск заимствований в текстовых документах является сложной, но в то же время востребованной задачей, особенно в академической и студенческой средах. Можно выделить два глобальных подхода к задаче поиска некорректных заимствований в тексте: поиск внешних заимствований (external plagiarism detection) и поиск внутренних заимствований (intrinsic plagiarism detection). Поиск внешних заимствований представляет собой поиск по внешней коллекции документов, которые могли быть использованы в качестве источника заимствования. Поиск внутренних заимствований же, наоборот, не использует внешнюю коллекцию потенциальных источников, а анализирует текст изолированно. Методы поиска заимствований по внешней коллекции являются точными, так как обнаруживают точные совпадения в анализируемом тексте и в тексте источнике. Однако они являются ресурсоемкими, так как размеры коллекций для поиска как правило очень большие. Методы поиска внутренних заимствований, напротив, являются гораздо менее точными, так как выявляют нерегулярности в стиле письма автора, которые не обязательно могут оказаться заимствованиями. Методы поиска текстовых заимствований, используемые в промышленных системах (таких как Антиплагиат) постоянно совершенствуются, так как сами методы заимствований тоже усложняются. Например, появились методы обнаружения перефразирований, поиска переводных заимствований или обнаружения скрытых заимствований. Развитие таких методов ведет к увеличению сложности и объемов вычислительных ресурсов, необходимых для осуществления проверок. При этом практика показывает, что применение всего спектра методов обнаружения некорректных заимствований далеко не всегда оправданно. Предлагается использовать подход по поиску внутренних заимствований. Как было сказано, в качестве самостоятельного инструмента, такой подход имеет очень низкое качество работы. Но его можно использовать как грубый фильтр перед более точной проверкой, который будет отсеивать документы, которым не нужна детальная экспертиза.В работе рассматривается алгоритм фильтрации высокооригинальных текстов, основанный на анализе частот употребления символьных и словесных n-грам. На основе данного алгоритма реализован программный комплекс, предназначенный для внедрения в систему выявления некорректных текстовых заимствований с использованием внешних текстовых коллекций. Снижение нагрузки происходит путём отбора документов, не требующих детальной проверки. Документы же, требующие детальной проверки, проходят полную проверку. Описывается вычислительный эксперимент, демонстрирующий работоспособность данного метода, а также объем сэкономленных вычислительных ресурсов. Показывается, что на размеченных и синтетических данных подход позволяет сократить поток документов, которым не требуется детальная проверка, почти на треть. При этом важно подчеркнуть, что это не только ускоряет время обработки отдельных документов, а позволяет использовать вычислительные ресурсы более целенаправленно, то есть детально анализировать именно те документы, которые нуждаются в такой проверке.