Еще один «антиплагиат» | Computerworld Россия | Издательство «Открытые системы»

Как уверяют в Cognitive Technologies, выявить плагиат при помощи новой системы анализа текста — дело нескольких минут. Разумеется, технологии, позволяющие обнаружить «текстуальные совпадения», существовали и раньше, но все они, по утверждению Василия Постникова, руководителя департамента систем массового ввода документов, использовали свойства текста, которые можно рассчитать вручную. Например, в книге Елены Галяшиной «Основы судебного речеведения» приводятся признаки, по которым делается разбор: число наречий, соотнесенное к общему количеству слов, или существительных в родительном падеже — к общему числу существительных. Судебному эксперту приходилось считать все слова самому, но его возможности не беспредельны — таким образом он мог разобрать только несколько страниц.

Система Text Analyzer позволяет на компьютере проанализировать 400-500 страниц текста за одну минуту. В ее основе лежит программа автоматического разбора текста, которая выделяет синтаксические, семантические и структурные связи, устраняет логические неоднозначности и позволяет собрать статистику по большому количеству разнообразных признаков. То есть учитываются не только частота использования тех или иных частей речи, грамматические категории, среднее количество слов, но и их порядок в предложении — при разработке учитывалось в первую очередь то, что у каждого автора есть стиль, свойственный только ему, как отпечатки пальцев, уникальные для каждого человека. Обороты, литературные приемы, инверсии — все это новое приложение может проанализировать и сравнить с тем текстом, авторство которого не вызывает сомнения.

Как утверждают в Cognitive, простые системы антиплагиата часто не могут распознать «заимствования», если всего лишь заменить в тексте некоторые слова. Для эксперимента, проведенного Cognitive Technologies, была выбрана басня Ивана Крылова «Ворона и Лисица». Сначала система проанализировала басню в первоначальном виде, после чего во всем тексте слово «Ворона» заменили на «Корова», а «Лисица» — на «Синица». И, сделав анализ снова, получили, что вероятность того, что автор — Крылов, почти стопроцентная. Затем сравнили другие его басни между собой, и приложение опять не позволило сомневаться в авторстве Крылова. А сопоставление с другими писателями сразу выявило большие стилевые и прочие расхождения.

Когда в системе соотнесли 19-ю главу из книги «Жаба с кошельком» Дарьи Донцовой с текстом рассказа «Вспоминая Оксфорд» редактора журнала Maxim Игоря Черского, пытающегося доказать собственные права на эту главу, выяснилось, что с точки зрения системы ее автором с большей вероятностью является он, а не Донцова. Также в Cognitive по итогам испытаний Text Analyzer утверждают, что и некоторые другие тексты Черского по стилистике больше схожи с детективами знаменитой писательницы, чем иные ее собственные.

Подобные системы могут находить применение у историков, когда им надо определить, действительно ли текст принадлежит тому или иному автору, и в зависимости от этого интерпретировать ход истории в своих научных трудах. С другой стороны, приложения, анализирующие свойства текста, можно использовать в криминалистике и судебной практике.