Web-инструмент для выявления плагиата

Системы выявления плагиата, используя Internet, могут помочь издателям и учебным заведениям обнаруживать украденную интеллектуальную собственность.

Internet и Всемирная паутина революционизировали методы поиска и совместного использования информации. Internet дает огромную власть над информацией, но и порождает массу проблем. Никогда еще высказывания типа «Большая власть налагает большую ответственность» или «Власть развращает, а абсолютная власть развращает абсолютно» не были столь справедливы. Перечень проблем бесконечен — от мошенничества в электронной розничной торговле до компьютерных преступлений и распространения вирусов. Мы поговорим об одной из них, научной недобросовестности, а в частности — о плагиате.

Сотрудники Пенсильванского университета выделяют следующие признаки плагиата. Человек занимается плагиатом, если он:

представляет работу, написанную другим;
цитирует или перефразирует чужие высказывания без надлежащего оформления ссылок;
публикует чужие идеи без указания источника.

Насколько серьезна эта проблема? Отчет [1] свидетельствует, что три четверти студентов колледжей признаются в мелком жульничестве при выполнении письменных работ, а половина — в серьезном обмане. В [2] приведены слова одного из авторов отчета: «Студенты выросли в техническом плане, и заимствование материалов в Internet не составляет для них труда. Некоторые студенты искренне верят, что не делают ничего плохого. Им кажется, что они занимаются исследованиями. Они не видят необходимости в оформлении цитат, поскольку считают все содержимое Internet общественным достоянием». Цифры поражают воображение, особенно если учесть, что авторам отчета удалось выявить лишь небольшую часть подобных случаев. Вопрос состоит в том, сколько случаев было упущено.

Очевидно, что для школ и университетов это большая проблема. Издатели, в частности периодические издания, сталкиваются с теми же сложностями. В [3, 4] обсуждается рост числа случаев плагиата, одновременного предоставления работы в несколько мест и переиздания без ссылок на предыдущие публикации. Подобные действия находятся в противоречии с соглашением, которое подписывает каждый автор, и нарушают принцип добросовестности, лежащий в основе академических изданий.

В борьбу с этими тревожными тенденциями включились фактически все периодические издания IEEE, что привело к изменениям в Manuscript Central, интерактивной системе представления статей в эти издания.

Университеты во всем мире наращивают усилия в борьбе с плагиатом. Пенсильванский университет учредил специальные советы для разбора спорных случаев и установки типовых санкций за нарушения. В задачи советов входят проведение в жизнь политики университета по академической честности, включение ее во все учебные программы и наблюдение за тем, чтобы профессора знакомили студентов с этой политикой в самом начале каждого курса применительно к его специфике. Однако технические вопросы выявления плагиата не получили достаточного внимания.

Инструменты

Turnitin (www.turnitin.com) — самая популярная служба выявления плагиата. Она разрабатывалась группой iParadigms для педагогов и образовательных учреждений и ранее была известна как Plagiarism.org. Служба работает на коммерческой основе и требует предварительной регистрации. Профессора и преподаватели представляют студенческие работы на сайт и через день-два получают результаты. Система сличает эти материалы с проиндексированным Web-контентом, с большими базами данных, содержащими тексты из так называемых «коллекций рефератов» (они продаются в Internet для использования в качестве школьных или университетских курсовых работ), а также с ранее представленными работами.

Недавно правомерность использования данной службы была подвергнута сомнению: Turnitin после проверки включает работу в свою базу данных, получая экономическую выгоду без выплаты компенсации студентам. Несмотря на этот изъян, Объединенный комитет по информационным системам (Joint Information Systems Committee, JISC), представляющий интересы всех вузов Великобритании, недавно организовал на базе Turnitin собственную службу выявления плагиата www.submit.ac.uk.

WordCHECK (www.wordchecksystems.com) — автономное приложение, которое изобличает скорее списывание студентами друг у друга, чем заимствование внешних материалов. Для использования этого приложения преподаватель загружает все документы во внутренний архив, где они сравниваются для обнаружения копирования в пределах учебной группы. Сравнение основано на профилях ключевых слов (род лингвистического аналога отпечатка пальца) и сопоставлении фраз.

Хотя система, строго говоря, не рассчитана на выявление плагиата, она сможет это делать, если включить во внутренний архив тексты из «коллекций рефератов» и другие подобные материалы. К сожалению, по результатам испытаний этого инструмента, проведенных в 2001 году по заказу комитета JISC, его функциональные возможности признаны неудовлетворительными.

EVE2 (www.canexus.com/eve) — коммерческое приложение, которое при установке на ПК выясняет, не скопировал ли студент материал из Internet. По каждой работе приложение генерирует отчет, содержащий указание процента заимствований, список URL и аннотированную копию работы, в которой скопированные фрагменты выделены красным цветом. Можно использовать несколько форматов файлов, включая обычный текст и документы Microsoft Word, но аннотированные копии создаются только для обычного текста.

По существу, этот инструмент представляет собой интерфейс к поисковым машинам в Internet, но такая простота не ограничивает его эффективности. Единственный недостаток EVE2, отмеченный в отчете JISC за 2001 год, состоит в том, что поиск выполняется только по Web-контенту в формате HTML, а большая часть материала Всемирной паутине хранится в других форматах.

WCopyFind (plagiarism.phys.virginia.edu/Wsoftware.html) — бесплатный инструмент для обнаружения фактов списывания студентами, разработанный профессором Лу Блумфилдом в университете штата Вирджиния. Он существует по меньшей мере в двух версиях, самая удобная из которых имеет простой графический интерфейс, позволяющий загружать набор документов во внутренний архив (подобно WordCHECK). Документы сравниваются друг с другом и, по желанию, с отдельным архивом файлов (который профессор, возможно, собирал несколько лет) с целью сопоставления фраз. WCopyFind представляет результаты в формате HTML и связывает гиперссылками общие фразы в документах, чтобы указать, кто из студентов у кого списал. Хотя он и не может осуществлять поиск в Internet, инструмент очень удобен, действует достаточно быстро и выдает вполне понятные результаты.

Детектор плагиата

Казалось бы, столь разнообразных инструментов вполне достаточно, особенно если учесть, что приведенный список далеко не полон. Однако использование каждого из них имеет определенные ограничения, а порой — и требует затрат. К тому же ни один из этих инструментов не использует преимущества самого мощного оружия в доступном арсенале — поисковой машины Google, в которой уже проиндексированы более 4 млрд. Web-страниц.

Особенно важно, что в Google индексируются и контент в форматах, отличных от HTML (в частности, файлы PDF, популярные в онлайновых публикациях), и архивы статей, например из научной библиотеки Citeseer. Любой инструмент, который не может осуществлять поиск в таких ресурсах, имеет ограниченную ценность, по крайней мере, в учебных заведениях. Надо учесть, что Internet является единственным инструментом большинства студентов при исследованиях по выбранным ими темам.

В свете сказанного полезными могут оказаться лишь инструменты Turnitin и EVE2, но каждый из них имеет свои ограничения. Turnitin — это коммерческая служба, доступная только по подписке, которая, по всей видимости, нацелена на обнаружение текстов из «коллекций рефератов». Такие тексты пригодны в средних школах или на младших курсах колледжей, но редко подходят для дипломных работ. EVE2 является менее дорогостоящим средством и не ограничивается рефератами, но его возможности охватывают лишь Web-контент в формате HTML. Учитывая все ограничения, мы решили разработать собственный Web-инструмент выявления плагиата, обращающийся непосредственно к средствам поиска Google.

Основой нашего детектора является приложение Java, которое размещается на сервере и может обслуживать несколько пользователей одновременно. Приложение работает в периодическом режиме. «Проснувшись», оно проверяет, есть ли файлы для анализа во входном каталоге, а обнаружив их, начинает обработку. Каждый обработанный файл помещается в выходной каталог наряду с итоговым аналитическим отчетом и сопутствующими файлами, что делает приложение исключительно удобным. Зарегистрированные пользователи должны лишь поместить документы во входной каталог и через некоторое время забрать из выходного каталога отчеты в формате HTML. К слову, обработка типичной курсовой работы объемом около 4 тыс. слов занимает приблизительно 3 минуты.

Последовательные стадии анализа показаны на рис. 1. Мы приносим извинения заинтересованным читателям за то, что не рассказываем подробно о внутреннем механизме и алгоритмах анализа и распознавания плагиата. Дело в том, что мы пока не знаем, как справиться с проблемой публикации этих деталей без раскрытия их сути инициативным студентам, которое полностью обесценит наш инструмент.

Анализатор грамматики

Первые стадии анализа касаются грамматической структуры входного файла. Грамматический разбор осуществляется с помощью QTAG (web.bham.ac.Uk/o.mason/software/tagger) — вероятностного пакета распознавания частей речи. Он помечает каждое слово в файле как часть речи (например, прилагательное, существительное, местоимение). Это позволяет устранить некоторые слова из дальнейшего поиска, а также выявить вариации времени, залога и лица как признаки сочинения методом вырезания и вклейки или участия нескольких авторов.

Кроме того, по методу Флеша оценивается удобочитаемость документа. Вычисляются индекс легкости чтения Флеша и образовательный индекс Флеша-Кинсайда для каждого абзаца и документа в целом. Это — известные меры удобочитаемости, основанные на подсчете среднего числа слов в предложении и среднего числа слогов в слове. Они используются как индикаторы потенциального участия нескольких авторов в написании текста на основе предположения, что индексы текста, написанного студентом, не должны сильно изменяться от раздела к разделу или от абзаца к абзацу. Анализ дисперсии индексов абзацев по отношению к средней величине для всего документа позволяет идентифицировать места потенциального плагиата, которые затем извлекаются для поиска в Internet.

Google API

Как уже говорилось, для поиска в Internet детектор использует поисковую машину Google. Для этого он обращается по протоколу SOAP к Web-сервису поисковой машины Google Web API.

Фрагменты текста, которые на основании грамматического разбора были идентифицированы как потенциальные «горячие точки», преобразуются в образцы для поиска. Преобразование проводится двумя способами: это поиск точных соответствий фрагментов предложения (Google ограничивает длину фрагмента десятью словами) и контекстных совпадений ключевых слов (которые определяются с помощью распознавателя частей речи QTAG). Пользователь может сконфигурировать детектор так, чтобы использовать только один из этих способов, либо оставить режим по умолчанию, в котором контекстный поиск выполняется лишь в том случае, когда результаты точных совпадений находятся ниже заданного порога.

Детектор просматривает возвращаемый из Google список ссылок, чтобы удалить лишние и повторяющиеся URL и определить наиболее явные совпадения для каждого фрагмента текста и входного файла в целом. При подсчете индекса плагиата документа учитываются число и степень совпадения найденных текстов, стандартное отклонение индексов Флеша и результаты грамматического анализа. Индекс плагиата устанавливается в диапазоне от одного до пяти и в отчетах обозначается отметкой на пятицветной шкале — от зеленой для «полностью невиновных» до красной для «особо провинившихся».

Почему мы не ищем в Internet весь документ целиком, предложение за предложением? Первые же эксперименты показали, что это непрактично, если учесть объем и количество входных документов. Кроме того, правила сервиса Google API допускают не более 1 тыс. поисков в день в расчете на одного пользователя, и эта норма быстро расходуется впустую на поиск фрагментов текста, не похожих на плагиат.

Примеры отчетов

Рис. 2. Фрагмент отчета о работе, не содержащей плагиата

Чтобы продемонстрировать полезность разработанного нами инструмента выявления плагиата, приведем примеры отчетов, выдаваемых в формате HTML. Инструмент создает итоговый отчет (рис. 2) с указанием названия работы и даты анализа. Далее в отчете указаны индексы Флеша для всей работы, за которыми следуют абзацы текста. Для каждого абзаца приведены список относящихся к нему URL и разница между индексами Флеша для текста в целом и данного абзаца. Ссылка View открывает отдельную страницу для каждого абзаца (рис. 3), на которой его текст сопровождается выдержками из найденных документов, а совпадающие слова выделены жирным шрифтом, чтобы пользователь мог быстро идентифицировать совпадения и определить, действительно ли автор заимствовал этот фрагмент.

Рис. 3. Страница отчета по абзацу, не содержащему плагиата

В первом примере, анализа выпускной исследовательской работы по теме «Разработка на базе моделей» (Model Driven Development), по фрагменту итогового отчета на рис. 2 можно определить, что плагиат не обнаружен (на что указывает зеленый сегмент индикатора). На рис. 3 показан детальный отчет для первого абзаца, из которого видно, что в выдержке из найденного документа выделены лишь отдельные термины. Это означает, что текст не был скопирован, а поисковая машина Google просто нашла термины, связанные с темой работы.

Рис. 4. Фрагмент отчета о работе, включающей в себя плагиат

На рис. 4 проиллюстрирован анализ работы по возврату инвестиций в процессе разработки программного обеспечения, включающей в себя существенные заимствования. Обратите внимание на красный сегмент индикатора, означающий, что инструмент обнаружил плагиат. Если открыть ссылку View для второго абзаца (рис. 5), по выделенному тексту можно будет определить, что автор скопировал с Web-страницы целые предложения без указания источника, явно нарушив все принципы академической честности.

Рис. 5. Страница отчета по абзацу, содержащему плагиат

Дальнейшие усовершенствования

В следующих версиях планируется ввести ряд усовершенствований:

Полнее использовать информацию, получаемую при грамматическом разборе, чтобы выделять подозрительные фрагменты представленных документов и тем самым уменьшать объем поиска в Internet.
Добавить возможность проверки ссылок, чтобы надлежащим образом оформленные цитаты в исходном тексте не давали вклада в индекс плагиата. Пока инструмент не определяет, правильно ли сослался автор на скопированный материал, и это становится проблемой, особенно при прямом цитировании: возвращаемые Google индексы соответствия укажут на плагиат, даже если автор должным образом процитировал источник. Сколь бы простым это ни казалось, убедиться в правильности цитирования достаточно трудно из-за использования разных способов оформления цитат.
Поэкспериментировать с альтернативными подходами к выбору терминов, чтобы уменьшить результаты поиска. Хотя методы точного совпадения и контекстного сравнения (по ключевым словам) достаточно эффективны, возможно, альтернативные схемы выбора ключевых слов, например выделение терминов, состоящих из двух слов, окажутся более действенными.
Добавить возможность обработки файлов PDF, документов Microsoft Word и файлов HTML (сейчас мы можем работать только с текстовыми файлами ASCII). Единственный формат, в отношении которого мы предвидим трудности, — это документ Word. Дело в том, что наш детектор построен на платформе Java, для которой у Microsoft нет стандартных интерфейсов API для доступа к документам Word, а свободно распространяемые инструменты и инструменты с открытым кодом просто не поспевают за частыми изменениями формата документов Microsoft.

Разумеется, выявление плагиата или любой другой формы научной недобросовестности не может устранить их причин. Мы имеем дело лишь с симптомами этой социальной болезни, но теперь можем диагностировать ее проявления и надеемся, что угрозы изобличения окажется достаточно для сдерживания ее развития.

ЛИТЕРАТУРА

D. McCabe, L. Trevino and K. Butterfield. Academic Integrity in Honor Code and Non-Honor Code Environments: A Qualitative Investigation/ J. Higher Education, vol. 70, n. 2, 1999.
M.C. Peterson. Download. Steal. Copy. Cheating at the University/ Daily Pennsylvanian, 2001, 27 Nov.
R.L. Haupt. Plagiarism in Journal Articles/ IEEE Antennas and Propagation, Aug. 2003, vol. 45, n. 4.
W. R. Stone. Plagiarism, Duplicate Publication and Duplicate Submission: They Are All Wrong!/ IEEE Antennas and Propagation, Aug. 2003, vol. 45, n. 4.

Колин Нейл (cjneill@psu.edu) — доцент Пенсильванского университета. Ганеш Шанмагантан (gshanmug@sct.com) — старший инженер по программному обеспечению компании SCT.