Сегодня большое распространение получили такие крупномасштабные базы знаний, как Google Knowledge Vault, Deep Dive, Microsoft Academic Graph и др., использующие автоматические методы интеграции данных из множества источников и извлечения фактов из текстов, что, однако является причиной ошибок, связанных с различиями в схемах источников данных и ошибки идентификации таких сущностей, как авторы публикаций. Для устранения этих ошибок разрабатываются методы слияния данных, направленные на обнаружение и устранение ошибок и конфликтов, проверку корректности извлекаемых фактов, оценку надежности источников данных и методов извлечения информации из них. Вместе с тем, значительная часть текстов, в частности, научных публикаций, создаются не англоязычными авторами, а также переводятся с различных иностранных языков, что усложняет задачу интеграции множественных источников данных, порождая проблему кросс-языковой идентификации именованных сущностей, и, в частности, задачу кросс-языковой идентификации авторов научных публикаций.

Точное установление авторов научных публикаций  —  важнейший фактор определения рейтинга ученого или научного сотрудника, что делает актуальной задачу кросс-языковой идентификации при интеграции или сравнении разноязычных баз данных, а также при пополнении любой научной базы знаний информацией об англоязычных публикациях русскоязычных авторов. Однако эксперименты по сопоставлению контента разноязычных баз знаний [1, 2] показали, что такие базы, как библиографическая база данных по информатике DBLP или приложение RKBExplorer.com, интегрирующее информацию об исследователях, публикациях и научных организациях из большого количества разнородных источников, и ряд других изобилуют ошибками при установлении авторов. Например, публикации нескольких разных авторов идентифицировались как принадлежащие одному и наоборот, что ведет к искажению показателей научной продуктивности, основанных на учете цитирования работ.

Надо отметить, что идентификация авторов «в рамках» одного языка проводится вполне успешно, тогда как задача кросс-языковой идентификации сравнительно нова и решается либо путем организационных мер, либо алгоритмически. Примером организационного подхода может служить некоммерческий проект ORCID , позволяющий каждому желающему (автору или организации) получить свой уникальный идентификатор, а затем вручную связать с ним все возможные способы написания имени, публикации и места работы. Имеется также сервис VIAF (Виртуальный международный авторитетный файл, viaf.org), собирающий информацию о принятых в разных странах формах написания имен.

На алгоритмическом уровне идентификация сущностей может проводиться путем сравнения атрибутов в контексте Открытых связанных данных, например, при помощи программного инструментария SILK . Отдельную большую группу составляют методы на базе эвристик, использующих информацию о соавторах и о месте публикации материала (название конференции, журнала). Однако все это не избавляет от ошибок, причиной которых чаще всего является неполнота данных, поэтому требуются специальные методы анализа текстов.

Сегодня применяются различные методы установления авторства: анализ на уровне пунктуации, орфографии, синтаксиса, а также анализ лексико-фразеологических и стилистических особенностей. Однако при сравнении англоязычных текстов авторов с русскоязычными именами эти методы не  подходят  хотя бы причине того, что разные тексты одного и того же автора, скорее всего, переводили разные переводчики. При установлении идентичности сущностей необходимо принимать во внимание особенности построения перевода или транслитерации имен собственных с учетом специфики того или иного языка — требуется комбинированный подход к кросс-языковой...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.
Купить номер с этой статьей в PDF