Кросс-языковая идентификация авторов публикаций

Сегодня большое распространение получили такие крупномасштабные базы знаний, как Google Knowledge Vault, Deep Dive, Microsoft Academic Graph и др., использующие автоматические методы интеграции данных из множества источников и извлечения фактов из текстов, что, однако является причиной ошибок, связанных с различиями в схемах источников данных и ошибки идентификации таких сущностей, как авторы публикаций. Для устранения этих ошибок разрабатываются методы слияния данных, направленные на обнаружение и устранение ошибок и конфликтов, проверку корректности извлекаемых фактов, оценку надежности источников данных и методов извлечения информации из них. Вместе с тем, значительная часть текстов, в частности, научных публикаций, создаются не англоязычными авторами, а также переводятся с различных иностранных языков, что усложняет задачу интеграции множественных источников данных, порождая проблему кросс-языковой идентификации именованных сущностей, и, в частности, задачу кросс-языковой идентификации авторов научных публикаций.

Точное установление авторов научных публикаций — важнейший фактор определения рейтинга ученого или научного сотрудника, что делает актуальной задачу кросс-языковой идентификации при интеграции или сравнении разноязычных баз данных, а также при пополнении любой научной базы знаний информацией об англоязычных публикациях русскоязычных авторов. Однако эксперименты по сопоставлению контента разноязычных баз знаний [1, 2] показали, что такие базы, как библиографическая база данных по информатике DBLP или приложение RKBExplorer.com, интегрирующее информацию об исследователях, публикациях и научных организациях из большого количества разнородных источников, и ряд других изобилуют ошибками при установлении авторов. Например, публикации нескольких разных авторов идентифицировались как принадлежащие одному и наоборот, что ведет к искажению показателей научной продуктивности, основанных на учете цитирования работ.

Надо отметить, что идентификация авторов «в рамках» одного языка проводится вполне успешно, тогда как задача кросс-языковой идентификации сравнительно нова и решается либо путем организационных мер, либо алгоритмически. Примером организационного подхода может служить некоммерческий проект ORCID , позволяющий каждому желающему (автору или организации) получить свой уникальный идентификатор, а затем вручную связать с ним все возможные способы написания имени, публикации и места работы. Имеется также сервис VIAF (Виртуальный международный авторитетный файл, viaf.org), собирающий информацию о принятых в разных странах формах написания имен.

На алгоритмическом уровне идентификация сущностей может проводиться путем сравнения атрибутов в контексте Открытых связанных данных, например, при помощи программного инструментария SILK . Отдельную большую группу составляют методы на базе эвристик, использующих информацию о соавторах и о месте публикации материала (название конференции, журнала). Однако все это не избавляет от ошибок, причиной которых чаще всего является неполнота данных, поэтому требуются специальные методы анализа текстов.

Сегодня применяются различные методы установления авторства: анализ на уровне пунктуации, орфографии, синтаксиса, а также анализ лексико-фразеологических и стилистических особенностей. Однако при сравнении англоязычных текстов авторов с русскоязычными именами эти методы не подходят хотя бы причине того, что разные тексты одного и того же автора, скорее всего, переводили разные переводчики. При установлении идентичности сущностей необходимо принимать во внимание особенности построения перевода или транслитерации имен собственных с учетом специфики того или иного языка — требуется комбинированный подход к кросс-языковой идентификации, сочетающий сравнение атрибутов публикаций, текстов публикаций и транслитераций имен авторов.

Во многих англоязычных ресурсах обычно не уделяется должного внимания различным вариантам написания иностранных имен, полученным при помощи транслитерации, поскольку каждый иностранный язык имеет свои специфические особенности, которые трудно учесть не носителям языка. Что касается русского, то существующие программы генерации англоязычной транслитерации не совсем пригодны для решения задачи идентификации, поскольку генерируют обычно «стандартный» вариант транслитерации, в то время как русскоязычные авторы часто используют в своих публикациях несколько разных нестандартных вариантов написания своего имени. Например, Александр Семенович Нариньяни в разных публикациях указывал себя как Nariniani, Narinyani, Narin’yani и Nariniany. Кроме того, в разных публикациях могут использоваться разные варианты транслитерации и сокращения имени и отчества: Alexander S. Narinyani и A.S. Nariniani и т. д. По этой причине для генерации английских транслитераций русскоязычных имен следует использовать разные программы: например, переводчик google.translate.com и оригинальную отечественную программу расширенной транслитерации, которая не только генерирует большее количество возможных транслитераций, но и позволяет накапливать обнаруженные нестандартные варианты.

В ИСИ СО РАН создана собственная система идентификации авторов, способная делать это достаточно точно. По русскоязычному имени автора система генерирует все возможные варианты англоязычного написания его имени, а затем по каждому ищет статьи в библиотеке SpringerLink и извлекает оттуда название статьи, места работы автора (если указаны), список всех цитируемых публикаций, аннотацию публикации и полный текст (если имеется). Результат визуализируется в виде графа публикаций, в котором вершины изображают публикации, а ребра — ссылки на другие публикации (рис. 1).

Рис. 1. Фрагмент графа публикаций А.С. Нариньяни, извлеченного из ресурса SpringerLink

Электронная библиотека SpringerLink (link.springer.com), которая, в отличие от специализированных, является библиотекой широкого профиля, содержит полные тексты большинства статей в формате PDF, а если тексты недоступны, то подробную квазиструктурированную информацию об издании, месте работы авторов (если, конечно, они были указаны в статье), списки цитирований и др. Кроме того, каталог данной библиотеки является одним из источников, используемых крупнейшей в мире библиотечной разноязычной сетью WorldCat.org, что позволяет дополнительно сопоставлять данные.

Если сведения об авторе имеются в Открытом архиве СО РАН [3], то информацию о всех местах его работы можно найти на сайте этого архива. При помощи переводчика Google осуществляется перевод русскоязычного названия организации на английский. Для каждой найденной статьи в библиотеке SpringerLink извлекается место работы запрашиваемого автора и осуществляется нечеткое сравнение с местами работы, полученными для данной персоны на предыдущем шаге в архиве СО РАН. Названия организаций имеют достаточно сложную структуру, и вариантов их написания множество, не говоря уже о вариантах сокращений. В некоторых статьях место работы не указывается вообще или указывается частично (например, РАН). Сравнение в этом случае производится на основе модифицированной версии алгоритма Джаро — Винклера, определяющего меру сходства двух строк и считающегося наилучшим для сравнения коротких строк, таких как имена персон. Далее дата публикации статьи сравнивается со временем работы сотрудника в указанной организации (если таковая информация имеется), а все найденные статьи разбиваются на группы в соответствии с идентифицированным местом работы. Статьи, для которых место работы автора не указано, сравниваются со всеми статьями, размещенными по другим группам, и если текстовое сходство рассматриваемой статьи с публикациями одной из идентифицированных групп превышает некоторое пороговое значение, то статья помещается в эту группу. Сейчас для сравнения текстового сходства имеются две возможности: метод tf-idf и косинусная метрика близости, а также метод LDA (латентное размещение Дирихле) [4]. Для статей, текст которых оказался непохожим на тексты ни одной из уже существующих групп, создается новая группа. Для каждой группы создается закладка, названная по одному из известных мест работы заданного автора, и строится граф сходства между статьями, попавшими в каждую группу. Вершина графа — это документ, а ее номер соответствует номеру документа в коллекции. Каждая пара документов в коллекции связана ребром, чей вес (W) соответствует сходству между двумя документами. Если величина сходства между двумя документами не превышает установленного порога, то ребро между этими вершинами не создается. В полученном графе похожие документы располагаются ближе друг к другу.

На рис. 1 показан фрагмент ориентированного графа публикаций А.С. Нариньяни, извлеченного из набора данных SpringerLink. Каждая вершина графа изображает одну публикацию. Все публикации упорядочены горизонтально по годам. Ребро между двумя публикациями направлено справа налево и означает, что правая публикация цитирует в своем списке литературы левую. Поскольку названия публикаций достаточно длинные, на экран выдаются только первые 15 символов из названия, но всегда можно увидеть более подробную информацию о публикации, как это показано на рис. 1 для работы A.S. Narin’yani, T.M. Yakhno «Experimental system for bottom upward analysis», опубликованной в 1978 году. Примечательно, что только две из двенадцати публикаций, обнаруженных на SpringerLink, присутствуют в списке публикаций Нариньяни, размещенных в elibrary.ru, а полные англоязычные тексты SpringerLink обнаружены для семи его публикаций. Зеленым цветом выделены публикации Нариньяни, на которые есть ссылки в англоязычных источниках, но их тексты отсутствуют в SpringerLink. При этом были обнаружены такие варианты написания фамилии, как Narinyani и Narin'yani с различными вариантами сокращений имени и фамилии. Надо отметить, что на таком библиографическом сайте, как DBLP, имеется три непересекающихся множества публикаций Нариньяни, которые распределены между тремя совершенно разными персонами с разными вариантами написания имени и фамилии (A. Narinyani, A. S. Narinyani, Alexander S. Narin'yani). В то же время на сайте SCOPUS имеется другой набор публикаций этого же автора, и там его фамилия уже пишется как Narin'yani или Narin'Yani. Таким образом, на четырех ресурсах оказались пересекающиеся, но не совпадающие множества публикаций.

Что касается данных в библиотеке SpringerLink в целом, то следует отметить значительный разброс в объеме доступной информации о публикациях (от пары абзацев до нескольких десятков страниц), что существенно влияло на точность идентификации. К тому же результаты проверки программы на тестовой выборке из 100 персон (около 3000 публикаций) показали, что примерно в 80% случаев в публикациях не было информации о полном имени персоны, имелись только инициалы. Место работы персон было указано примерно в 70% случаев.

Рис. 2. Публикации, идентифицированные как принадлежащие В.А. Непомнящему из ИСИ СО РАН

На рис. 2 показан пример работы системы [5] при поиске в библиотеке SpringerLink публикаций Валерия Александровича Непомнящего из ИСИ СО РАН. Различные англоязычные варианты написания этого имени показаны в верхней вкладке слева. В средней вкладке слева показаны англоязычные варианты места работы заданной персоны. В центре показан граф, изображающий публикации, приписанные Непомнящему из ИСИ СО РАН. Всего в SpringerLink.com было найдено 49 публикаций. Из них автору с написанием имени Valery Nepomniaschy соответствовало 3 статьи, V.A. Nepomnyaschy — 1 статья, V.A. Nepomniaschy — 24 статьи, Valery A. Nepomniaschy — 3 статьи, V. A. Nepomnyashchii — 15 статей, V. A. Nepomnyashchiy — 3 статьи. Все указанные варианты написания имени, отчества и фамилии использовались В. А. Непомнящим из ИСИ СО РАН, но, кроме него, были обнаружены еще две персоны, одна из которых использовала для своего имени вариант написания V. A. Nepomnyashchii, а вторая — V. A. Nepomnyashchiy. На рис. 2 можно видеть, что программа создала две новые группы публикаций для этих персон. В то же время на сайте Scopus было показано пять разных персон с разными вариантами написания фамилии Непомнящий и разными идентификаторами. При этом публикациям реальной персоны В. А. Непомнящего из ИСИ СО РАН соответствовали публикации четырех «виртуальных» персон, имеющих в Scopus разные идентификаторы: персона Nepomniaschy с идентификатором Scopus 6603218491, персона V. A. Nepomnyashchii с идентификатором Scopus 6701781364, персона V.A. Nepomnyaschy без идентификатора с местом работы НГУ и частично персона Nepomnyashchiy V.A.с идентификатором Scopus 24076960300.

Таким образом, в системе Scopus заведомо ошибочно были «распределены» публикации трех реальных людей, публикации которых присутствуют на сайте, по пяти «виртуальным» персонам, а также произошло объединение в одну группу публикаций Валерия Непомнящего из ИСИ СО РАН и Владимира Непомнящего из Москвы. И таких примеров некорректной работы как Scopus, так и eLibrary обнаружилось множество. Эксперименты также показали, что elibrary.ru может быть полезной при идентификации ныне живущих авторов, не менявших место работы, однако при изучении публикаций персон, которые по разным причинам завершили свою деятельность или сменили место работы, обнаруживается неполнота данных.

***

Сегодня ни одна из существующих библиотек не предоставляет полных данных по авторам — сведения о публикациях одного и того же человека могут быть рассредоточены по различным англо- и русскоязычным ресурсам. Поэтому для получения достоверной картины требуется объединение информации из различных источников. Предлагаемая система позволяет решить задачу кросс-языковой идентификации авторов в условиях расширенной транслитерации, однако и ей еще требуется развитие в сторону адаптации к сопоставлению произвольной пары русскоязычных и англоязычных источников данных. В итоге это позволит точнее вычислять различные рейтинги активности ученых и более адекватно оценивать их вклад в развитие конкретной области знания.

Литература

Apanovich Z.V., Marchuk A.G. Experiments on using the LOD cloud datasets to enrich the content of a scientific knowledge base // KESW 2013, CCIS 394. — Springer Verlag Berlin Heidelberg 2013. — P. 1–14.
Zinaida Apanovich, Alexander Marchuk. Experiments on Russian-English identity resolution//Proceedings of the ICADL-2015 Conference Seul, South Korea, LNCS 9469. — Springer International Publishing Switzerland 2015. — P. 12–21.
Марчук А.Г., Марчук П.А. Особенности построения цифровых библиотек со связанным контентом // Труды RCDL’2010, Казань, 2010. — С. 19–23.
Blei D. M., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. — 2003, № 3. — P. 993–1022.
Апанович З.В. Сопоставление данных разноязычных ресурсов и кросс-языковая идентификация авторов // Научный сервис в сети Интернет: труды XVIII Всероссийской научной конференции (19–24 сентября 2016 г., Новороссийск). — М.: ИПМ им. М.В. Келдыша, 2016. — С. 36–45. URL: http://keldysh.ru/abrau/2016/proc.pdf (дата обращения:18.01.2017).

Зинаида Апанович ( apanovich@iis.nsk.su ) — старший научный сотрудник, ИСИ СО РАН (Новосибирск).