Задачи сбора, систематизации, хранения и обработки больших объемов данных с целью их использования для подготовки и принятия управленческих решений стояли перед организациями всегда. Сначала их решали с помощью информационных каталогов, затем появились базы данных и системы управления ими, прошедшие большой путь от иерархических и сетевых до реляционных и NoSQL. Однако большинство этих СУБД работают с логически связанными данными, концептуальная структура которых заранее определена и однородна. Вместе с тем в Интернете стали доступны очень большие объемы неструктурированных (аудио и видео), слабоструктурированных (тексты), а также структурированных данных, которые хранятся в базах с разными структурами. Все эти данные представляют большой практический интерес для множества прикладных областей. Однако возможности работы с ними только в рамках традиционной реляционной парадигмы уже не удовлетворяют современным потребностям.

Во многих организациях — вузах, научно-производственных центрах, исследовательских лабораториях и т. п., а также в региональных и федеральных органах управления — востребованы информационно-аналитические системы подготовки принятия решений, действующие на основе анализа данных научно-инновационного и образовательного содержания. Такие системы должны позволять проводить оперативный анализ надежно верифицируемых персональных данных и обобщенных данных по отдельным научным коллективам и организациям, а также данных по регионам и по России в целом для повышения объективности оценки показателей результативности или тенденций научно-педагогической деятельности. Для этого система должна предоставлять максимально точные (очищенные и верифицируемые) данные о научно-педагогической деятельности участвующих в ней персон: данные в системе должны включать сведения как библиографического, так и аннотационного характера, в том числе ссылки на другие источники, при этом результаты деятельности персоналий должны быть представлены в полном объеме.

Созданная в МГУ информационно-аналитическая система, построенная на основе моделей, механизмов и инструментальных средств Интеллектуальной системы тематического исследования наукометрической информации (ИСТИНА) [1, 2], позволяет собирать данные о научной и педагогической деятельности сотрудников и верифицировать ее с учетом сведений из внешних источников (например, Web of Science и Scopus) [3]. Она помогает в работе диссертационных советов, позволяя рассчитывать рейтинги сотрудников, а также дает возможность автоматизировать проведение конкурсов на замещение вакантных должностей и получение грантов, готовить отчетные формы как по отдельным персонам, так и по организации в целом.

В ядре системы (см. рисунок) реализуется поддержка единого интерфейса, средств просмотра, редактирования и удаления результатов научно-педагогической деятельности сотрудников, а также поиск похожих объектов — проводимый, в частности, для подбора сотрудников, журналов и статей. Важной частью ядра является механизм кэширования, используемый для ускорения доступа к различным данным. Кроме того, ядро поддерживает функции общего назначения, такие как обеспечение безопасности и разграничение доступа к данным. Взаимодействие пользователей с сервером приложений осуществляется через веб-интерфейс. Приложения в системе разрабатываются с помощью инструментария Django, написанного на языке Python. Для хранения данных используется СУБД Oracle.

 

Архитектура системы
Архитектура системы

 

Базовыми приложениями системы являются модуль организаций и модуль сотрудников. Первый включает классы и логику действий, связанную с данными на уровне организаций, — в частности, механизм управления информацией о сотрудниках, которым делегирована роль ответственных за сбор сведений о работе организации и ее отдельных подразделений. Второй модуль содержит базовые классы, относящиеся к сотрудникам, например их профиль и список опубликованных работ. Оба модуля связаны со всеми остальными приложениями, каждое из которых одновременно является и приложением в терминологии Django (Django app).

Каждое приложение отвечает за отдельный тип научной и преподавательской деятельности сотрудников (например, публикации) или за общую сущность, связанную с таким типом (например, журналы). Это позволяет сравнительно легко добавлять в систему новые типы результатов деятельности персон. Такие функциональные возможности, как добавление, просмотр, редактирование и удаление, а также привязка результата деятельности к сотрудникам-авторам, реализованы в ядре — программисту требуется лишь настроить систему на конкретный тип результатов деятельности. Например, описав методы определения авторства в родительском классе, можно использовать их для любых дочерних объектов: книг, патентов, тезисов и курсов. Наиболее сложным является приложение по поиску публикаций — ему требуется производить разбор библиографических ссылок в текстовом формате. Для осуществления такого разбора был выбран модуль с открытым исходным кодом Freecite [3], который был усовершенствован с целью предоставления возможности обработки текстов на русском языке. Основным преимуществом Freecite является наличие встроенных алгоритмов машинного обучения и функций автоматической настройки на новые форматы данных.

Модуль статистики содержит функции количественного анализа данных на уровне организации, подразделения и отдельного сотрудника. В нем реализован простой тематический анализ результативности сотрудников [4] — например, получение и обработка показателей цитирования отдельных статей из Web of Science, Scopus, а также поиск статей в этих системах. Кроме того, в модуль входят механизмы расчета принятых в организации коэффициентов оценки эффективности деятельности сотрудников, которые в дальнейшем могут использоваться, например, при расчете поощрительных надбавок.

Для глубокого тематического анализа данных, проводимого с использованием моделей предметных областей, построенных автоматически на основе анонсов научных конференций, а также результатов запросов к поисковым системам, таким как Bing, применяется приложение «Онтологии». Модели содержат характерные для конкретной предметной области термины, по которым выполняется классификация результатов деятельности сотрудников, а также производится подбор похожих объектов для удобной навигации по системе.

Одно из главных требований к таким системам, как ИСТИНА, — удобный интерфейс конечного пользователя и механизмы верификации данных, учитывающие тот факт, что только сами ученые могут точно описать и сверить с оригиналом, если это необходимо, свои научные результаты. Это не исключает возможности использования данных, которые могут быть экспортированы и из других источников с последующей их верификацией.

Наличие большого массива данных и возможности их разноплановой обработки требует эффективной процедуры оценки достоверности представленных данных, а также механизмов разграничения доступа к сведениям разного уровня конфиденциальности. Научно-инновационная и педагогическая деятельность ученых сегодня характеризуется более чем 20 параметрами, к которым относятся наличие публикаций, патентов и свидетельств на интеллектуальный продукт, проведение курсов лекций и семинаров, руководство дипломными работами и диссертациями и т. п.

Другое важное качество системы — открытость информации. Все сведения о научной работе сотрудника доступны, что способствует повышению достоверности сведений [5].

Для оценки результативности деятельности научных работников предусмотрен «Конструктор формул расчета эффективности работы сотрудника», позволяющий учитывать все виды работ и активностей работника с учетом специфики того или иного подразделения (факультета, института, центра). Подготовленная с помощью такого конструктора формула может использоваться для построения таблицы с указанием для всех сотрудников полученного числа баллов за каждую работу. Персональные отчеты позволяют проверить достоверность интегральных показателей эффективности, при этом у каждого сотрудника появляется возможность увидеть в личном кабинете свой рейтинг, коррелирующий с данными персональной страницы.

В системе «ИСТИНА» имеются данные о 14 тыс. ученых, преподавателей и аспирантов из МГУ, МПГУ, ИПМ РАН, РГГУ и Научного центра неврологии. На базе системы только в МГУ за три недели было проведено три конкурса по определению ученых и преподавателей, внесших наиболее весомый вклад в работу университета, хотя обычно на проведение таких конкурсов раньше уходило до полугода. Кроме того, на основе системы разработан и запущен в эксплуатацию сайт диссертационных советов, который аккумулирует всю необходимую информацию и обеспечивает сопровождение процедур, регламентируемых соответствующими нормативными положениями. Годовая отчетная кампания по научно-исследовательской работе в МГУ уже два года проводится на основе анализа данных из системы «ИСТИНА», а в ближайшее время будет завершен переход на новые принципы конкурсного избрания на научные и преподавательские должности.

***

Система «ИСТИНА» отличается от применяемых научной общественностью аналогов, таких как Web of Science, Scopus и Elibrary, которые ориентированы на узкую область сбора информации и аккумулируют только данные о публикациях. В некоторых системах, например, в СНИД СПбГУ (ias.spbu.ru), дополнительно собираются данные о проектах, однако система «ИСТИНА» накапливает данные практически о всех видах научной и педагогической деятельности сотрудников. Нет ограничений для создания на базе системы «ИСТИНА» карты науки по всей России, адекватно отражающей состояние дел с научно-инновационной и образовательной деятельностью в стране.

Литература

  1. Интеллектуальная система тематического исследования научно-технической информации (ИСТИНА) / С.А. Афонин и др. Под ред. академика В. А.Садовничего. — М.: Издательство Московского университета, 2014. — 262 с.
  2. Васенин В. А., Афонин С. А., Козицын А. С., Голомазов Д. Д. Система «ИСТИНА» для подготовки принятия решений на основе анализа наукометрической информации. // Научный сервис в сети Интернет: Труды XVII Всероссийской научной конференции, С. 51–62. ИПМ им.М.В.Келдыша. М., 2015.
  3. Васенин В. А., Голомазов Д. Д., Ганкин Г. М. Архитектура, методы и средства базовой составляющей системы управления научной информацией «ИСТИНА — Наука МГУ» // Программная инженерия. — 2014. — № 9. — С. 3–12.
  4. Афонин С. А., Лунев К. В. Выявление тематических направлений в коллекции наборов ключевых слов // Программная инженерия. — 2015. — № 2. — С. 29–39.
  5. Сергей Паринов. На пути к Открытой Науке // Открытые системы. СУБД. — 2016. — № 1. — С. 44–45. URL: http://www.osp.ru/os/2016/01/13048658 (дата обращения: 18.08.2016).

Валерий Васенин (vasenin@msu.ru), Сергей Афонин (serg@msu.ru), Александр Козицын (alexanderkz@mail.ru) — сотрудники, НИИ механики МГУ им. М. В. Ломоносова (Москва).