Материалы библиотеки доступны для ознакомления, однако в деморежиме работает только простой полнотекстовый поиск.

В 2000 году Public.ru имела накопленный за предыдущие десять лет архив публикаций из 750 источников, которые можно было анализировать по авторам, темам, датам и заголовкам. В настоящее время источников около 3,5 тыс. — в основном за счет охвата региональных СМИ и информационных порталов. Около 44% источников библиотеки — московские СМИ, 45% — региональные, 4% приходится на источники из Санкт-Петербурга, ближнее и дальнее зарубежье дают 6% и 1% соответственно.

В настоящее время Public.ru ежедневно добавляет в свою базу 30 тыс. новых документов. 400 ежедневных газет компания самостоятельно сканирует и старается добавить в свою базу данных до 9 часов утра, чтобы к началу очередного рабочего дня аналитики могли получить доступ к свежим материалам. Всего же в фондах библиотеки на текущий момент насчитывается более 40 млн документов. Ежедневно сайт системы обрабатывает от 200 до 4 тыс. запросов.

Для поиска информации в базе данных Public.ru используется поисковая система OpenText, к которой добавлены собственные разработки. Однако в ближайшем будущем «Публичная библиотека» планирует перейти на новый поисковый механизм, разработанный российской компанией «Авикомп Сервисез». Он является объектным, то есть выделяет из анализируемого текста не отдельные слова, а объекты, которые могут иметь разнообразное представление. Для каждого такого объекта поисковая система определяет атрибуты и связи с другими объектами. Совокупность объектов, их атрибутов и связей составляют семантическую модель документа, которая и сохраняется в базе данных поисковой системы. Такой поисковик позволяет найти не только упоминание определенного объекта в различных текстах, но и связанные с ним объекты и факты.

Работу нового поискового механизма Дмитрий Шемигон, директор по развитию «Публичной библиотеки», продемонстрировал на примере объекта «ВнешЭкономБанк», который в некоторых текстах назывался просто ВЭБ, а в некоторых обозначался полным именем, «Банк развития и внешнеэкономической деятельности». В качестве связей рассматривалось совместное упоминание объектов в одном документе, а в качестве атрибутов — тональность статьи, которая могла быть хвалебной, нейтральной или критической.

До конца года «Публичная библиотека» и «Авикомп Сервисез» расчитывают предложить клиентам ряд объектных сервисов для анализа СМИ, в дальнейшем число этих сервисов вырастет. Новая система позволит визуально, в виде графов, представлять семантические модели документов. Соответствующий механизм уже разработан в «Авикомп», однако он пока не адаптирован к Web и не перенесен на базу данных Public.ru, но в компании над этим работают.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF