Вследствие постоянного роста количества полнотекстовых документов, представляемых в электронном виде, появляется все больше новых методов навигации в информационных массивах. Сейчас текстовую информацию обычно представляют в форме гипертекста, отличающегося возможностью интерактивной работы с материалом и многомерностью его представления. При этом конкретные реализации гипертекста различаются как способом установления связей, так и формой визуального отображения, начиная с простейших видов систем вроде Web-страниц, справочных или программируемых, в которых используется переход по тексту посредством жестко задаваемых разработчиками приемов, и заканчивая «интеллектуальными» электронными книгами, где каждое слово сопровождается веером раскрывающихся гиперссылок, представляемых понятиями, связанными по смыслу.

Создание поисковых машин в Internet и увеличение объемов публикуемой информации стимулировали развитие гипертекстовых средств нового поколения, иначе называемых тематическими навигаторами. Системы с подобными средствами позволяют передвигаться по связанным тематическим категориям (рубрикам), а к каждой из них может быть отнесено множество текстов, близких по содержанию. С помощью лучших из таких навигаторов можно определить темы, объединяющие нужные тексты (например, содержащие определенные слова), а затем передвигаться по этим темам.

Сведения о наиболее интересных из подобных систем приведены на сайтах http://www.links2go.com, http://www.semio.com, http://www.inxight.com.

Все известные тематические навигаторы подразделяются на две категории. Относящиеся к первой имеют жестко заданную структуру с априори установленными темами и связями между ними. В таких навигаторах используется заранее определенный рубрикатор с иерархической структурой категорий, отражающий общепринятый набор областей знаний. Нижние ветви рубрикатора обычно включают в себя классы слов языка, относящиеся к определенным темам. Подобные навигаторы могут автоматически распределять все входящие тексты по соответствующим тематическим рубрикам и подсчитывать, на какие из ветвей приходится больше слов из текста. Однако рубрикатор стандартной структуры отражает лишь наиболее очевидные связи между темами, а они малоинтересны, поскольку не открывают новой информации.

Для создания навигаторов второй категории требуется участие экспертов для формирования структуры тем на основе анализа содержания собрания текстов. Здесь гипертекстовая структура обычно представляет собой семантическую сеть, связи которой показывают актуальное строение текстов с семантической точки зрения. Такие навигаторы из-за высоких затрат на разработку, требующую привлечения «ручного» труда, обычно предназначаются для небольших собраний текстов в узкой предметной области.

Ниже будет рассказано о некоторых технологиях, позволяющих автоматизировать процесс построения навигатора, выявляющего реальные смысловые связи в тексте. Так, российская компания «Гарант-Парк-Интернет» (http://www.metric.ru) использует технологии подобного типа, основанные на оригинальных алгоритмах, реализующихся с помощью нейросетевых моделей деятельности мозга.

Тематический анализ текста

Многие годы исследователи в области искусственного интеллекта пытались научить компьютер логическому мышлению, основанному на работе с формализованными знаниями. Подобный тип мышления характерен для человеческого мозга, когда он перерабатывает информацию в левом полушарии.

Иерархические рубрикаторы, используемые в информационно-поисковых системах для классификации информации, как раз и представляют пример левополушарной модели знаний. Однако из-за неспособности ЭВМ к языковому мышлению их возможности ограничены рамками изначально заложенной системы знаний. И здесь проблема заключается в том, что...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.