Зашифрованные интеллектуальные поисковые системы

Одно из направлений совершенствования современных информационных поисковых систем — это повышение уровня их интеллектуализации с сохранением высокого уровня безопасности. Использование стохастической информационной технологии позволяет комплексно повысить «интеллект» поисковой системы без ослабления ее защищенности. В данной статье впервые показывается возможность проведения семантического анализа, определяемого требованиями к поисковой системе, зашифрованных текстовых документов с использованием стохастически защищенных баз знаний и программных средств.

Современные поисковые системы становятся все более интеллектуальными, что, однако, не должно ослаблять безопасности доступа к информации. Использование стохастической информационной технологии [1] позволяет комплексно повысить «интеллект» поисковой системы без ослабления ее защищенности. Это стало возможно за счет случайного кодирования и хэширования символьной информации с целью ее адаптации к конкретной компьютерной среде. В заявке на изобретение № РСТ/RU 02/00258 от 28.05.2002 «Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем» было доказано, что имеется возможность создания на основе новой технологии интеллектуальных систем точного поиска, реализующего функции извлечения знаний из текстов и формирования ответов, релевантных запросам пользователей. Вместе с тем, применение стохастической информационной технологии позволяет решить и другую задачу — обеспечение безопасности поиска зашифрованной текстовой информации различного уровня конфиденциальности. При этом создается замкнутый безопасный поисковый контур. Запрос, поступивший от пользователя, шифруется и передается в поисковую машину, где, не расшифровываясь, подвергается дополнительному шифрованию. Это обеспечивает реализацию процедуры интеллектуального поиска на зашифрованных текстовых документах, без раскрытия их содержания. Полученный ответ, релевантный запросу, также будет зашифрован, передан по линии связи и расшифрован на рабочем месте пользователя. Таким образом, исключается возможность доступа к информации, хранящейся в текстовых документах поисковой системы, а также доступ к содержанию вопросов и ответов, передаваемых по сети. Это открывает новые возможности в области создания безопасных поисковых систем, работающих с конфиденциальной информацией.

Применение стохастической информационной технологии позволяет комплексно решать проблему реализации точного поиска и обеспечения безопасности информации. Под точным поиском понимается нахождение системой ответа, релевантного запросу пользователя. При этом запрос формулируется на естественном языке в виде вопросительного предложения. Точный поиск предполагает нахождение ответа с максимально возможной релевантностью — мерой, определяющей, насколько полно тот или иной документ отвечает критериям, указанным в запросе. Точный поиск может быть получен в виде одного предложения текста (краткий ответ) или группы предложений (подробный ответ). При этом критерием релевантности является возможность эквивалентного преобразования с помощью интеллектуальной обработки полученного ответа к виду запроса. Если такое преобразование возможно, то полученный ответ считается в полной мере релевантным запросу или точным. В противном случае производится попытка повторного формирования ответа с использованием дополнительной текстовой информации. Если получение указанного ответа на предоставленном объеме текстовой информации невозможно, то считается, что в данном случае точный ответ не может быть получен.

Точный ответ либо непосредственно содержится в текстовой информации в виде одного или нескольких предложений, либо на основе имеющейся информации происходит извлечение знаний из документов и формируются новые предложения, релевантные запросу, которых в явном виде в тексте нет. Важнейшую роль в этом процессе играют семантический анализ текстовой информации и логическая обработка фрагментов текста с целью получения новых, семантически связанных текстовых структур, соответствующих требованиям точного ответа.

Основные принципы построения и функционирования системы точного поиска на основе стохастической информационной технологии описаны в [1], а в данной статье мы более детально опишем реализацию семантического анализа и логической обработки текстовой информации в зашифрованном виде с целью формирования точного ответа.

В общем случае зашифрованная система точного поиска включает базу зашифрованных текстовых документов и криптографически защищенные средства ее интеллектуальной обработки: стохастически индексированные базы знаний грамматического и семантического анализа, базы знаний, определяющие правила эквивалентного преобразования, подсистему логического вывода и библиотеку прикладных зашифрованных программ, непосредственно реализующие функции поиска и обработки стохастически преобразованной информации. Выполнение программ также осуществляется в зашифрованном виде, что в сочетании с зашифрованной обработкой информации создает комплексную защиту системы от хакеров, программных закладок и вирусов.

При формировании базы текстовых документов поисковой системы производится стохастическое кодирование символьной информации. Стохастическое индексирование выполняется с использованием специальной хэш-функции, которая обеспечит преобразование различных элементов текстовой информации в их хэш-значения, представленные в виде двоичной комбинации заданной длины, которые принимаются в качестве стохастических индексов. За счет свойств хэш-функции и выбора длины комбинации индекса достигается их гарантированная уникальность для различных элементов текста со сколь угодно малой заданной вероятностью коллизий [1]. При этом сначала формируются стохастические индексы отдельных слов (их основ), которые затем используются для получения индексов словосочетаний, входящих в предложения текста, и самих предложений. На основе стохастических индексов предложений получают индексы абзацев. Названия глав, разделов и самих текстовых документов также преобразуют в соответствующие стохастические индексы.

Полученные индексы обеспечивают произвольный доступ к соответствующим элементам и структурам текстовой информации, которые при этом стохастически кодируются с использованием одноразовой системы шифрования с открытой передачей ключей. Ключи, применяемые при шифровании текстов, записываются в конце каждого зашифрованного предложения. Для перевода слов или словосочетаний из одной системы шифрования в другую используются процессы перекодирования символьной информации без раскрытия ее содержания. Для раскодирования текстовой информации имеются соответствующие декодеры. При этом система формирования и передачи одноразовых открытых ключей обеспечивает реализацию в реальном времени описанных функций кодирования, перекодирования и декодирования текстовой информации. Отметим, что после каждого обращения к соответствующему массиву зашифрованного текста происходит его перешифровка с использованием нового открытого ключа.

В предложенной системе стохастической индексации формирование индексов непосредственно на основе самих символьных объектов обеспечивает возможность ввода новых, исключения старых объектов, изменения порядка их следования, а также модификацию сетевых структур баз знаний в реальном масштабе времени. При этом происходит автоматическая модификация только тех структур, которые непосредственно связаны с вновь вводимыми или исключаемыми объектами, без изменений всей индексной системы. В этом принципиальное отличие стохастического индексирования от регулярного индексирования текстовых документов, при котором любое изменение состава символьных объектов или их связей требует полной реструктуризации системы. Полученная стохастическая индексная система является открытой к изменению состава и содержания поисковой системы в процессе ее функционирования, что делает возможным применение широкой адаптации индексирования к процессам поиска для повышения скорости обработки при проведении семантического анализа текстов. Например, в ходе анализа часто возникает необходимость поиска соответствующих фрагментов текста не только по отдельным словам, но и по словосочетаниям, определяющим различные термины, понятия, предикативную основу, а также другие типы отношений в предложении. Для этого в системе реализована возможность быстрого перехода от индексов отдельных слов к индексам указанных словосочетаний. В результате, обеспечивается произвольный доступ к текстовой информации с целью нахождения нужных предложений, а также выполнение функций логического вывода, классификации и рубрикации текстов. Индексные таблицы автоматически модифицируются для включения строк, связывающих индексы отмеченных словосочетаний с индексами соответствующих предложений абзацев и текстов. За счет этого повышается скорость реализации семантического анализа.

Все перечисленное относится также к построению и функционированию баз знаний, основанных на стохастически индексированных правилах продукций. Применение стохастических индексов предикатов, процедур и правил позволяет образовывать сетевые структуры, в которых время логического вывода линейно зависит от числа используемых правил продукций. При этом полностью снимается проблема «комбинаторного взрыва», характерного для существующих продукционных систем, и обеспечивается реальное время логической обработки независимо от объема базы знаний. Образованная сетевая структура правил продукций является открытой к изменению их состава и содержания. Часто используемые цепочки правил могут быть преобразованы в одно правило путем их агрегации, что повышает скорость обработки информации текстов при семантическом анализе и поиске. Отметим, что построение правил продукций на основе стохастических индексов априори шифрует содержание правил и логику их обработки.

Как известно, цель семантического анализа — анализ смысла составных частей каждого предложения. Для этого в описываемой интеллектуальной поисковой системе используется процесс извлечения знаний из лингвистической литературы. Применяются стохастически индексированные толковые и семантические словари, проблемно-ориентированные словари терминов и определений, энциклопедии, справочники, учебные пособия и др. За счет этого реализуется режим самообучения поисковой системы с использованием логического вывода в указанных текстах, с автоматическим накоплением знаний для проведения грамматического и семантического анализа. Сформированные базы знаний содержат как процедурные знания в виде правил продукций, так и семантические сети, включающие термины и наименования объектов предметной области, предикативные основы предложений текста, а также словосочетания, описывающие типы отношений в каждом предложении.

Отметим, что уровень семантического анализа зависит от требований точного поиска. Исходя из этого, классификация объектов и отношений между ними, представленная в словосочетаниях каждого предложения текста, является определяющей. Процесс классификации осуществляется автоматически, путем реализации логического вывода в стохастически индексированных толковых, семантических словарях, а также в словарях терминов и определений. Предварительно проведенное стохастическое индексирование указанных текстовых документов позволяет по индексу основы слова, представляющего некоторое понятие, по индексу словосочетаний, определяющих типы отношений данного предложения, получить произвольный доступ к соответствующим статьям словаря, где определены указанные элементы текста. Далее по индексам понятий и словосочетаний, которые входят в указанные определения, логический вывод может быть продолжен путем доступа к другим статьям текста, которые посвящены их описанию. В итоге будут генерироваться дерево или цепочки логического вывода, реализуемые с помощью индексов указанного текстового документа, до тех пор, пока исходное понятие или словосочетание не будет сведено к базовым понятиям пространства, времени, причины, цели, образа действия, меры или степени и др. Глаголы, представляющие сказуемое, соответственно, будут отнесены к классам глаголов движения, перемещения, конкретного действия, физического и душевного состояния, мыслительно-речевого действия, а также других существующих классов глаголов. При этом на основе классификации понятий и терминов, описывающих объекты предметной области, а также типы отношений между ними, с использованием правил продукций представленной выше базы знаний точно определяются члены каждого предложения. Примеры классификации подробно рассмотрены в заявке на изобретение № РСТ/RU 02/00258 от 28.05.2002.

Семантический анализ является необходимым дополнением синтаксического, в результате которого члены предложения определяются с недостаточной точностью, что не отвечает требованиям точного поиска. Главным является то, что на основе проведенного семантического анализа определяются типы отношений каждого словосочетания (в том числе наиболее сложные, включающие обстоятельства) в предложении и вопросы, на которые они отвечают.

Все понятия, выраженные словосочетаниями предложения, будут семантически представлять конкретные типы отношений, а именно: родо-видовые, «часть — целое», причинно-следственные, определительные, функциональные, пространственные, временные, образа действия, меры или степени и др. Этим типам отношений соответствуют конкретные вопросы. Подобному анализу подвергается также вопросительное предложение запроса, поэтому, если в ходе поиска будет найдено или сформировано предложение, содержащее словосочетание, соответствующее вопросительному слову (словосочетанию) запроса (при условии, что все остальные словосочетания запроса и данного предложения идентичны), то это означает, что в процессе поиска получен точный ответ на запрос.

Важным методом определения типа отношений в словосочетании (предикативная основа, включающая подлежащее и сказуемое, словосочетание, связывающее сказуемое с одним из видов обстоятельств и др.) является образование нового словосочетания с ключевыми словами, которые позволяют однозначно определить тип исходного словосочетания. Далее следует проверка корректности употребления данного сочетания путем обращения к базе текстов для поиска предложений, содержащих идентичные словосочетания. Если в процессе поиска по указанным ключевым словам будет найдено одно или несколько предложений, включающих сформированное словосочетание, то это позволяет точно определить предикативную основу предложения или вид обстоятельства в исходном словосочетании. Таким образом, возможность обработки в реальном времени большого количества индексированных текстов позволяет получить новое качество в виде определения семантики (типа отношения) исходного словосочетания.

Полученные классы предикатов каждого предложения заносятся в концептуальную часть базы знаний текстовых документов по конкретной тематике с указанием индексов текстов, абзацев и предложений, в которых данные классы содержатся. Эти данные могут быть представлены как в виде фреймовой структуры, так и в табличном виде.

Другим важным процессом, который реализуется в ходе семантического анализа, является рубрикация текстов с точностью до каждого абзаца. Она осуществляется в процессе автоматического анализа терминов, понятий, определений, а также отношений между ними. На основе этого формируется рубрикатор текстовых документов с указанием основных терминов и понятий, представленных в названных документах по данной теме с отметкой индексов текстов и абзацев, содержание которых посвящено описанию отмеченных объектов предметной области. Кроме указанных классификатора и рубрикатора, в ходе грамматического и семантического анализа текстов формируются пословные стохастические индексы, позволяющие по определенной совокупности ключевых слов запроса определять индексы текстов, абзацев и предложений, в которых они содержатся. Таблицы индексов включают все грамматические и семантические характеристики каждого предложения, необходимые для подробного анализа текста. При стохастическом кодировании средняя длина слова может быть сокращена не менее, чем в 2 раза, что позволяет вводить коды требуемых грамматических и семантических характеристик слов и словосочетаний непосредственно в текст без увеличения объема текстовых документов. Это обеспечивает двухкратное сокращение объема индексных таблиц текстов. Отметим, что эти индексы могут формироваться уже в процессе поиска ответа на введенный пользователем вопрос, в реальном времени после выбора с помощью классификатора и рубрикатора текстов, абзацев и предложений, которые семантически соответствуют поставленному вопросу.

Таким образом, в интеллектуальной информационно-поисковой системе поиск проводится в трехмерном пространстве: классификатор, рубрикатор по определенной теме, индексы текстового документа. При реализации системы в программно-аппаратном виде все три типа поиска могут выполняться параллельно в различных процессорах, что обеспечивает существенное (не менее чем в три раза) сокращение времени предварительной обработки текстов.

После нахождения абзацев и предложений, соответ?ствующих семантике запроса, на основе указанных элементов текста формируется точный ответ. Здесь используются процедуры образования семантически связанных структур, эквивалентных преобразований и логического вывода. В результате может быть получен краткий точный ответ, релевантный запросу.

Опыт разработки и использования поисковых систем показал, что существующие словари синонимов не отвечают требованиям точного поиска. Это обусловлено тем, что представленные синонимические ряды в названных словарях оторваны от содержания текстовых документов, поэтому они не могут включать близкие по смыслу слова, которые необходимы при нахождении точного ответа. Кроме этого синонимы должны быть согласованы со множеством слов, понятий, терминов словаря по данной тематике, который формируется при индексировании текстов. Указанную проблему решает метод контекстной синонимии на основе индексируемых текстовых документов, позволяющий повысить эффективность интеллектуальной поисковой системы. Для этого применяется логический вывод по индексированным толковым словарям, словарям терминов и определений по конкретным темам с использованием вместо индексов отдельных слов индексов словосочетаний, в которые они входят. Здесь учитываются классификация и рубрикация каждого обрабатываемого текста.

В результате применения стохастической информационной технологии интеллектуальная поисковая система может одинаково эффективно работать как с открытыми, так и с зашифрованными текстами. Для реализации точного поиска в зашифрованных текстах документы, подлежащие индексированию, предварительно шифруются с использованием одноразовой системы шифрования. С этой целью применяются стохастический кодер и система формирования открытых и закрытых ключей. Шифрование производится методом стохастического кодирования. Зашифрованный текст переводится в специальный формат, позволяющий выделять отдельные абзацы, предложения, слова и знаки препинания. При этом каждое предложение шифруется с помощью одноразового ключа, который в открытом виде записывается в конце предложения. На основании полученного зашифрованного текста производится формирование описанной системы индексов отдельных слов, словосочетаний, предложений, абзацев и текстов.

Процесс формирования стохастического индекса заключается в перекодировании индексируемого элемента текста с помощью перекодера в соответствующий код. С выхода перекодера полученный зашифрованный текст посимвольно поступает в блок формирования хэш-функции, который в результате проведенной в нем обработки преобразует данный текстовый элемент в уникальный стохастический индекс — двоичную комбинацию заданной длины. В итоге все функции интеллектуальной обработки текстовой информации можно реализовывать с помощью стандартного набора процедур: перекодирование соответствующих элементов текста, формирование на их основе стохастического индекса, по которому осуществляется произвольный доступ к требуемым предложениям зашифрованного текстового документа (в том числе индексированно зашифрованных толковых словарей, словарей терминов и определений и другой стохастически индексированной и зашифрованной текстовой информации).

После доступа к заданному фрагменту текста поиск в нем необходимой информации осуществляется путем сравнения соответствующих элементов данного зашифрованного текста с исходным или эталонным текстом, после его перекодирования — с помощью открытых ключей к виду обрабатываемого зашифрованного текста. В результате, используя типовой формат зашифрованного текста, могут быть найдены идентичные слова или словосочетания, необходимые для реализации интеллектуальной обработки текстов без раскрытия их содержания. Затем на основе найденных слов или словосочетаний формируются новые индексы для продолжения логической цепочки поиска. При этом могут быть реализованы все функции стохастической индексации текстов, классификация и рубрикация терминов, понятий и отношений, логического вывода на текстовой информации, эквивалентные преобразования слов, словосочетаний и предложений для формирования точного ответа, представленного в зашифрованном виде.

Декодирование ответа осуществляется в компьютере пользователя, выдавшего исходный запрос. При этом передача по линии связи также осуществляется в зашифрованном виде после необходимого перекодирования зашифрованного вопроса или ответа.

***

В предлагаемой системе реализуется полностью замкнутый зашифрованный контур точного поиска информации с выполнением функций интеллектуальной обработки текстов, включающих необходимые элементы семантического анализа. Если смотреть на эту проблему шире, то создание подобных систем гарантирует любому пользователю полную конфиденциальность диалога. Это, в рамках существующих законов, обеспечивает права каждого на защиту его личной информации. n

Литература

1. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. — 248 с.

Владимир Насыпный (nasypny@stocona.ru) — научный директор, Галина Насыпная — ведущий научный сотрудник НПФ «Стокона» (Москва).

Запрос, обработка текста, ответ

Для иллюстрации представим запрос, сформированный пользователем, предварительно выбранный абзац в процессе анализа текста и полученный точный ответ в открытом виде.

ЗАПРОС: Какие устройства персонального компьютера называются периферийными?

ПРЕДВАРИТЕЛЬНО ВЫБРАННЫЙ АБЗАЦ: Персональный компьютер предназначен для создания, хранения, обработки и передачи данных. Он состоит из различных блоков и устройств. При этом устройства, расположенные внутри системного блока, называются внутренними. Устройства, расположенные снаружи — внешними. Дополнительные подключаемые внешние устройства относятся к периферийным устройствам. Принтер для печати информации на бумаге — пример периферийного устройства.

ТОЧНЫЙ ОТВЕТ: Дополнительные подключаемые внешние устройства персонального компьютера (например, принтер для печати информации) называются периферийными.

В процессе формирования точного ответа в качестве базового было выбрано следующее предложение: «Дополнительные подключаемые внешние устройства относятся к периферийным устройствам». Затем, используя отношения «часть — целое», в него было введено словосочетание «персональный компьютер» из первого предложения абзаца в соответствующем падеже (внешние устройства — часть компьютера). После этого, применяя отношения «род — вид», в базовое предложение включено словосочетание «принтер для печати информации» из последнего предложения абзаца (принтер для печати информации относится к классу периферийных устройств). К этому словосочетанию было добавлено вводное слово «например». Полученная группа слов «(например, принтер для печати информации)» представлена в базовом предложении как вставная конструкция и, соответственно, выделена скобками. Словосочетание «относятся к периферийным устройствам» заменяется на близкое по смыслу словосочетание «называются периферийными устройствами». В итоге выполненного семантического анализа и логической обработки текста формируется точный ответ.

Для контроля релевантности полученного ответа преобразуем его к виду запроса. При этом группа слов определения «Дополнительные подключаемые внешние» заменена на вопросительное слово «какие». Также была исключена вставная конструкция, которая имеет уточняющее значение. В результате из сформированного ответа получено вопросительное предложение «Какие устройства персонального компьютера называются периферийными?», которое идентично запросу. Это доказывает релевантность полученного точного ответа запросу пользователя.

Для шифрования используется одноразовый многоалфавитный кодер. Зашифрованная информация будет иметь следующий вид (с некоторыми сокращениями ввиду иллюстративного значения данного примера):

ЗАПРОС: ЖЛIUЪЗЬNLQТПWКНЕMRAФЮFOЗРТGDSАЩГВWFZИ БОДСESVHВРЙIYKУИГДFDZКРЮФДТVQS

ПРЕДВАРИТЕЛЬНО ВЫБРАННЫЙ АБЗАЦ: WFRСКТЩГOQNЩИБSDVИВЙЬVGYЯХМЪYDЖЕГFOЯЧ МЦZEKДВЩЮZHYЖТГБIQFBХШЧНWSHЪЖИДБVZRКН ВЮMXTСФЯУKWQЪСЮАЦWLUЩСТКQMSHФЗЬЦLREWЖ ФНЮАЩDZXОРЙЧZYBHЯБАТNWMЪФГ ЙFQJКНЮШOG CЖЭВЫVPSЪДЬAKP

ТОЧНЫЙ ОТВЕТ: КРАЦAIFДБМТHJMВЛГЙCKOЕНЩФDBPLУРЗЪUWIЖ ЫШTRGЯЬИЭZSЮХОСNQVЧAEJЮЦЕКHYXОЗБШSMOGМТЯ

Именно в таком виде информация может попасть к злоумышленнику при попытке несанкционированного доступа к системе.

Отметим, что пользователь имеет доступ к содержанию запроса (до его кодирования с целью передачи в поисковую систему), а также полученного точного ответа (после его декодирования). Вся текстовая база системы, включая приведенный предварительно выбранный абзац, является для пользователя зашифрованной.