Что в образе твоем?..

Обзор ноябрьского (2000 г.) номера журнала Computer (Volume 33, Number 11), IEEE Computer Society

На обложку этого выпуска журнала вынесена тема Information Retrieval — извлечение информации. Думаю, что не всех устроит масштабность и глубина предложенного обсуждения этой темы. Возможно, я и не прав (не отношу себя к продвинутым специалистам в области информационно-поисковых систем), но мне кажется, что представленная подборка статей не в должной мере отражает современные тенденции и подходы. В этом выпуске традиционных для тематических подборок приглашенных редакторов нет, так что ответственность за данную подборку лежит на главном редакторе журнала.

Пожалуй, в этот раз я начну с тематического набора. В нем три статьи. Первая по порядку называется «The Challenges of Automatic Summarization» («Проблемы автоматического обобщения содержания документов»). Авторы статьи Удо Хабн (Udo Habn) из немецкого университета Альберта Людвигса и Индериит Мани (Inderiit Mani) из Mitre Corp. В таких системах, как Intelligent Text Miner корпорации IBM, Context корпорации Oracle и им подобных для обобщения содержания применяется экстракция, предполагающая, что по определенным правилам выбираются кусочки исходного документа, которые потом конкатенируются. Этот подход обладает существенной ограниченностью: даже в случае текстовых документов получаемое обобщение может быть недостаточно согласованным и трудно читаемым, и это направление не годится для обобщения содержания мультимедийных документов. Другое направление, которому, в основном, и посвящена статья, состоит в абстрагировании документов, т.е. в их перефразировании в более общих терминах.

В свою очередь, данное направление подразделяется на две категории: «слабого знания» (для абстрагирования используются только общие правила, не привязанные к прикладной области) и «богатого знания» (используются правила, в большей степени связанные с областью приложений, что обеспечивает улучшенные возможности обобщения). Статья содержит обзор существующих методов с указанием их достоинств и недостатков. Сформулированы нерешенные проблемы. Отмечу, что за последние несколько недель я познакомился с несколькими отечественными работами, близкими по тематике с рассматриваемыми в статье проблемами. Наверное, обзор не есть лучшее место для высказывания собственных мыслей, но мне представляется, что обобщение содержания документов является перспективным направлением для будущих поисковых систем, основанных на метамоделях и метаданных.

Следующая тематическая статья называется «Compression: A Key for Next-Generation Next Retrieval Systems» (полагаю, что русский эквивалент в данном случае не требуется). Все три автора из Латинской Америки (кстати, чем дальше, тем больше публикаций в серьезные журналы поступает с этого континента — почему не из России?). Авторы статьи Нивио Зивиани (Nivio Ziviani), Эдлено Силва де Моура (Edleno Silva de Moura), Гонзало Наварро (Gonzalo Navarro) и Рикардо Баеза-Ятис (Ricardo Baeza-Yates). Это также обзор. Internet растет настолько быстро, что даже современные объемные и дешевые устройства внешней памяти не успевают обеспечивать потребности хранения информации и доступа ней. Естественным решением является хранение упакованной информации. Но как потом искать такие документы? Ничего особенно нового авторы статьи не предлагают и даже не обсуждают; их задача - представить совместный обзор современных методов компрессии и индексирования и показать, что можно работать со сжатыми документами в оперативном режиме. В последнее время мне приходилось слушать многих докладчиков из развивающихся стран. Видимо, это особенность их подхода, но постоянно звучит одна и та же идея: «Нужно обеспечить дешевые решения, а не очень хорошее качество мы переживем по своей бедности». Не уверен, что стоит экономить дисковую память. При всей своей симпатии к свободно распространяемому программному обеспечению я прекрасно понимаю тех российских профессионалов, которые платят нормальные деньги за серверы профессионального уровня, за Solaris, HP/UX или другие операционные системы подобного класса, за СУБД Oracle, Informix и т.д. А стоимость устройств внешней памяти, достаточных для работы в Internet, — это лишь малая часть расходов.

Наконец, последняя статья из тематической подборки называется «Next-Generation Wed Searches for Visual Content» («Новое поколение средств Web-поиска для визуального информационного наполнения») и написана Михаелом С. Лью (Michael S. Lew) из голландского университета Лейдена. Речь в ней идет о том, что используемые в настоящее время поисковые средства ориентированы на поиск текста, а три четверти сайтов в Web содержат разного вида образы. В университете разработан прототип поисковой системы ImageScape (skynet.liacs.nl), которая обеспечивает поиск (и соответствующие средства индексирования) нетекстовых документов. Не буду вдаваться в детали предлагаемой технологии (тем, кому это интересно, нужно читать статью целиком), однако поделюсь своей точкой зрения. Конечно, в богатой Голландии, да и в хорошем университете можно и нужно находить для себя «неокученную» область исследований. Эта тема очень интересна. Но скажите мне, у кого из вас действительно возникала потребность в поиске по части картинки, по элементу мелодии и т.д.? Лично мне это не требовалось ни разу. Научиться бы текстовые документы хорошо (релевантно) искать. А так, при желании можно поучиться и образы искать. Что в образе твоем...?

Ну вот, как вы видите, мое отношение к тематической части этого выпуска довольно скептическое. Перейду к отдельным статьям. Помните, несколько месяцев назад в журнале Computer была опубликована довольно скандальная статья про компонентное программирование; ее обзор можно найти в соответствующем комментарии. Автор - апологет Visual Basic - утверждал, что технология компонентного программирования достигла своей вершины, не осталось проблем, нужно только научиться правильно использовать Бейсик. В ноябрьском номере опубликована более правильная, на мой взгляд, статья, которая называется «Component-Based Systems: A Classification of Issues» («Компонентные системы: классификация задач»). Авторы этой статьи Пирл Бреретон и Дэвид Будген (Pearl Brereton, David Budgen) из Университета Киля (Великобритания). Очень интересна врезка в эту статью «What Is a Component» («Что есть компонент»). Ее написал Стюард Томасон (Stuard Thomason) из того же университета. Вот что он отмечает: «(1) компонент - это независимо поставляемый набор повторно используемых ресурсов; (2) эта независимость не означает отсутствия зависимостей от других компонентов; (3) требуется явное определение интерфейсов компонентов; (4) CORBA, а не Visual Basic». Основная часть статьи посвящена описанию базовой инструментальной системы, разработанной в университете и обеспечивающей создание компонентных систем.

Последняя большая статья номера — «Network Visualization with Vam, the VINT Network Animator» («Сетевой аниматор VINT»). Статью написали Дебора Эстин (Deborah Estin), Марк Хэндли (Mark Handley), Джон Хейдеманн (John Heidemann), Стив Макканн (Steven McCanne), Я Ксу (Ya Zu), и Хаобо Ю (Haobo Yu). Все они работают над проектом VINT, описанию которого и посвящена статья, тема которой — облегчение мониторинга сетей. Авторы сосредоточились на визуализации представляемых данных.

Из книжного обзора хочу обратить внимание на аннотацию книги «Advanced Database Technology and Design»; ее редакторы Марио Пиаттини (Mario Piattini) и Оскар Диаз (Oscar Diaz). Как следует из аннотации, книга ориентирована на прикладников. Похоже, неплохая. Вышла в издательстве Artech House; www.artechhouse.com, ISBN 0-89006-395-8. Цена тоже впечатляет — 85 долл.

Общество IEEE Computer Society (www.computer.org) существует для поддержки профессионалов; его московский центр (www.computer.org.ru) — для поддержки российских профессионалов. А я, среди прочего, поддерживаю Московский центр. К вашим услугам, Сергей Кузнецов; телефон: (095) 912-4614; электронная почта: kuzloc@ispras.ru