На пути к технологиям работы с информацией

Компьютерные технологии чаще всего называют информационными, хотя, по существу, это неверно, поскольку в подавляющем большинстве своем они имеют косвенное отношение к информации. Они предназначены почти исключительно для работы с данными, и только в самое последнее время появились отдельные компании, которые берут на себя смелость утверждать, что их новые технологии предназначены для работы непосредственно с информацией. Одно из таких новых информационных направлений получило название IaaS.

Чтобы быть точным, надо заметить, что в очередной модной нынче «двугорбой» аббревиатуре IaaS первая буква может соответствовать как минимум трем разным словам: integration, infrastructure и information. Если IaaS соответствует Integration-as-a-Service, то речь идет об интеграционном программном обеспечении, предоставляемом как сервис, при этом чаще всего подразумеваются ставшие привычными корпоративные шины ESB, они могут быть проприетарными (Sonic и другие компании) или с открытым кодом (Mule). Вторая расшифровка IaaS — Infrastructure-as-a-Service, так называют следующую стадию в развитии еще одной модной сервисной идеи, Software-as-a-Service (SaaS). В IaaS она рассматривается шире и распространяется еще и на аппаратное обеспечение, суть ее в том, что вы арендуете уже не только приложение, но еще и среду, в которой оно выполняется. Это шаг к тому самому «вычислительному облаку», грядущим коммунальным вычислениям, которым посвящена новая книга скандально известного Николаса Карра «Великий перелом» (The Big Switch).

Развиваемая Карром концепция о доминировании в будущем модели IaaS, не бесспорна. Опыт показывает, что ни одна модель, в том числе и коммунальная модель вычислений, не может вытеснить все остальные. Безальтернативность — плод фантастов, упрощающих мир, а из общей теории систем следует, что сложные системы по определению должны быть разнообразными.

И наконец, третья разновидность IaaS — Information-as-a-Service. Эта сервисная концепция впервые была представлена в декабре 2006 года в отчете, озаглавленном Information as Service to the Enterprise. Его автором является аналитик Сандра Роджерс из IDC, а сам отчет написан по заказу корпорации IBM. Сегодня IaaS является составной частью глобальной пропагандистской кампании Information on Demand («информация по запросу»), проводимой IBM и подхваченной почти сотней других компаний.

IaaS на практике

Иногда IaaS интерпретируют и как совокупность технологий для предоставления пользователям информационных услуг; такое определение можно найти в Wikipedia. Но чаще под IaaS понимают концептуальный подход к корпоративной инфраструктуре данных. Из этого исходят и составители отчета IDC Information as Service to the Enterprise. Этот отчет состоит из двух частей, в первой постулируются основные идеи IaaS, а во второй описаны решения, предлагаемые IBM. Он начинается с демонстрации того, что в современных условиях «информация — это сила», и поэтому для эффективной работы предприятию необходимо располагать полной информацией обо всех своих ресурсах. Способность к работе с информацией критична, потому что, по данным той же IBM, на практике показатели корректности и эффективности корпоративной информации чрезвычайно низки. Отсюда делается вполне обоснованный вывод, что необходимо средствами ИТ создавать не отдельные автоматизированные процедуры или последовательности процедур, а единую систему информационных потоков, поддержанную информационными сервисами. Автор отмечает, что сама по себе идея сервисов, поставляющих данные, не нова, но сейчас сложилась новая ситуация.

Принятие новых стандартов, прежде всего таких, как XML, плюс к тому появление сервис-ориентированных архитектур (Service-Oriented Architecture, SOA), а также разработка подходов к автоматизации, основанных на использовании моделей, в совокупности создают основу для полноценных информационных сервисов. Средствами IaaS можно объединить возможности, существовавшие прежде как независимые: интеграцию данных (data integration), репликацию данных (data replication), доступность данных (data availability), корпоративный поиск (enterprise search) и аналитику в реальном времени (real-time business intelligence). Если перевести все сказанное в отчете на простой язык, то IaaS — это попытка комплексного подхода к информационным проблемам предприятия, решаемая путем интеграции различных технологий работы с данными.

В качестве такого рода интегратора используется виртуальный сервер IBM Information Server. Это не конкретный продукт, а инфраструктурный подход к скоординированной работе с данными. В его основе лежат сервисы, ориентированные на данные (data-oriented services). Целью внедрения IBM Information Server является снижение физического объема данных, хранимых в различных базах, унификация и централизация доступа к этим данным, ускорение обращения к часто используемым данным за счет кэширования и множество подобных логически оправданных действий. Интеграционные механизмы IBM Information Server строятся по архитектуре SOA, для публикации сервисов используются модули IBM WebSphere Information Services Director и WebSphere Business Glossary, а также компоненты IBM Information Integration Solutions. В деталях и с примерами описание IBM Information Server можно найти в работе Case Study: Information as a Service, выпущенной в серии IBM RedPaper.

С некоторой задержкой корпорация Oracle выпустила аналогичный по характеристикам программный пакет Oracle Data Integration Suite, объединивший технологии интеграции данных с программным обеспечением промежуточного слоя и инструментами создания сервисных архитектур. Data Integration Suite включает в себя компоненты Oracle Data Integrator, Oracle BPEL Process Manager, Oracle Enterprise Service Bus, Oracle Application Server, Oracle Hyperion Data Relationship Manager, Oracle B2B Engine и Oracle Business Rule Engine. Оригинальными являются инструменты Oracle Data Quality for Data Integrator и Oracle Data Profiling, разработанные Oracle совместно с компанией Harte-Hanks Trillium Software, они и предназначены для отслеживания потоков данных и систематизации поступающей информации.

IaaS два года спустя

Вторая волна интереса к IaaS вызвана тоже публикацией отчетов, но на этот раз составленных аналитиками из Forrester Research. В сентябре 2007 года Майк Гилпен и Ноэль Юханна выпустили труд Enterprise Information Virtualization and the Information Fabric, название которого можно перевести как «Информационная инфраструктура и виртуализация корпоративной информации», а уже в наступившем году — The Forrester Wave: Information-As-A-Service, Q1 2008. (Справедливости ради следует заметить, что до 2007 года те же авторы использовали термин Enterprise Data Virtualization в своей новой работе, не сильно напрягаясь, они попросту заменили слово «данные» словом «информация».)

Как считают Гилпен и Юханна, основным стимулом к созданию технологий, поддерживающих IaaS, является признание того факта, что корпоративная информация, используемая менеджерами, имеет низкое качество, недостаточно достоверна и не всегда актуальна. Исправлять положение должны «архитекторы корпораций» (enterprise architects) и «архитекторы информации» (information architects). Особую проблему в их деятельности создают возросшие объемы данных, распределяемые между множеством хранилищ. Для них классического набора инструментов, состоящего из технологий интеграции информации предприятия (enterprise information integration, EII), выделения, преобразования и загрузки (extract, transform, load или ETL) и репликации данных (data replication) уже недостаточно. И причина, прежде всего, в количестве данных: до тех пор, пока оно измерялось мегабайтами, проблем не было, они возникли с переходом к гигабайтам и терабайтам. Поставка данных по требованию позволит решить эту проблему. Еще надежды, возлагаемые на IaaS, связывают с повышением безопасности данных, а также повышением производительности, качества, готовности и приспособленности данных к использованию (manageability). В конечном итоге результатом внедрения IaaS должно стать обеспечение единого и целостного видения корпоративных информационных ресурсов, авторы отчета называют это «одной версией правды», то есть правд может быть больше, чем одна, нужно получить хотя бы одну, но с достаточной полнотой.

Надо заметить, что эту основную мысль Гилпена и Юханна точнее их самих и заметно раньше выразил отец хранилищ данных Билл Инмон в статье The Single Version Of The Truth («Единая версия истины»). В ней Инмон пишет: «Удивительно, но количество правил для создания целостного пространства данных, обеспечивающего единый взгляд на истину в сложной среде, относительно невелико, однако их выполнение требует организационной дисциплины и гармонии в работе различных подразделений, а это проще сказать, чем сделать».

Что же даст подход IaaS, если он будет внедрен в следующих поколениях корпоративных архитектур? Архитектура данных приобретет достаточную гибкость, чтобы одни и те же данные могли быть использованы по разным назначениям. Удастся обеспечить распределенный доступ к данным в режиме реального времени. Откроется возможность улучшить контроль доступа к данным. Улучшится производительность и масштабируемость приложений. Поднимется уровень готовности, будут строже исполняться соглашения об уровне обслуживания (Service-Level Agreement, SLA) и возрастет качество обслуживания (Quality of Service, QoS).

Сегодня о своей причастности к IaaS объявили около сотни компаний, причем их состав меняется. Имена трех основных вендоров несложно предсказать, это корпорации IBM, Microsoft и Oracle. Для каждой из них IaaS своего рода «зонтичный бренд». IBM прикрывает им свой Information Server и стратегию Information on Demand, Oracle — стратегию Fusion Middleware, а Microsoft — Dynamic IT. Далее следуют такие компании, как BEA Systems, Endeca Technologies и Red Hat. После приобретения BEA позиция Oracle заметно усилилась. Но с технологической точки зрения не менее, если не более интересны не очень большие компании, среди них Ipedo и Xcalia, и в этой группе следует особо выделить Composite Software. Далее сонм совсем небольших компаний.

Сдвиг информационной парадигмы

Каждая из них дает свою частную интерпретацию IaaS, и, как всегда в подобных случаях, чтобы увидеть полную картину, следует взглянуть со стороны на происходящее. Мы увидим, что за несколько лет в индустрии, назовем ее по традиции информационной, сложилась «странная» ситуация. Вопреки прогнозам и ожиданиям вектор, а точнее, несколько новых векторов технологического развития оказались ориентированными совсем не по тем направлениям, которые можно было предсказать заранее. Если вернуться лет на десять назад, то несложно убедиться, что тогда прогноз на будущее был совсем иным. К такому непредсказуемому развороту событий оказались не подготовленными ни научное сообщество, ни вендоры, причем речь идет не о каких-то отдельных частностях, а первоосновах, о том, чему учат студентов. Вот несколько показательных проявлений того, как, казалось бы, незыблемые фундаментальные положения, на коих десятилетиями строился бурный технологический рост, перестают быть китами, на которых стоят компьютерные системы. Самое показательное из них — изменившееся отношение к схеме Джона фон Неймана. С 50-х кодов по настоящее время она была безальтернативна, она и только она рассматривалась в качестве концептуального базиса всех компьютеров. Труд фон Неймана First Draft of a Report on the EDVAC оставался катехизисом для проектировщиков, хотя маловероятно, что кто-нибудь из них его читал. Однако, по мере роста сложности процессоров, подчиняющемуся закону Мура, проявились присущие этой схеме внутренние ограничения, что побуждает искать альтернативные решения.

Еще один пример, непосредственно связанный с предыдущим, можно считать следствием появления многоядерных процессоров. Очевидно, что массовое распространение процессоров с десятками и сотнями ядер может в корне изменить основополагающие принципы, лежащие в основе современного программного обеспечения. Еще в 1977 году Джон Бэкус на церемонии вручения ему Тьюринговской премии утверждал, что существующий стиль программирования есть производное от принятой аппаратной архитектуры и является «интеллектуальным бутылочным горлом», которое навязывает программистам «пословное» мышление, не позволяя рассуждать в более высоких концептуальных категориях. Меняется архитектура и меняется стиль программирования. Тогда к Джону Бэкусу не прислушались, он опередил время, слова этого классика не были восприняты, поскольку на том технологическом уровне иной стиль мышления был неприемлем. Но к 2005 году ситуация изменилась. В более категоричной форме и основываясь на нынешних аппаратных тенденциях, примерно ту же мысль высказал Херб Саттер в известной статье «Бесплатных завтраков не будет. Основополагающий разворот по направлению к параллельности в программировании» (The Free Lunch Is Over A Fundamental Turn Toward Concurrency in Software). Позже вместе с коллегой из Microsoft Джеймсом Ларуссом он опубликовал статью «Программное обеспечение и параллельная революция» (Software and the Concurrency Revolution), на этот раз в журнале ACM Queue, где он не столько критиковал настоящее, сколько размышлял о будущем. В ней Саттер назвал необходимую реакцию на изменившиеся условия «грядущей параллельной революцией».

Нельзя не упомянуть и многострадальную SOA, и переход от сильносвязанных систем к слабосвязанным. Тысячам специалистов потребовалось несколько лет, чтобы породить океан противоречивых высказываний и в конце концов осознать суть сервисной идеи.

И еще, конечно же, виртуализация во всех ее многочисленных формах, от виртуализации ПК, серверов и систем хранения до виртуализации приложений.

И вот теперь в этом ряду появился еще один признак сдвига современной компьютерной парадигмы, он еще не имеет названия, но его сущность очевидна, она заключается в том, что период упрощенного отношения к данным подходит к концу, его главным признаком является обращение от данных к информации.

Computer Science 2.0

Что же на самом деле стоит за этими «неожиданными» проявлениями прогресса и почему они оказались неожиданными? Происходящее в компьютинге сегодня можно сравнить с цунами, в том смысле, что тектонические процессы, вызывающие подъемы воды, не видны, а все, что доступно для наблюдения на поверхности, происходит как будто само по себе, без чьей-то видимой инициативы. Хотя, конечно же, в данном случае есть истинная причина, и путем незамысловатого рассуждения несложно прийти к выводу, что описанные инновационные признаки являются следствием кумулятивного эффекта, вызванного конвергенцией компьютерных и сетевых технологий. Можно лишь удивляться тому, что среди сонма отраслевых аналитиков не нашлось ни одного, кто попытался бы осмыслить происходящее. Среди тех немногих, кто пытается осмыслить и обобщить отмеченную «странную» ситуацию, Майкл Броди, занимающий должность «главного ученого» в крупнейшей американской телекоммуникационной компании Verizon IT. В России это имя практически неизвестно, лишь однажды в 1995 году его статья была опубликована в скромном сборнике отраслевого семинара «Интероперабельные информационные системы в науке». Область интересов Броди находится на пересечении экономики, бизнеса, компьютерной науки (computer science) и технологий. Помимо выполнения своих служебных обязанностей, Майкл Броди является одним из руководителей созданной в 2007 году в Берлине общественной организации Международный институт семантических технологий (Semantic Technology Institute International).

В остальном мире Броди пользуется заслуженным признанием, он нередко выступает в качестве приглашенного докладчика на самых значительных конференциях. В этом качестве он участвовал в конференции по очень большим базам данных VLDB 2007 International Conference on Very Large Data Bases, прошедшей в сентябре 2007 года в Вене. По многолетней традиции в задачу приглашенных на VLDB докладчиков входит нетривиальное представление отраслевых перспектив. И Броди оправдал ожидания, его доклад, постулирующий новые подходы работы с данными, назывался Computer Science 2.0: A New World of Data Management. Не менее радикальным было выступление второго приглашенного докладчика, Майкла Стоунбрейкера, который выбрал своей темой «Конец архитектурной эпохи, пора заняться полным переписыванием».

Квинтэссенция высказанных Броди взглядов сводится к утверждению того факта, что мы вступаем в новый мир, структурированный совсем иначе, чем раньше. В нем отдельные, казалось бы, мало связанные или вообще не связанные между собой напрямую новации нельзя рассматривать изолированно друг от друга. Наиболее характерными проявлениями этого нового мира Броди считает многоядерные архитектуры, виртуализацию, сервис-ориентированные компьютерные системы и Semantic Web. Он утверждает, что эти открытия и изобретения являются признаками второго поколения компьютерной науки — Computer Science 2.0. По Броди, вместе с этими переменами заканчивается текущая технологическая эпоха, которую он называет компьютерной эрой (Computing Era) и для которой была характерна концентрация на точных вычислительных технологиях, и начинается следующая эпоха, названная им эрой решения проблем (Problem Solving Era). Теперь в фокусе внимания будут совершенно иные инструменты, в полной мере соответствующие реальному миру. Эти инструменты будут отличаться большей степенью автоматизации, но в то же время они будут более абстрактны и интеллектуальны, и к тому же им будет присуща некая неопределенность или размытость. Новые технологии должны быть приспособлены к реальному миру, где доминирует приблизительность и где нет неизменных ответов, а постоянное изменение ответов на поставленные вопросы является нормой. Такая постановка задачи не есть что-то принципиально новое, идеи нечетких множеств были высказаны Лофти Задэ (он, кстати, наполовину русский, его мать родом из России) еще в 1965 году, но до сих пор не было удачного аппарата для реализации этих идей.

Новая парадигма распространяется и на все, что так или иначе связано с работой с данными. Разумеется, классика СУБД не отменяется, но сфера применения технологий работы с данными существенно расширяется. В Computer Science 2.0 должны появиться эффективные средства для работы с виртуализованными данными, данными из сервис-ориентированных компьютерных систем и из Semantic Web. Броди считает, что появление Computer Science 2.0 является самым большим вызовом для тех, кто занимается теорией работы с данными, за последние 40 лет. По его мнению, успех возможен на пути коллаборации с другими научными дисциплинами на техническом и идеологическом уровне.

Дитер Фенцел, профессор Инсбрукского университета (Австрия), является соратником Броди по STI International. Он считает, что computer science в XX веке была сосредоточена на получении точных решений в ограниченной области приложений. В XXI веке компьютерная наука будет строиться на приближенных решениях, вырабатываемых в условиях частичной информационной неполноты и неопределенности. Этот сдвиг Фенцел сравнивает с тем, что произошло при переходе от классической физики к теории относительности и квантовой механике, когда представления об абсолютном пространстве и времени были заменены релятивистскими представлениями, в основе которых лежит неопределенность.

Данные и компьютер

На протяжении столетий ученые пытались создать механические приборы, ускоряющие счет, и прибор, названный компьютером, был изобретен для ускорения рутинных вычислений. По-русски его так и называли — «вычислительная машина»; единственным же типом данных, с которыми он мог работать, были числа. Очень скоро обнаружилось, что компьютер может быть использован для выполнения более широкого круга операций над данными, не связанных с вычислениями, и тогда появились алфавитно-цифровые данные. Самое широкое современное определение того, что такое компьютер, звучит так: «Компьютер — это прибор, способный манипулировать данными, исполняя последовательность команд». Определение подчеркивает то обстоятельство, что нынешний период в компьютерной истории ассоциируется с работой с данными. А что же такое работа с данными? По определению ассоциации Data Management Association, работа с данными — это комплекс действий, поддерживающих данные на протяжении всего их жизненного цикла, в него входит создание архитектур, правил политик и процедур.

За прошедшие годы сложился комплекс дисциплин, образующих направление Data Management. В него входят: анализ данных (Data analysis), управление базами данных (Database management system), моделирование данных (Data modeling), администрирование данных (Database administration), хранилища данных (Data warehousing), разработка или добыча данных (Data mining), контроль качества данных (Data quality assurance), безопасность данных (Data security), управление метаданными (Meta-data management), архитектура данных (Data architecture). Итогом развития этих направлений стало создание рынка самых разных технологий, предназначенных для работы с данными (Data Management). Несмотря на то что это один из крупнейших сегментов мирового рынка (его объем измеряется десятками миллионов долларов), он отличается своей однородностью, практически все технологии так или иначе связаны с реляционными СУБД. Когда-то такое положение было нормальным, но со временем противоречие между однородностью технологий и разнообразием данных становится очевидным.

Вторжение информации

Можно соглашаться или не соглашаться с конкретными воззрениями Майкла Броди и Дитера Фенцела относительного того, какой именно должна быть Computer Science 2.0, но в чем они бесспорно правы, так это в том, что она должна адаптироваться и точнее соответствовать окружающей реальности. Тривиальными данными, выраженными в алфавитно-цифровой форме, всю сложность этой реальности передать не удается, и тогда для более сложных форм начинают использовать слово «информация». Запущенное в оборот, оно приобретает популярность, и опять, как в свое время о SOA, об информации не говорит разве что очень ленивый, но, по сути все произносимое не имеет даже малейшего научного обоснования. Вот что, например, говорит Амбуж Гойял, генеральный менеджер IBM по средствам управления информацией, определяя IaaS: «Информация как сервис — это разрабатываемое нами технологическое направление, служащее для предоставления содержания, необходимого пользователю. Если вы посмотрите на то, что сегодня актуально, то увидите, что пользователи хотят принимать решения на основе полученной ими информации. В прошлом мы стремились автоматизировать процессы и ускорить их, заменяя компьютерами человека и бумагу. Я вижу в информации два аспекта. Один я бы назвал ‘адресованная информация’, — это то, где информация хранится, обрабатывается, архивируется и т.д. Второй — ‘информация в действии’ — это информация, доставленная в нужное место и в нужное время для принятия решения. Это то, что хотят от нас пользователи, вот почему мы сосредоточены на виртуализации информации и интеграции с управлением мастер-данными»

Общий смысл сказанного — или, скорее, подтекст — уловить можно. Он состоит в том, что при создании систем категории Enterprise Productivity Management (или Business Productivity Management) образуются контуры управления, включающие человека. Как следствие, в таких системах сосуществуют два основных потока или две части работы с данными. Из них ту часть, которая является традиционной работой с данными, Гойял называет действиями с адресованной информацией, а часть работы с данными, поставляемыми человеку, — работой с информацией в действии. Однако, что при этом понимается под собственно информацией, остается непонятным. У меня была возможность задать Гоялу такой вопрос во время личной беседы на конференции Information on Demand 2007, но содержательного ответа он не дал. Но если нет хотя бы нестрогого определения того, что такое информация, можно ли говорить об «информации по требованию» или «информации как услуге»?

Мы привыкли к слову «информация», его используют все и везде без признаков малейшего сомнения. В профессиональном компьютерном лексиконе оно является ровесником самого компьютера, эти два термина солидаризировались еще в конце 40-х годов XX века, позже, в 1955 году, было впервые использовано название information science, а с 60-х годов укрепилось словосочетание «информационные технологии». До сих пор информация не рассматривалась как отдельное явление, она воспринималась как некоторое фоновое по отношению к компьютерам понятие, у большинства технических специалистов сложилось устойчивое представление, что с этим предметом все ясно. Можно только удивляться тому, что на протяжении шести десятилетий сосуществования компьютеров и информации никто из ученых, работающих в computer science, не рассматривал информацию в качестве предмета исследования. Более того, никто не делал особых различий между информацией и данными, и эти два понятия почти всегда признавались синонимами.

Упрощенным отношением к информации страдают, прежде всего, те, кто ограничивает свои взгляды рамками статистической теории информации. И напротив, философы, такие как Грегори Бэйтсон, Маршал Макдюэн и другие, разрабатывали чрезвычайно интересные подходы к информации, но, к сожалению, они интересны с методологической точки зрения, однако непродуктивны, ими нельзя воспользоваться. Из современников наибольшим признанием пользуется известный итальянский философ и специалист по информации Лучиано Флориди. В своей книге «Сознание и машина» он пишет: «Из всех используемых нами обыденных и технических понятий информация становится одним из важнейших, но при этом остается наименее понятым».

Почему же до самого последнего времени для решения практических задач инженерам с избытком хватало традиционного набора знаний об информации, почему не было необходимости разделять данные и информацию? Скорее всего, дело в том, что до последнего времени данные в символьном или числовом виде оставались тем языком, возможностей которого было достаточно для представления информации. Следовательно, до тех пор пока потребитель понимает этот язык источника, представляющий информацию в форме потоков битов и байтов, для него данные и заключенная в них информация тождественны. Такое положение сохранялось бы и впредь, если бы не вновь открывшиеся обстоятельства. Во-первых, появились слабосвязанные архитектуры, нуждающиеся в более сложном языке взаимодействия между потребителями и поставщиками сервисов, поэтому потребовались метаданные для описания данных. С определенным приближением эту пару — «данные плюс метаданные» уже можно считать информацией, нетождественной данным. Во-вторых, и это намного важнее, теперь компьютеры включаются в такие контуры управления бизнесом, где в качестве потребителя и источника данных участвует человек, который должен получать информацию в соответствующей форме и на понятном для него языке.

Теория информации от Шеннона до Флориди

Есть циничное, но проверенное жизнью определение: «Классики — это те, кого все почитают, но никто не читает». Его можно распространить не только на музыку и литературу, но и на науку — труды великих известны только по учебникам. Например, Клод Шеннон признан классиком за свои работы в области математической теории коммуникаций, но классик он еще и потому, что его работы соответствуют приведенному выше правилу. Они стали основой ряда дисциплин. Шеннон — один из самых цитируемых авторов, однако складывается впечатление, что полностью его совместную с Уорреном Уивером работу «Математическая теория коммуникаций» не читал никто, а существенная ее часть вовсе неизвестна широкой публике. По этой причине можно встретить упреки в адрес Шеннона, суть которых сводится к тому, что он слишком узко трактовал понятие информации. На самом деле при внимательном чтении этой сверхдобросовестно написанной книги мы можем найти признание авторов в том, что они не посягают на всеобъемлющее решение, на то, что информация — это полиморфический феномен и заслуживает более широкого рассмотрения. Вот что обнаруживается в этой книге: «В общей теории информации разные авторы приписывают слову ‘информация’ разные значения. Хотелось бы найти среди них хотя бы несколько полезных для практического применения, таких, которые можно было бы признать на какое-то время и использовать для исследований. Трудно предположить, что когда-либо будет выработана единая концепция информации, удовлетворяющая множеству различных приложений».

Шеннон и Уивер выделяют три подхода к информации, прежде всего технический, связанный с количественной оценкой передаваемых данных. Основная часть исследований и наследия самого Шеннона связана с первой частью. Однако в книге мы можем обнаружить указание на то, что есть следующая ступень в представлении информации — семантическая, с этим связаны такие понятия, как содержательность и истинность, но есть и еще одна ступень — воздействие информации, ее влияние на поведение людей. Часть общей работы, посвященная этим аспектами информации, написана Уивером, почему-то его вклад в развитие теории информации во многих случаях оказывается недооцененным.

ИТ-специалистам известно содержание только первой части. Это было вполне оправданно до тех пор, пока компьютеры использовались для обработки простых данных того интеллектуального багажа, который находится на первой ступени. Однако совсем недавно стало ясно, что переход к распределенным архитектурам, где независимые слабосвязанные модули должны вступать в информационный обмен, и более активное включение человека в контур управления бизнесом требуют перехода на следующую ступень по классификации Шеннона и Уивера, которую они назвали семантической стороной информации. Компонентам SOA или людям, сидящим перед корпоративными панелями управления, недостаточно получать простые потоки данных, их интересует содержательная сторона. И это возвращает нас к отсутствию серьезного базиса для computer science 2.0.

К сожалению, в таком ключе, как это делали Шеннон и Уивер, сочетающем практическое отношение к информации с математическим и философским обоснованием, после них никто не работал. Более того, отношение к информации было вульгаризировано, это характерно и для западной науки, и для отечественной. Особенно преуспели в этом отношении те ученые, которые предложили использовать термин «информатика» вместо computer science, тем самым они попросту изгнали информацию, сведя все к обработке данных. Они лишили «права гражданства» науку информатику, которая, согласно определению, данному в Большой советской энциклопедии, рассматривалась как «дисциплина, изучающая структуру и общие свойства научной информации, а также закономерности ее создания, преобразования, передачи и использования в различных сферах человеческой деятельности» (цитируется по работе «Очерки истории информатики в России», Научно-издательский центр ОИГГМ СО РАН, 1998). Учитывая специфику времени, когда печаталась эта энциклопедия, и то, что это советская энциклопедия, можно понять, почему представление об информации здесь ограничено только научной. А далее в том же труде можно обнаружить следующее: «… говоря об истории информатики в бывшем СССР и теперешней России, по сути, надо излагать историю отечественной кибернетики и частично прикладной математики и вычислительной техники».

Первым и пока единственным наследником Шеннона и Уивера можно назвать итальянского философа Лучиано Флориди. Он работает одновременно в университетах Бари и Оксфорда, возглавляя группу, занимающуюся исследованиями «философии информации» (philosophy of information). Он понимает под информацией субъектно-независимое знание, ее он называет семантической информацией. Книга Флориди Scepticism and the Foundation of Epistemology переведена на многие языки, в их списке отсутствует русский. Полное и в то же время компактное изложение информационной концепции Флориди можно найди в статье Semantic Conceptions of Information, размещенной в Стэнфордской энциклопедии по философии (Stanford Encyclopedia of Philosophy).

Приведенное там общее определение информации (General Definition of Information, GDI) состоит из трех пунктов. Нечто может рассматриваться как информация с семантическим контентом, если:

состоит из одного или нескольких наборов данных;
эти данные хорошо сформированы (well-formed);
данные имеют смысл (meaningful).

Определение данных является одной из наиболее интересных частей концепции Флориди. Под формированием данных понимается сборка данных по определенным синтаксическим правилам. Осмысленность означает соотнесение данных с определенным содержанием.

Данные разделяются на первичные, то есть те, которые хранятся с СУБД; вторичные, или «антиданные», то есть данные, отсутствие которых несет содержание; операционные данные, необходимые для функционирования системы; метаданные.

Зачем говорить об информации?

Приведенные рассуждения о природе информации, о ее связи с данными могут показаться надуманными, но на самом деле это совсем не так. В очередной раз убедиться в этом удалось на недавнем семинаре, посвященном, в том числе, и проблемам IaaS. Его проводили заезжие профессиональные лекторы, вооруженные великолепными примерами и слайдами (правда, для тех, кто не мог их слушать по-английски, дополнительные проблемы создавал перевод). Семинар занял целый день, четыре или пять презентаций было проведено по всем правилам лекторского искусства, но в результате суть изложенного поняли единицы, и в перерывах, и по окончании семинара слушатели явно выражали свое недоумение. Увы, выступающие сами не слишком хорошо понимали суть перехода от данных к информации — и уж тем более не могли донести его смысл до аудитории. На семинаре изрядное внимание было уделено метаданным, языку XML, возможности хранения в базах данных непосредственно на XML и выполнению запросов к информации на языке XQuery. К сожалению, суть перехода от традиционных реляционных СУБД, в которых хранятся данные и запросы к которым можно делать, оперируя только данными, к хранению информации, представленной пусть в самом упрощенном виде, на XML, и допускающей обработку совершенно иных запросов, суть этого перехода осталась скрытой от участников семинара.

Великий перелом по Николасу Карру
Будет ли перелом великим?

Ревизия первооснов — конец застоя?

Многоядерные процессоры и грядущая параллельная революция

Сервисы и сложные системы

Средство против сложности

Корпоративное управление: первые шаги