Марк Льюис: «Сегодня основная часть данных создается людьми и ими же потребляется, отсюда такое превосходство объемов неструктурированных данных над структурированными»На прошедшей в начале ноября конференции Documentum 2007, организованной корпорацией EMC, часто звучали фразы, начинающиеся словами When information comes together... («Когда информация объединяется...») с различными окончаниями — от «приложения ликуют» до «начинаются инновации». Да и все мероприятие было посвящено информации, а не технологии работы с ней. В том числе — основное выступление на пленарном заседании, которое сделал Марк Льюис, недавно занявший пост руководителя подразделения управления контентом и архивирования EMC (Content Managementand Archiving).

То обстоятельство, что именно Льюис, а не кто-то иной, скажем, выходец из Documentum, возглавил это направление, весьма показательно, поскольку отражает новые тенденции в работе с данными и информацией, наметившиеся в EMC. Льюис — человек разносторонний, он имеет техническое образование (автор восьми патентов, относящихся к системам хранения) и диплом об окончании Гарвардской школы бизнеса, обладает колоссальным опытом — начинал в DEC, а потом, вследствие череды приобретений, становился сотрудником Compaq и Hewlett-Packard. В EMC работает последние пять лет, где явился одним из авторов концепции One EMC, согласно которой нынешний 2007 год стал годом интеграции 22 приобретений, сделанных в предшествующие годы. Льюис считает, что в отношении новых компаний нужно проявлять осторожную политику, не торопиться и не разрушать имеющееся. Судя по всему, подобная политика приносит свои плоды.

Льюис сравнил современное состояние дел в компьютерной индустрии в целом с тем, что происходило всего десять лет назад. Тогда наш профессиональный мир был на 100% транзакционным, и он оставался таким до тех пор, пока хранение и обработка данных были дорогими. Например, известная «проблема 2000 года» возникла из-за стремления минимизировать количество байт, выделенных на хранение даты. Наметившаяся «информационная революция», по его мнению, объективна, поскольку имеет экономическую основу. Из-за глобального удешевления носителей резко возросло количество и «мощность» источников информации, соответственно, выросли проблемы с управлением ею. Причем важно отметить, что раньше источниками данных в основном были технологические системы, сейчас же огромное их количество порождается людьми. Последние данные по определению являются неструктурированными, и суммарная доля таких данных уже превысила 90%. Льюис назвал этот процесс «персонализацией информации».

Вопрос, стоящий перед предприятиями, звучит так: «Как с прибылью для себя использовать информационный взрыв?» Проблема дополнительно усугубляется тем, что пути перемещения информации от источников к потребителям стали сложнее — в новых условиях на передний план выходят социальные сети, как следствие — требуется информационное обеспечение для разного рода сообществ и т. п.

Это и многое другое, как это ни странно, ставит ИТ в непривычное положение. Но, как заявил Льюис, нам нужно преодолеть сложившиеся стереотипы, адаптироваться к человеческой природе, научиться работать не только с машинами, но и с людьми.

При этом, например, появляется неопределенность с тем, какая именно информация из имеющейся будет востребована. Меняется и понятие безопасности информации, это, как полагает Льюис, совсем не то же, что безопасность данных. Кроме того, конфиденциальность личных данных в условиях всеобщей информатизации становится не менее важной задачей, чем сохранение секретности корпоративных данных. К примеру, ноутбук, украденный из компании Fidelity Investments, которая занимается финансовыми услугами, стоил менее 2 тыс. долл., но он содержал сведения о сотнях тысячах вкладчиках, и эта кража повлекла потерю десятков миллионов.

В целом само слово «безопасность» приобрело совершенно иное звучание. Сегодня приходится говорить о парадигме информационной безопасности, учитывающей возможность атак изнутри предприятия, географическую распределенность работников и остальные особенности нового мира.

При этом вследствие глобализации бизнес становится интернациональным, его информационная составляющая все больше вступает в соприкосновения с правовыми нормами различных стран, учет специфики этих норм также входит в представления об управлении информацией.

Чтобы соответствовать новым требованиям, информационные системы должны быть адаптируемыми и масштабируемыми, следствием этих требований становится изменение роли и места того, что обычно называют приложениями. Льюис провел параллель с происходившими несколько лет назад событиями на оси «серверы — системы хранения». Унаследованные со времен мэйнфреймов и мини-ЭВМ подходы оставались «серверо-центричными», а системам хранения данных оставлялась скромная роль периферии. Но с появлением сетей хранения и сетевых накопителей баланс изменился, в центре внимания оказались данные, а серверы превратились в «обслугу». И теперь с точки зрения информации нынешний мир можно назвать «приложениецентричным».

Наиболее стабильным компонентом информационных систем при таком подходе является собственно информация, а средства работы с ней могут меняться и развиваться. Классические приложения, иронически называвшиеся «силосными башнями» (когда-то словом silo иронически называли монолитные архитектурные решения), уходят в прошлое. Приложения нового поколения, каждое из которых в какой-то мере является средством для работы с информационными массивами и управления информацией, — это не конвейеры, где есть один продукт на входе, другой — на выходе, они превратились в своего рода «обвязку» вокруг огромных информационных хранилищ, модифицирующую их содержание.

Следовательно, основная задача EMC, по мнению Льюиса, заключается в создании информационной инфраструктуры, на которую будут нанизаны приложения. Для этого надо отделить информацию от приложений. В таком контексте очевиднее становятся идеи сервис-ориентированных архитектур. Исходя из этих позиций, он определил нынешний статус EMC как первой в мире компании, которая специализируется на создании информационных инфраструктур и компетенция которой распространяется от систем хранения данных до систем управления информацией.

Решающую роль в этом преобразовании грядущей трансформации принадлежит управлению контентом предприятия (Enterprise Content Management, ECM). Сегодня флагманским программным продуктом EMC в данной области является Documentum 6, объявленный в конце июля. Он отличается новым сервис-ориентированным интерфейсом API Documentum Enterprise Content Services и новыми средствами разработки, упрощающими процесс создания и конфигурирования приложений, — Documentum Composer и Documentum Branch Office Cashing Servises. Благодаря возможностям Documentum 6 потребители уже сегодня могут рассматривать управление корпоративным контентом как часть стратегии, направленной на создание информационной инфраструктуры. В дальнейшем она должна стандартизировать сервис-ориентированные платформы, дав возможность соединить между собой корпоративные ИТ-системы, данные и хранилища.


О будущем информационных инфраструктур

Во время конференции Documentum 2007 Говард Шао, один из основателей компании Documentum, поделился своими представлениями о наметившемся развороте от данных к информации.

За последний месяц вы мой третий собеседник из EMC, с которым я подробно обсуждаю управление информацией. Показательно, что при этом никто не дает внятного определения того, что понимает под «информацией». К тому же, если мы говорим о создании инфраструктур, то почему в стороне остаются вопросы стандартизации? Серьезную инфраструктуру нельзя строить, не имея стандартов, рассчитывая на решения от одного вендора...

Мои основные представления об информации сложились более трех десятилетий назад, в те времена, когда я учился и работал в Массачусетском технологическом институте. С тех пор я много размышлял на эту тему. Я все же думаю, что лучшим критерием того, что представляет собой информация, является ее мера, как следует из теории Клода Шеннона. Попросту говоря, это отклонение от предположений. Если я вам сообщу что-то, что вы уже знаете, это не информация. Далее следует классическая триада — «данные — информация — знание». Собственно говоря, знание — это информация, которая может быть использована. Работая в МТИ, мы занимались проблемами искусственного интеллекта и машинного обучения, стоя на этих позициях. Правда, надо заметить, что больших успехов не было, да и с тех пор специалисты в этой области далеко не продвинулись.

Согласитесь, стандартизировать то, что вы еще не знаете, сложно. Но наша нынешняя работа в EMC, а прежде — в Documentum — это постоянные исследования в области контента. Например, мы сейчас в известной мере приближаемся к лингвистическим исследованиям данных. Существенно, что работы ведутся в связи с другими составляющими информационных систем, к примеру, мы поставляем информацию, а средства управления бизнес-процессами и эффективностью бизнеса интерпретируют эту информацию в знания и осуществляют управление ими. Но мы все еще находимся в процессе развития и самоопределения. Думаю, что наши разработчики опережают IBM или Oracle просто потому, что приступили раньше и выбрали иную исходную точку, приближенную к реальным потребностям того, что Льюис называет персонализацией информации. Я считаю, что на нас лежит большая ответственность, мы обязаны стандартизовать программные интерфейсы, форматы, протоколы обмена и многое другое. В основе должен лежать XML и то, что называем контентом с самоописанием. Более конкретно — каждый документ, каждый файл должен поступать пользователю в «конверте», содержащем все необходимые сведения по поводу того, как он может использоваться.

Вы упомянули язык, в связи с этим у меня к вам еще один вопрос. Почему все нынешние разговоры об информации проходят вне лингвистического контекста? На мой взгляд, данные становятся информацией, когда они выражаются на том или ином языке. Если вы скажете мне что-то на родном для вас китайском языке, а я вам отвечу на русском, то наши слова останутся данными. Они не превратятся в информацию...

Вы совершенно правы, участники информационного обмена должны быть представлены, они должны что-то знать друг о друге, общаться на известном им языке, и действительно, путь ко взаимодействию лежит через лингвистические подходы. Мы идем по этому пути, но нам не хватает знаний. Мы слишком долго оставались инженерами, а сейчас необходимо выходить на какой-то иной уровень, еще неизвестный нам. Сейчас происходит попытка в какой-то мере снабдить наши продукты большим интеллектом.

Но все-таки возвратимся к языкам. В конце концов, любое образование — это в том числе и изучение языка данной науки или даже области деятельности, не случайно же говорят о существовании различного рода профессиональных языков...

Вот занятный пример: мы убедились в том, что программисты, не являющиеся носителями английского языка, лучше работают с языками программирования потому, что они скорее воспринимают операторы и служебные слова как иероглифы или символы, а не как слова в более широком контексте, и делают меньше ошибок. Лингвистика — это будущее. И то, что сейчас делают поисковые машины, — это только начало, хотя и приносящее колоссальные деньги, однако они работают с языком на слишком примитивном уровне. Сейчас исследования носят прикладной характер — например, фармацевтические компании создают системы, которые позволяют переводить химические формулы лекарств в названия, примерно то же самое происходит в области нефти и газа. Вы можете искать препарат по формуле, не зная его названия. 

То есть можно говорить о появлении специализированных языков для определенных областей знания или индустрий?

Да, пожалуй, так. Все зависит от того, как в той или иной индустрии развита терминологическая культура. И еще один очень существенный момент. Многие создатели программного обеспечения сосредоточены на том, что они создают продукты, но это методологически неверно: программное обеспечение — это средство для решения проблем, а не конечный продукт. Я это понял давно и пытаюсь это представление распространить в компании как можно шире. 

То есть вы сочетаете философию и технологию?

Именно так. Управление контентом служит людям, это нельзя упускать из виду. Если вы будете упускать из виду человеческий фактор, вы обречены на провал. 

Какие специалисты могут работать на этом уровне, какое им требуется образование?

Пока мы еще только в начале пути. Сегодня отрасли нужны специалисты с традиционной подготовкой, но мы понимаем, что в будущем к части специалистов, и возможно, существенной, будут предъявляться совершенно иные требования. Это волна потребует совмещения гуманитарного и точного образования. Сейчас мы готовим книги, так или иначе отражающие наши взгляды. В мир информации приходят люди и компании, имеющие опыт работы с данными. Возьмем, к примеру, корпорации IBM, Oracle или Microsoft — я отношусь к ним с величайшим почтением, но у них нет нашего многолетнего опыта работы с информацией. Я сам пришел более двух десятилетий назад из мира СУБД, это дает мне возможность понять размер дистанции, разделяющей два мира.