История, рассказанная от первого лица человеком, который первым сформулировал концепцию хранилищ данных

Много лет тому назад мир был помешан на реляционных технологиях DB2 и Oracle. Но я, проявляя здоровый скептицизм, решил все же опубликовать пару статей, в которых говорилось, что, несмотря на несомненные достоинства, реляционная архитектура не обладает многими функциями, которые ей приписывают.

Уильям Инмон известен как родоначальник концепции хранилищ данных, историю которой принято отсчитывать с его статьи What Price Relational? (она была опубликована в Computerworld в 1983 году).

В ответ сразу же начали приходить гневные письма — люди считали, что делать подобные заявления непозволительно, что в результате отрасль чуть ли не будет отброшена на четверть века назад. Из этого я извлек урок, который помог мне понять одну важную вещь — где искать ответы на вопросы, с которыми не может справиться реляционная технология. Выбрав в качестве главной отправной точки потребность в наличии интегрированной, легкодоступной информации, позволяющей проследить весь ход вносимых в нее изменений, я сформулировал основы концепции хранилищ данных.

С этого момента я начал активно заниматься строительством таких хранилищ. Работа в компании American Management Systems позволяла мне делать попытки воплощения своей теории в жизнь. Первые хранилища данных, которые нам удалось построить, несли на себе отпечаток новизны и неизведанности. И я очень многому научился в то время.

Первое открытие, которое свалилось как снег на голову, заключалось в том, что интеграция унаследованных данных представляет собой весьма нетривиальную задачу. Вначале мы рассуждали примерно следующим образом: «Поскольку у вас уже имеются какие-то источники данных, нужно написать специальную программу, которая перенесет всю эту информацию в новое хранилище». Никогда не забуду свое беспечное восклицание: «Ну и что же в этом сложного!?» Сегодня существует целая отрасль под названием ETL (Extract, Transform and Load), которая занимается решением этих вопросов.

Второй усвоенный нами урок состоял в том, что объемы информации, размещаемой в нашем хранилище, превосходят все, что нам когда-либо доводилось видеть в мире обработки транзакций.

В-третьих, до сих пор не существует единого мнения в отношении того, оправданно ли создание хранилищ данных с экономической точки зрения.

В 1989 году я написал книгу Building the Data Warehouse. После этого совершенно неожиданно люди, о которых я раньше ничего не слышал, начали звонить мне и задавать вопросы. Я стал работать вместе с Клаудией Имхофф, Сью Остерфельт, Чаком Келли, с целым рядом других пионеров. Мы организовывали семинары и конференции, проводили консультации и занимались строительством хранилищ данных. А сами хранилища начали жить своей жизнью.

Масштабы их промышленного использования немало удивили меня. Мои первые проекты по созданию хранилищ данных были реализованы в телефонных и страховых компаниях. Я даже не задумывался о производственной и транспортной отраслях, о сфере розничной торговли, о правительственных организациях, и, конечно, не предполагал, что масштабы распространения хранилищ данных достигнут нынешнего размаха.

Удивительно для меня и то, что хранилища данных заложили фундамент для всех видов аналитической обработки. У нас действительно появились самые разные виды аналитики: анализ миграции клиентов (проводимый, например, телефонными компаниями), анализ эластичности спроса (выполняется фирмами, занимающимися розничной торговлей). Сегодня производители начали выпускать средства аналитики, предназначенные для массового применения.

Еще один важный момент заключается в том, что размеры хранилищ радикально изменились с тех пор, как мы начали ими заниматься. Одно дело — построить хранилище, рассчитанное на обработку 10 или 20 Гбайт информации, и совсем другое — работать с терабайтами данных. А ведь это далеко не предел.

После трагедии 11 сентября я занялся обобщением ранее собранных материалов о хранилищах данных и созданием информационного ресурса, который мы назвали Government Information Factory. Этот процесс глубоко увлек меня. В хранилище, которое мы создаем, есть масса действительно новых и полезных сведений. Сегодня мы начинаем все теснее сотрудничать с правительственными агентствами. Именно в этом направлении я планирую двигаться дальше. 

Поделитесь материалом с коллегами и друзьями