Hadoop как яблоко раздора

Дэвид Девитт отвергает саму возможность использования Hadoop в продуктах управления базами данных Microsoft Лидеры рынка реляционных СУБД по-разному реагируют на внезапно вспыхнувший ажиотаж по поводу технологии обработки данных Hadoop.

Если новые и уже устоявшиеся производители хранилищ данных, в том числе Sybase и Teradata, поддерживают Hadoop и ее предшественницу, разработанную Google технологию MapReduce, то в Microsoft ее отвергает.

"Мы никогда не будем использовать код Hadoop ни в одном из наших продуктов", - заявил ведущий технический специалист Microsoft и профессор Университета Мэдисона (штат Висконсин) Дэвид Девитт.

Такое отношение Девитта неудивительно. Девитт – весьма авторитетный в научном мире эксперт по параллельным СУБД SQL, участвовавший в разработке трех из них. Кроме того, он один из авторов статьи, в которой утверждается, что базы данных SQL по-прежнему превосходят MapReduce при решении большинства задач.

"Каждый производитель баз данных спешит заявить, что он использует Hadoop, поскольку она популярна, - заметил Девитт. – И все же есть место для сомнения. Базы данных SQL по-прежнему работают весьма неплохо".

В Университете Мэдисона Девитт возглавляет научную лабораторию по проблемам баз данных, которая помогает Microsoft в исследованиях и разработке, связанных с новой версией Parallel Data Warehousing сервера SQL Server 2008 R2, ранее получившего название Project Madison.

Новая версия SQL Server пополнится некоторыми новыми аналитическими функциями, которые аналогичны ряду функций MapReduce/Hadoop.

Эти дополнения появятся в результате интеграции технологии компании DATAllegro, которую купила Microsoft, а не Hadoop.

Тем не менее Девитт признал, что MapReduce/Hadoop более эффективно, чем SQL, позволяет предотвращать отказы при длительной обработке запросов.

Microsoft в конечном итоге может попытаться интегрировать такие возможности в будущие версии SQL Server, ориентированные на поддержку хранилищ данных.

Скорее всего, это будет сделано в рамках проекта самой Microsoft, а не путем лицензирования свободно распространяемого кода Hadoop, создаваемого под эгидой Apache Software Foundation.

Компания IBM входит в число основных корпоративных сторонников Apache. "И это неудивительно, поскольку в IBM возлагают на Hadoop большие надежды", - заметил Энант Джингран, директор по технологии подразделения управления информацией корпорации IBM.

"Я не говорю, что объединение Hadoop с СУБД позволит решить все проблемы, - подчеркнул Джингран. – Но в конечном итоге, как мне кажется, каждое предприятие захочет использовать Hadoop. Правда, пока я не знаю, в каком именно виде".

Остается открытым вопрос о том, захотят ли предприятия интегрировать Hadoop в свои базы данных в виде отдельного решения хранилищ данных или в качестве исключительно Web-сервиса, когда использование Hadoop скрыто под внешней надстройкой, как это было в экспериментальном сервисе ШИЬ M2.

Чтобы это выяснить, IBM начала реализацию пилотных проектов для нескольких своих корпоративных клиентов, а также ведет исследования и разработку в лабораториях. Джингран не ответил на вопрос, какова вероятность того, что функциональность Hadoop будет реализована в следующей версии DB2 или Informix.

По его словам, ясно только одно: Hadoop лучше всего подходит для решения новых задач, таких как веб-аналитика, противодействие мошенничеству и анализ неструктурированных или полуструктурированных данных, чем для проблем, в работе с которыми реляционные СУБД уже доказали свою состоятельность.

"Те производители, которые просто хотят использовать Hadoop для создания альтернативы СУБД, вряд ли добьются успеха, - заявил Джингран. - Технологии SQL поддерживает экосистему стоимостью 300 млрд долл. Она очень надежна. Мне сейчас 46 лет, но я отойду от дел раньше, чем SQL".

Критики отмечают, что у Oracle Database могут возникнуть сложности, если популярность MapReduce/Hadoop будет расти.

И не только потому, что Oracle уже очень долгое время остается лидером рынка реляционных СУБД, но и потому, что ее база данных печально известна плохой масштабируемостью. А именно масштабируемость – одно из главных достоинств MapReduce/Hadoop.

Старший менеджер Oracle по продуктам Жан-Пьер Дейкс подчеркнул, что параллельная обработка больших наборов данных возможна с помощью Oracle Database при использовании функций, впервые предложенных в Oracle 9i еще в 2001 году.

"Разработка программного обеспечения MapReduce близится к концу... SQL также будет использоваться для массовой параллельной обработки. В конце концов шумиха закончится, и тогда станет понятно, с каким решением работать удобнее всего", - заметил Дейкс.