Стивен Бробст : «Data scientist должен совмещать целых комплекс знаний и навыков — от профессиональных до социальных»
Стивен Бробст : «Data scientist должен совмещать целых комплекс знаний и навыков — от профессиональных до социальных»

Очередная ежегодная европейская конференция Teradatа Universe 2012 в Дублине прошла под знаком Больших Данных, что неудивительно. Еще в 2010 году технический директор Стивен Бробст назвал Большие Данные приоритетным направлением в развитии компании. В Дублине же Teradata явно хотела показать свое видение проблемы Больших Данных и собственные подходы к ее решению. Вполне закономерное стремление к обобщению вызвано тем, что представления о Больших Данных, о дисциплине data science и о роли специалистов по данным (data scientist) остаются достаточно неопределенными. Как следствие, конференция отличалась от аналогичных корпоративных мероприятий. Здесь речь шла не столько о новых технологиях или конкретных продуктах, как это чаще всего бывает, сколько о позиционировании самой Teradata. Необходимость поиска решений и взаимопонимания между компанией и ее клиентами по поводу Больших Данных стимулировала приглашение всемирно известных экспертов и проведение полемических круглых столов.

Выступавший — из-за болезни, к большому сожалению, только пo Skype — крупнейший специалист по оценке эффективности информационных систем, профессор МТИ Эрик Бриньелфссон, в тезисной форме изложил содержание популярной книги «Война против машин», написанной им вместе с Эндрю Макафи, где показал неоднозначность влияния информационных технологий на общественный прогресс. Соавторы считают, что новые технологии способствуют росту благосостояния, но одновременно ведут к дальнейшему социальному расслоению. Принявший эстафету популярный футуролог Митио Каку, в прошлом видный физик-теоретик, а сегодня признанный популяризатор науки, рассматривающий Большие Данные с системной точки зрения, видит корень проблемы в стагнации, наблюдаемой в теории информации и кибернетике, которая в свою очередь вызвана опережающим развитием микропроцессоров по отношению к теории работы с данными, практически полной неразвитостью методов работы с информацией и тем более знаниями. Второй день конференции открыл своим выступлением «Революция данных» Тим Бернерс-Ли, создатель WWW, который сосредоточил внимание на движении Open Data за открытость данных в Интернете. Завершил серию просветительских докладов видный евангелист технологий визуализации Стивен Фью; его выступление (название которого весьма показательно — «Эпоха дезинформации: отупляющие нас технологии») заметно отличалось трезвостью в оценке нынешнего маркетингового шума, сопровождающего рост объема накопленных данных. На круглых столах, где в дискуссиях, помимо специалистов из Teradata, принимали участие представители бизнеса и нескольких университетов, полного консенсуса достичь не удалось: выступавшие были согласны в неизбежности развития науки о данных, но расходились в представлениях о методах. Стивен Бробст поделился представлениями о роли data scientist и о том, какими качествами специалист, превращающий данные в полезные знания, должен обладать. В докладе Art versus Science он показал, что к полученным на основании анализа данных выводам, которые нередко не согласуются со здравым смыслом, на предприятиях чаще всего относятся с недоверием. Это заметно усложняет деятельность специалистов, которые должны сочетать в себе редкий набор качеств: любознательность, то есть способность и желание открывать новое, врожденную интуицию, квалификационные навыки, необходимые для сбора данных, знание математической статистики, способность создавать аналитические модели и, что, возможно, важнее всего остального, умение взаимодействовать с теми, кто является потребителями полученной ими из данных информации. Перечислив все эти качества, Бробст не сделал, казалось бы, напрашивающегося заключения: именно data scientist играет роль того элемента в цепи обратной связи, который оценивает состояние и передает сведения о нем в управляющую подсистему.

Все выступления и дискуссии продемонстрировали — data science как полноценной науки, связывающей данные с информацией и знаниями, пока нет, нынешнее же ее состояние можно сравнить с положением дел в химии до конгресса, состоявшегося в 1860 году в Карлсруэ, где собрались все великие химики того времени и определили предмет своей науки. Таким образом они способствовали становлению химии как самостоятельной области знания. Вместе с тем формирование науки о данных — объективная необходимость, и событие, которое станет аналогом конгресса химиков, лишь вопрос времени.

А пока прогресс многие десятилетия подряд продолжают обеспечивать инженеры, создающие конкретные технологии, в данном случае — для работы с Большими Данными. На конференции с нескрываемым удовлетворением подчеркивалась особая позиция, занимаемая Teradata в этом процессе. Исключительное положение относительно небольшой по своим масштабам компании, всего пять лет назад отпочковавшейся от NCR, объяснимо. Так случилось, что Teradata оказалась лучше подготовленной к происходящим переменам, чем конкуренты. Компания много лет располагалась в довольно узкой нише, где, кроме нее, никого в общем-то и не было, но сегодня именно эта ниша в одночасье превратилась в критически важное направление ИТ. В нее ринулись многие, но Teradata здесь была первой, что дало ей изрядную фору. Генеральный директор Teradata Майк Колер положительно оценивает появление конкурентов; их наличие, по его мнению, расширяет рынок в целом. В доказательство он привел следующие данные: за годы автономного существования компания вошла в десятку крупнейших производителей программного обеспечения и удвоила свою капитализацию, что позволило ей приобрести две фирмы: Aster Data, разработчика кластерной СУБД nCluster, реализующей идеи MapReduce, и Aprimo, разработчика приложений для управления маркетинговой деятельностью. Колер объяснил нынешние успехи тем, что изначально была избрана ориентация на нетранзакционные методы работы с данными, которые 30 лет назад рассматривались как экзотика, но сегодня оказались исключительно востребованыvb. Кроме того, c самых первых шагов фундамент аналитических систем был построен на архитектуре MPP, сначала на собственных серверах, позже на стандартных серверах x86-архитектуры.

Маркетинговая политика компании в силу высокой стоимости была ориентирована на ограниченный круг потенциальных пользователей. Во всем мире их насчитывается несколько тысяч, в Европе — около тысячи; из этого числа клиентами Teradata стали примерно 20%. В России сейчас более десяти установленных систем.

Сегодня ситуация меняется, аналитика демократизировалась, стала доступной не только гигантам, и у Teradata есть техническая возможность расширить круг потребителей, однако она перед собой на текущий момент подобной цели не ставит, сохраняя верность избранному кругу, не исключая изменения в будущем.

На фоне ярких выступлений почти незамеченными оказались анонсы продуктов, сделанные со времени предыдущей конференции, речь идет прежде всего о двух новых СУБД — очередной версии Teradata 14 и Тeradata Сolumnar, адаптированных для работы с Большими Данными. К названию обновленного продукта Active Database Warehouse прибавилось Private Cloud, хотя частным облаком его можно назвать условно, поскольку в нем не реализовано большинство признаков частного облака; его скорее можно считать дополнением к общему корпоративному облаку. Особо стоит упомянуть роль компании Aster Data Systems, которая сумела интегрировать SQL и Hadoop, совместив привычный язык запросов с современной системой хранения.