Стивен Бробст: «Data scientist должен совмещать целых комплекс знаний и навыков — от профессиональных до социальных»
Стивен Бробст: «Data scientist должен совмещать целых комплекс знаний и навыков — от профессиональных до социальных»

В Дублине же Teradata явно хотела показать свое видение проблемы Больших Данных и собственные подходы к ее решению. Вполне закономерное стремление к обобщению вызвано тем, что представления о Больших Данных, о дисциплине data science и о роли специалистов по данным (data scientist) остаются достаточно неопределенными. Как следствие конференция и по форме, и содержанию отличалась от аналогичных корпоративных мероприятий. Здесь речь шла не столько о новых технологиях или конкретных продуктах, как это чаще всего бывает, сколько о позиционировании самой Teradata. Необходимость поиска решений и взаимопонимания между компанией и ее клиентами по поводу Больших Данных стимулировала приглашение к участию в конференции всемирно известных экспертов и проведение полемических круглых столов.

Выступавший — из-за болезни, к большому сожалению, только пo Skype — крупнейший специалист по оценке эффективности информационных систем, профессор МТИ Эрик Бриньелфссон, в тезисной форме изложил содержание популярной книги «Война против машин», написанной им вместе с Эндрю Макафи, где показал неоднозначность влияния информационных технологий на общественный прогресс. Соавторы считают, что новые технологии способствуют росту благосостояния, но одновременно ведут к дальнейшему социальному расслоению. Принявший эстафету популярный футуролог Митио Каку, в прошлом видный физик-теоретик, а сегодня признанный популяризатор науки, рассматривающий Большие Данные с системной точки зрения, видит корень проблемы в стагнации, наблюдаемой в теории информации и кибернетике, которая в свою очередь вызвана опережающим развитием микропроцессоров по отношению к теории работы с данными, практически полной неразвитостью методов работы с информацией и тем более знаниями. Второй день конференции открыл своим выступлением «Революция данных» Тим Бернерс-Ли, создатель WWW, который сосредоточил свое внимание на движении Open Data за открытость данных в Интернете. Завершил серию просветительских докладов видный евангелист технологий визуализации Стивен Фью; его выступление (название которого весьма показательно — «Эпоха дезинформации: отупляющие нас технологии») заметно отличалось трезвостью в оценке нынешнего маркетингового шума, сопровождающего рост объема накопленных данных. На круглых столах, где в дискуссиях помимо специалистов из Teradata принимали участие представители бизнеса и нескольких университетов, полного консенсуса достичь не удалось: выступавшие были согласны в неизбежности развития науки о данных, но расходились в представлениях о методах. Стивен Бробст поделился представлениями о роли data scientist и о том, какими качествами специалист, превращающий данные в полезные знания, должен обладать. В докладе Art versus Science он показал, что к полученным на основании анализа данных выводам, которые нередко не согласуются со здравым смыслом, на предприятиях чаще всего относятся с недоверием. Это заметно усложняет деятельность специалистов, которые должны сочетать в себе редкий набор качеств: любознательность, то есть способность и желание открывать новое, врожденная интуиция, квалификационные навыки, необходимые для сбора данных, знание математической статистики, способность создавать аналитические модели и, что, возможно, важнее всего остального, умение взаимодействовать с теми, кто является потребителями полученной ими из данных информации. Перечислив все эти качества, Бробст не сделал, казалось бы, напрашивающегося заключения, — именно data scientist играет роль того элемента в цепи обратной связи, который оценивает состояние и передает сведения о нем в управляющую подсистему.

Все выступления и дискуссии продемонстрировали — data science как полноценной науки, связывающей данные с информацией и знаниями, пока нет, нынешнее же ее состояние можно сравнить с положением дел в химии до конгресса, состоявшегося в 1860 году в Карлсруэ, где собрались все великие химики того времени и определили предмет своей науки. Таким образом они способствовали становлению химии как самостоятельной области знания. Вместе с тем, формирование науки о данных — объективная необходимость, и событие, которое станет аналогом конгресса химиков, лишь вопрос времени.

А пока прогресс, многие десятилетия подряд, продолжают обеспечивать инженеры, создающие конкретные технологии, в данном случае — для работы с Большими Данными. На конференции с нескрываемым удовлетворением подчеркивалась особая позиция, занимаемая Teradata в этом процессе. Исключительное положение относительно небольшой по своим масштабам компании, всего пять лет назад отпочковавшейся от NCR, объяснимо. Так случилось, что Teradata оказалась лучше подготовленной к происходящим переменам, чем конкуренты. Компания много лет располагалась в довольно узкой нише, где кроме нее никого в общем-то и не было, но во втором десятилетии XXI века именно эта ниша в одночасье превратилась в критически важное направление ИТ. В нее ринулись многие, но Teradata здесь была первой, что дало ей изрядную фору. Генеральный директор Teradata Майк Колер положительно оценивает появление конкурентов; их наличие, по его мнению, расширяет рынок в целом. В доказательство он привел следующие данные — за годы автономного существования компания вошла в десятку крупнейших производителей программного обеспечения и удвоила свою капитализацию, что позволило ей приобрести две фирмы: Aster Data, разработчика кластерной СУБД nCluster, реализующей идеи MapReduce, и Aprimo, разработчика приложений для управления маркетинговой деятельностью. Колер объяснил нынешние успехи тем, что изначально была избрана ориентация на нетранзакционные методы работы с данными, которые тридцать лет назад рассматривались как экзотика, но сегодня оказались исключительно востребованы. Кроме того, c самых первых шагов фундамент аналитических систем был построен на архитектуре MPP, сначала на собственных серверах, позже на стандартных серверах x86-архитектуры.

Маркетинговая политика компании в силу высокой стоимости была ориентирована на ограниченный круг потенциальных пользователей. Во всем мире их насчитывается несколько тысяч, в Европе — около тысячи; из этого числа клиентами Teradata стали примерно 20%. Элиту клиентов составляют крупнейшие компании, входящие в состав «Петабайтного клуба»; их около трех десятков. В России сейчас более десяти установленных систем.

Сегодня ситуация меняется, аналитика демократизировалась, стала доступной не только гигантам, и у Teradata есть техническая возможность расширить круг потребителей, однако она перед собой на текущий момент подобной цели не ставит, сохраняя верность избранному кругу, не исключая изменения в технической политике в будущем. То, что подобное возможно, подтвердил Бробст. Он сообщил, что примерно через год Teradata откажется от фирменного межсоединения BYNET в пользу неназванного им стандарта и тогда компания оставит за собой только сборку из стандартных компонентов и станет практически на 100% софтверной.

На фоне ярких выступлений почти незамеченными оказались важнейшие анонсы продуктов, сделанные со времени предыдущей конференции, речь идет прежде всего о двух новых СУБД — очередной версии Teradata 14 и Тeradata Сolumnar, адаптированных для работы с Большими Данными. К названию обновленного продукта Active Database Warehouse прибавилось Private Cloud, хотя частным облаком его можно назвать условно, поскольку в нем не реализовано большинство признаков частного облака; его, скорее, можно считать дополнением к общему корпоративному облаку. ADW Private Cloud представляет собой виртуализованную инфраструктуру, служащую для консолидации множества витрин данных. Особо стоит упомянуть роль компании Aster Data Systems, которая сумела интегрировать SQL и Hadoop. Уже после ее приобретения Teradata получила патент на эту многообещающую технологию, которая позволяет совместить привычный язык запросов с современной системой хранения.