Большие Данные — гармония нового и классики | Computerworld Россия

АЛЕКСАНДР ПИНСКИЙ: «Новые технологии должны использоваться в нужном месте и в нужное время, в сочетании с традиционными»

В ходе конференции Big Data 2013 редактор журнала «Открытые системы» Леонид Черняк побеседовал с директором по развитию бизнеса Teradata в России Александром Пинским.

Хорошо известно, что Teradata была создана для обработки больших массивов данных, принадлежащих крупным финансовым компаниям. Долгое время она вообще не имела конкурентов. Что такое Большие Данные с позиции компании-ветерана?

Термин «Большие Данные» можно интерпретировать по-разному. Если им обозначать большие массивы разнородных данных, которые нужно быстро обрабатывать, чтобы извлечь полезную информацию, то необходимо признать: такого рода задачи Teradata решает с момента своего основания в 1979 году. В последние годы трактовка несколько изменилась. Данные стали доступнее, их используют шире и активнее, и, как следствие, появился новый инструментарий, прежде всего MapReduce, Hadoop и NoSQL, позволяющий более эффективно работать с мультиструктурированными данными. В целом для Teradata ничего радикально нового не произошло, основная задача на идеологическом уровне осталось той же, но возможности расширились, поскольку теперь есть новые средства для ее решения. В нашем арсенале они появились вместе с приобретенной в 2011 году компанией Aster Data с ее основным продуктом nCluster, где имеется конструкция SQL-MapReduce. Ее главное достоинство в возможности совместить работу SQL с MapReduce. Благодаря nCluster мы можем применять аналитические технологии, основанные на SQL, непосредственно к мультиструктурированным данным, без дополнительных преобразований. Кроме того, мы сотрудничаем с ведущими разработчиками решений на базе Hadoop, начали с Cloudera, продолжили с Hortonworks.

Отдавая дань новому, я должен сказать, что мы продолжаем развивать нашу главную технологию, с которой начинали, — большую реляционную СУБД. Мы были и остаемся в первую очередь разработчиком СУБД, даже те программно-аппаратные комплексы, которые мы создавали когда-то, были подчинены требованиям СУБД, они нам были нужны, чтобы с максимальной полнотой раскрыть массово-параллельную архитектуру. Что же касается новых технологий, то, безусловно, для нас они благо, однако избыточная суета вокруг них создает очевидные проблемы. Технологии Больших Данных нередко представляют как универсальное средство для решения всех проблем. Как результат — попытки свалить все данные воедино, использовать один механизм для всех проблем, хотя здравый смысл подсказывает, что отказываться от специализированных решений неразумно. Вторая методическая ошибка, совершаемая даже в тех случаях, когда новые технологии используются разумно, состоит в том, что происходит фрагментация аналитической экосистемы. Компании долго и систематично боролись за то, чтобы аналитика позволяла создавать согласованные и непротиворечивые умозаключения на основе интегрированных хранилищ данных и экосистемы вокруг них. Сейчас же, с появлением технологий Hadoop, несложно создать новое аналитическое приложение, которое не будет вписываться в общую аналитическую экосистему. В результате может снова сложиться ситуация, когда данные, полученные из разных источников, будут противоречить друг другу. Есть еще и третья сложность: необходимы средства для управления Большими Данными.

Создается впечатление, что в разговорах о Больших Данных происходит смещение внимания на аналитику, в то время как остальные составляющие технологического процесса работы с данными остаются за бортом. На самом же деле аналитика — финальная часть, за ней скрыта огромная техническая работа с данными...

Согласен, работа с корпоративными данными представляет собой сложный комплекс, аналитика — его неотъемлемая часть, и новые технологии стоит использовать исключительно там, где они дают положительный эффект. Например, на стадии сбора и загрузки данных, хранения больших исторических массивов данных разумно использовать технологии на основе Hadoop, пусть они требуют больших трудозатрат технических специалистов, но все же это проще и дешевле, чем если использовать реляционные СУБД. Второй пример — работа математиков-аналитиков. От бизнес-аналитиков их отличает цель: они стремятся извлечь новую информацию из имеющихся данных. Для них мы предлагаем инструменты Teradata Aster, позволяющие подвергать анализу данные с минимумом преобразований. Бизнес-пользователи являются потребителями полученных ими результатов, их работа требует оперативного принятия решений, поэтому для них оптимальны реляционные СУБД как источник данных.

Вы упомянули математиков-аналитиков. Это те, кого называют data scientist? Что вы думаете по поводу этого вида деятельности?

Мне нравится «исследователи данных» в качестве перевода data scientist. Работа этих специалистов дает положительный эффект там, где есть достаточно сложные большие массивы данных. Скорее всего, это научные данные, данные об Интернете. Что касается корпоративных данных, то они не так велики и не так сложны, чтобы их нужно было исследовать.