Ощущение Больших Данных

Андрей Пивоваров: «Решение проблемы Больших Данных позволит компаниям избегать критических для бизнеса потерь памяти»

ИТ-отрасль вступает в полосу развития, когда решающую роль начинает играть возможность обработки всех имеющихся данных и, несмотря на то что еще нет четких определений всех понятий и явлений, связанных с Большими Данными, уже имеются платформы для построения решений по их обработке, нет изобилия проектов, но есть ощущение грядущих перемен в ИТ, вызванных необходимостью в реальном времени анализировать большие объемы разнообразных данных. Что нового Большие Данные несут для компаний, уже давно занимающихся хранилищами? Что такое проблема 13 месяцев и как ее решать? На эти и другие вопросы в ходе Второго российского форума Big Data 2013, проведенного издательством «Открытые системы», ответил Андрей Пивоваров, руководитель группы перспективных технологий департамента предпроектного консалтинга Oracle СНГ.

- Что Большие Данные означают для Oracle?

Ряд компаний, включая и Oracle, на протяжении нескольких десятилетий работают с хранилищами данных больших объемов. И раньше можно было обрабатывать терабайты в реляционных СУБД. И раньше имелись данные, например логи, которые можно было анализировать, но возможный экономический эффект от обработки больших объемов на имеющихся инструментах был бы несоизмерим с затратами. Такие технологии, как NoSQL и Hadoop, дают возможность хранить и обрабатывать все имеющиеся данные, причем во многих случаях позволяя бизнесу на порядки быстрее и дешевле справляться со все увеличивающимися объемами разнообразных данных. Такие решения, как машина аналитической обработки в памяти Oracle Exalytics, оптимизированные масштабируемые программно-аппаратные комплексы Oracle Exadata и Big Data Appliance, позволяют сократить время настройки к требованиям заказчиков, хранить и обрабатывать все имеющиеся данные максимально быстро.

- Какие новые виды аналитических систем, новые подходы к бизнес-анализу появляются в портфеле Oracle в связи с Большими Данными?

С точки зрения конечного пользователя обычной системы бизнес-аналитики, ничего не меняется, да и не должно меняться – ему не важно, сколько данных было переработано для получения его отчета, однако для архитекторов систем важно, идет ли речь о петабайтах мультимедийных данных или о структурированной таблице из сотни строк. Новые технологии дают возможность обрабатывать в десятки и сотни раз больше данных за те же деньги и время. Что касается новых подходов, то недавно у нас появился продукт Oracle Endeca Information Discovery, позволяющий изучать данные, не задавая для них заранее жесткую структуру. Такой подход позволяет находить в данных неожиданные закономерности, и пользователь получает ответы, можно сказать, даже в тех случаях, когда затрудняется сформулировать вопрос.

- Как вы оцениваете значение технологий работы с Большими Данными, в частности предиктивной аналитики?

Ничего нового в самом термине нет — инструменты и математический аппарат существовали и раньше. Но очевидно, что если мы сможем обрабатывать все доступные данные, то будут строиться более точные прогнозы или оказываться более востребованные услуги, основанные, например, на более точном предсказании поведения клиентов, как это уже происходит сегодня в компании Sabre Holdings, оказывающей широкий спектр услуг, связанных с путешествиями, от резервирования билетов на самолеты до бронирования отелей. Ежедневно эта компания обрабатывает 7 Тбайт данных, и, понятно, для их хранения и анализа им нужны новые подходы.

- На рынке сегодня имеются платформы работы с Большими Данными, но почему в России нет изобилия соответствующих проектов?

На освоение новых технологий требуется время. Так, если на прошлогоднем форуме Big Data 2012 мы объясняли, что такое Большие Данные и откуда они берутся, то сегодня клиенты уже знают и про Hadoop, и про NoSQL. Теперь их интересует применение этих технологий для решения конкретных задач. Уже сегодня к нам приходят клиенты с просьбами помочь в поиске технологий обработки 100 Тбайт данных в день.

- Можно ли говорить о региональной, в частности о российской, специфике проектов, связанных с Большими Данными?

Правильнее говорить об отличии США от всего остального мира. В Соединенных Штатах базируются многие известные интернет-сервисы, а также крупные транснациональные компании. Вопрос, что такое Большие Данные и надо ли их использовать, для них вообще не стоит. Для них петабайтные массивы данных – обыденность. В России не так много крупных проектов и компаний, что и определяет реальную потребность сегодня в инструментах работы с Большими Данными. Вместе с тем и в нашей стране уже есть ряд организаций, которым критически важен анализ очень больших объемов данных, и они не видят никаких препятствий для развертывания соответствующих решений.

- Каким вам видится будущее технологий и проектов, связанных с Большими Данными?

Существуют технологии, ценность и важность которых в момент их появления еще не очевидна и раскроется в будущем. Так было с персональными компьютерами и Интернетом. Так пока происходит и с Большим Данными: есть ощущение, что новые технологии откроют новые возможности, но реальных проектов пока мало. Принципиально новые, революционные подходы и решения на базе этих технологий еще только создаются. Но даже сейчас эти технологии уже можно использовать, например, для устранения так называемого правила 13 месяцев, когда компаниям дорого хранить данные за большие периоды времени и они отправляют в архив все, что старше определенного возраста, фактически стирая из корпоративной памяти все, что было до того. Будущие проекты Больших Данных должны обеспечить сохранность всех данных компании и на новом уровне предоставлять средства для анализа. В будущем организациям не придется страдать от потери своей памяти.

Ощущение Больших Данных

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности