ПРОБЛЕМА БОЛЬШИХ Данных вот-вот станет актуальной для крупных отечественных предприятий и организаций, и им нужно готовиться к ее решению
ПРОБЛЕМА БОЛЬШИХ Данных вот-вот станет актуальной для крупных отечественных предприятий и организаций, и им нужно готовиться к ее решению

Проблема Больших Данных вот-вот станет актуальной для крупных отечественных предприятий и организаций, и им нужно готовиться к ее решению. Эта мысль стала стержнем прошедшего 22 марта форума Big Data 2012 — первого в России крупного мероприятия, посвященного этой теме, организованного издательством «Открытые системы». Форум посетили около 400 слушателей.

Как отметил Сергей Мацоцкий, председатель правления компании IBS, в последние годы организации сталкиваются со стремительным ростом объемов данных, который продолжится и в ближайшие годы. Так, по прогнозам IDC, с 2011-го по 2015 год общий объем данных вырастет примерно в 4,4 раза, общемировой трафик — почти втрое. В то же время, по словам аналитиков Gartner, большинство организаций не обладает ни техническими возможностями работать с Большими Данными, ни умением управлять ими.

Эксперты отмечают следующие признаки наличия проблемы с обработкой Больших Данных: объем данных в организации превышает физические возможности вертикального масштабирования ее ИТ-инфраструктуры; требуется высокая скорость обработки значительных объемов данных; имеется большое разнообразие форматов данных либо вариантов их интерпретации и анализа; наблюдается очень быстрый рост затрат на хранение и обработку данных. Во всех перечисленных случаях организациям приходится искать новые подходы к хранению, обработке и анализу данных.

«Технологии Big Data описывают новое поколение решений, разработанных для экономичного извлечения результатов из больших объемов данных разных типов», — пояснил Гюнтер Тиль, руководитель направления по развитию бизнеса в регионе EMEA компании NetApp.

«Впервые в истории ИТ-индустрии происходит фундаментальное смещение трактовки информации: она обретает форму социальных сред, замысловатых мультимедиа, потоков данных о щелчках мышей, данных от различных датчиков, изображений разных форматов, сообщений электронной почты и т. д.», — подчеркнул Хартмут Вагнер, вице-президент по управлению информацией компании НР в регионе ЕМЕА.

Как показал опрос, проведенный организаторами форума, подавляющее большинство компаний в России не сталкивались с проблемой Больших Данных (по крайней мере, не осознают ее актуальность). Тем не менее есть ряд предприятий, где понимают, что очень скоро им придется столкнуться с этой проблемой.

В качестве примеров прикладных задач, при решении которых может возникнуть проблема Больших Данных, Вячеслав Архаров, менеджер по развитию бизнеса платформы приложений российского представительства Microsoft, назвал оценку рисков, борьбу с отмыванием денег, анализ трендов и прогнозирование в финансовом секторе; анализ обращений, веб-аналитику (в том числе в соцсетях), анализ рекламы, анализ изображений в секторе СМИ и интернет-контента; анализ поведения заказчиков и анализ продаж товаров и услуг, в том числе через Интернет; защиту от мошеннических действий в онлайновых играх; различные задачи сферы национальной безопасности; генетические исследования в фармацевтике, а также исследования в интересах науки и образования.

Сергей Лихарев, руководитель направления решений по управлению информацией IBM/EEA, в числе прикладных задач также упомянул оценку влияния погоды и дорожного трафика на доставку грузов и потребление топлива; анализ расшифровок разговоров для оценки поведения клиентов в контакт-центрах; анализ операций и сбоев операторских сетей в телекоме; анализ влияния погоды на генерацию энергии и анализ данных, поступающих от «умных» счетчиков, в энергетике; анализ системных журналов транзакционных систем в различных отраслях.

По словам Вагнера, средства, предназначенные для работы с Большими Данными, должны предоставлять одинаково простой доступ ко всей корпоративной информации, обрабатывать не только структурированные, но и частично структурированные, и неструктурированные данные, выстраивать связи между различной информацией независимо от формата, в котором она представлена, работать с исходными источниками данных, не производя копирование информации, понимать смысл всех данных и их контекст, уметь соотносить сходные телефонные звонки, сообщения электронной почты, документы и информацию из систем мгновенных сообщений, а также «на лету», в реальном времени обрабатывать и анализировать данные, применяя при этом правила политик.

В ходе решения проблемы Больших Данных очень важно оценивать совокупную стоимость сбора, хранения и обработки данных и, конечно, стремиться к повышению окупаемости инвестиций, выделяемых на эти цели, отметил Ник Росситер, региональный директор компании Informatica в России и СНГ. По его словам, этого можно добиться путем повышения ценности данных или снижения их стоимости. Увеличение ценности достигается в первую очередь благодаря получению новых возможностей и преимуществ для бизнеса (таких, например, как ускорение обработки заявок клиентов, увеличение числа заказчиков, уменьшение количества претензий с их стороны, снижение рисков мошеннических операций, повышение производительности труда сотрудников предприятия и пр.). Снизить стоимость данных удается прежде всего за счет оптимизации и модернизации ИТ-инфраструктуры и ИТ-процессов, в результате чего снижаются совокупные ИТ-затраты.

«Можно ли получить от данных в десять раз больше пользы, чем удается сейчас? Да, это вполне реально — за счет использования данных, которыми обычно пренебрегают или которые не обрабатывают из-за технических ограничений», — уверен Люк Лонерган, соучредитель и технический директор компании Greenplum (сейчас она входит в состав EMC).

В целом форум получил очень высокие оценки тех, кто его посетил, несмотря на то что никто из выступавших так и не привел примера законченного проекта в области Больших Данных из отечественной практики. Хочется надеяться, что следующий форум порадует гостей не только рассказами о новых методиках и технологиях, но и примерами их применения.

Партнерами форума стали компании Microsoft, NetApp, IBM, Oracle, HP, EMC, HDS, Informatica, SAP, IBS, Sybase и Splunk.