Ландшафт российского ИТ-рынка за прошедший год радикально изменился: полностью обновился как ассортимент продуктов, так и состав представляющих их компаний. С уходом западных игроков многие организации, особенно пользователи облачных продуктов, остались ни с чем. Однако, как согласились участники форума BIG DATA & AI 2023, организованного издательством «Открытые системы», практически у всех очень быстро появились возможности решать существующие задачи.

«Все опасения по поводу технологического отката не оправдались. Данные у нас есть, появилось много очень неплохих современных решений, и мы знаем, как с ними работать», — заявила Мария Курдина, менеджер практики Applied Intelligence компании Axenix. Для большинства компаний сейчас актуальны две категории задач: локализация хранения данных и рефакторинг корпоративных хранилищ, а также миграция с западных решений на импортонезависимые.

Карен Казарян, директор по аналитике АНО «Цифровая экономика», выделил несколько предметных областей с высоким спросом на данные, где требуется облегчить регуляторные требования в отношении использования получаемой информации: это работа с государственными, медицинскими и обезличенными данными. Кроме того, важно урегулировать возможности повторного использования уже собранных данных. Задача очевидна: разработчикам средств искусственного интеллекта, в том числе стартапам, необходимо упростить доступ к данным для обучения моделей. Так или иначе это связано с размещением государственных датасетов в озерах данных.

«Возникают вопросы, по какому принципу отбирать данные и какие из них будут реально востребованными с учетом того, что на их сбор, обработку и очистку требуются значительные ресурсы. На данный момент это не проработано», — отметил Казарян. Рабочая идея, предложенная Минэкономразвития, предполагает, что крупные компании должны вести за собой рынок, фактически оплачивая работу с данными, которые потом будут раскрываться для более широкого круга разработчиков.

Вопросы безопасности

Борис Рабинович
Борис Рабинович: «Как владелец платформы работы с данными, я вижу колоссальную пользу от применения синтетических данных — как для удаленной работы сотрудников, так и для создания реалистичных данных в средах разработки и тестирования»

«Один из ключевых барьеров для развития средств искусственного интеллекта — недоступность данных. Это настоящая головная боль», — признался Борис Рабинович, директор департамента управления данными «Сбера». Часто данные чувствительны и не могут быть переданы другой компании, и даже внутри организации они закрываются в безопасной среде со строгим контролем доступа — в этом случае, например, не может быть и речи об удаленной работе. Решить проблему можно с помощью технологий преобразования данных, и с этой точки зрения синтез данных является наиболее перспективным.

Синтез данных — это создание псевдореальных данных, максимально похожих на настоящие, с помощью алгоритмов искусственного интеллекта. От реальных данных ничего не остается, но все взаимосвязи между ними сохраняются. Не случайно при разработке искусственного интеллекта все чаще используют синтетические данные, причем это не сказывается существенно на их качестве: погрешность вполне допустима. В настоящий момент в мире уже более 80 разработчиков решений для синтеза данных, однако «Сбер» инвестирует в создание собственного инструмента, который сейчас внедряется и вскоре будет выведен на внешний рынок.

«Как владелец платформы работы с данными, я вижу колоссальную пользу от применения синтетических данных — как для возможности удаленной работы сотрудников, так и для создания реалистичных данных в средах разработки и тестирования. Это отличный способ увеличить доступность данных для исследований и расширить круг допускаемых лиц», — подчеркнул Рабинович. У разработчиков амбициозные планы по развитию платформы: в будущем планируется генерировать свободные тексты, а также изображения, содержащие чувствительную информацию.

Алексей Лукацкий
Алексей Лукацкий: «Искусственный интеллект тоже нуждается в защите. Иногда даже сам разработчик не сразу понимает, что решение начинает работать не совсем так, как задумывалось»

Алексей Лукацкий, бизнес-консультант по информационной безопасности компании Positive Technologies, поднял тему защиты искусственного интеллекта. Его применение «по ту сторону баррикад» уже не является лишь предметом исследований, ведь искусственный интеллект уже активно используется во зло — и это создает большие угрозы. Злоумышленники, как и все остальные, ищут возможности повысить свою эффективность и с помощью искусственного интеллекта автоматизируют массу задач, которые раньше решались рутинно. Очень опасны сценарии взлома «хороших», уже проверенных решений.

«Иногда даже сам разработчик не сразу понимает, что решение начинает работать не совсем так, как задумывалось», — отметил Лукацкий. Он выделил три типа атак на искусственный интеллект: «извлечение» — когда нарушитель крадет модели и данные для обучения; «уклонение» — обман моделей; и «отравление» — манипуляцию обучающими данными для модификации поведения и принятия решений. Как сообщил Лукацкий, еще не было ни одного проекта искусственного интеллекта, в котором удалось бы найти менее 10 слабых мест.

Требуется рациональность

Данные становятся одним из ключевых элементов создания ценности, и сейчас уже мало кто может позволить себе управлять бизнесом интуитивно. По мнению Олега Гиацинтова, технического директора DIS Group, можно назвать три основные области монетизации данных: внутренняя монетизация за счет повышения производительности и оптимизации процессов, исполнение требований регуляторов, а также внешняя монетизация на рынке за счет партнерств, новых продуктов и т. п.

«Важны подходы к работе с данными, но нужно еще и "подносить снаряды" — каждый должен заниматься своим делом. Надо снизить число людей, пытающихся разобраться в данных: дата-сайентист или принимающий решение специалист не должны заниматься их поиском», — напомнил Гиацинтов. По его словам, сейчас буквально каждый день в DIS Group приходит запрос на внедрение системы НСИ, хотя раньше их число не превышало пяти в год.

Тигран Саркисов
Тигран Саркисов: «За год мы тоже стали более рациональными, как и наш покупатель. Мы не готовы инвестировать просто в искусственный интеллект, однако работаем с маленькими проектами, наблюдая за эффектом»

Как констатировал Тигран Саркисов, директор по управлению данными X5 Group, деньги стали дороже, среда — более конкурентной, произошел отток отдельных категорий сотрудников, а покупатель становится все рациональнее. Все, что делают в X5, соответствует этому контексту: объемы инвестиций меньше, планы — по-прежнему амбициозные.

«За год мы тоже стали более рациональными, как и наш покупатель. Мы не готовы инвестировать просто в искусственный интеллект, однако работаем с маленькими проектами, наблюдая за эффектом», — рассказал Саркисов. Помимо обеспечения стабильности импортозамещенных решений, в компании уделяют большое внимание оптимизации стоимости хранения и обработки данных: занялись архивацией малоиспользуемой информации, централизацией сервисов, стали более разумно подходить к переиспользованию данных. Собственное облако в X5 применяют в качестве инфраструктуры — это оказывает огромную поддержку, а также позволяет оптимизировать ресурсы.

«Многие перспективные инициативы "тухнут" из-за невозможности выделить мощности. С помощью облака можно быстро запустить пилот, и если получилось — масштабироваться, а если нет — спокойно идти дальше», — считает Алексей Пятов, менеджер по развитию бизнеса VK Cloud. Он рассказал о нескольких реализованных проектах, в том числе в «Ашане»: решение помогло ретейлеру пройти турбулентность 2022 года.

Рынок продолжает развитие

«Год назад было непонятно, как жить. У всех были похожие мысли: на что менять СУБД, что делать с командой специалистов по западным решениям. Однако всем нашлось, куда перейти. Шок прошел, рынок продолжает развитие», – озвучил итоги года Сергей Золотарев, директор по стратегическому развитию Arenadata. В компании научились замещать не только Teradata, Oracle, Cloudera и IBM, но даже SAP BW и SAP HANA — а это действительно сложные проекты. В портфеле появились СУБД на базе PostgreSQL и каталог данных на платформе Open Metadata.

Сергей Золотарев
Сергей Золотарев: «Год назад было непонятно, как жить. У всех были похожие мысли: на что менять СУБД, что делать с командой специалистов по западным решениям. Однако всем нашлось, куда перейти. Шок прошел, рынок продолжает развитие»

Антон Гельмут, архитектор решений Sapiens solutions, представил подход, позволяющий гарантированно справиться с проблемами производительности в SAP HANA и перейти на новый технологический стек с наименьшими рисками. Такой переход можно условно назвать гибридной миграцией, в процессе которой задачи переносятся на платформу Arenadata частично, а при необходимости полного импортозамещения — полностью. Это позволяет решить проблемы производительности SAP без приобретения нового оборудования, а также снизить зависимость от этой платформы при использовании корпоративного хранилища.

Владимир Озеров, генеральный директор Querify Labs, рассказал о возможностях платформы CedrusData, созданной на основе Trino — популярного проекта категории Open Source. Платформа дает предприятиям возможность выполнять сквозной анализ всех данных, обеспечивая обработку больших объемов информации из различных источников и доступность для широкого круга бизнес-пользователей.

Семен Борисов, менеджер департамента бизнес-развития Luxms, представил новую версию платформы Luxms BI v9, которая сочетает возможности анализа и визуализации больших данных любой сложности. Как отметил Борисов, 70% нынешних проектов компании — замена решений Qlik. Он рассмотрел такие новшества платформы, как расширение ролевой модели, повышение эргономичности и развитие инструментов самообслуживания для анализа данных бизнес-пользователями.

Еще одним представленным импортозамещающим продуктом стала система активной бизнес-аналитики Proceset: ее используют для замены Celonis — популярного решения класса Process Mining. По словам Александра Бочкина, генерального директора компании «Инфомаксимум», система позволяет применять в рамках одной платформы технологии не только Process Mining, но и Task Mining (для охвата неавтоматизированных процессов), а также BI. Наиболее эффективно продукт показал себя в таких направлениях, как анализ процессов техобслуживания и ремонтов, а также в закупочной деятельности.

***

Как отметили многие выступавшие на форуме BIG DATA & AI 2023, функционал и удобство импортозамещающих решений — во многом вопрос привычки. Важно понимать, что работа по выстраиванию полноценной независимой экосистемы ПО требует времени. Участникам рынка придется проявить некоторое терпение.