Многие компании так и не научились в полной мере работать с большими данными. Либо по причине того, что у них нет возможности собрать и сохранить качественные оперативные и исторические данные (например, отсутствуют квалифицированные специалисты — сегодня никто не учит понимать данные), либо потому, что нет культуры работы с данными (неправильные действия сотрудников, когда их не контролируют). Большие надежды возлагаются на искусственный интеллект: мол, все произойдет само собой — достаточно лишь выбрать, настроить и правильно обучить нейронную сеть. К тому же 90% компаний считают, что внедрение ИИ не потребует специальной работы с данными. Как следствие, машинному обучению сегодня достается вся слава, однако именно данные лежат в основе всего: от обучения модели до ее настройки, от выбора до проверки, от обработки телеметрии до принятия решений на основе инференса. Независимо от того, насколько убедительно экономическое обоснование выбранной бизнес-модели и/или талантлива команда исполнителей, без качественных данных проекты ИИ обречены на провал. В реальности, работы по сбору, корректировке и разметке данных составляют почти 80% усилий в современных проектах развертывания решений искусственного интеллекта.

Без управления качеством данных невозможен искусственный интеллект: мусор на входе дает мусор на выходе. При этом важны не только оперативные данные, сбором которых сегодня озаботились компании. Значимы и исторические данные: справочники, показатели мониторинга непрерывных производств и пр. Однако «фарш обратно не прокрутить», и собранные ранее по принципу «лишь бы было, а там посмотрим» данные чаще всего оказываются никчемными: нет сведений за отдельные промежутки времени, на момент сбора были сбиты отметки хронометража или отсутствовала синхронизация и т. п. Свою лепту вносит и типичная для многих компаний эзотерическая схема работы с данными: мало кто (или вообще никто) знает, «что где лежит», а работа с нормативно-справочной информацией ведется от случая к случаю. А между тем низкое качество НСИ по материально-техническим ресурсам приводит к производственным потерям, и поэтому нужен актуальный классификатор. Однако создать его можно, только если «запрячь в одну упряжку» специалистов из любой корпоративной касты: бюджетирование, бухгалтерский и налоговый учет, закупки и др. Без выполнения этой скучной работы по нормализации справочников не удастся избежать ошибок в данных, появления некорректно описанных позиций, неактуальных записей, дублей и пр. Как следствие, невозможно эффективно поддерживать материально-техническое обеспечение компании, снижать запасы, сокращать неликвиды и увеличивать оборачиваемость ресурсов.

В цифровую эпоху меняются и бизнес-модели: они теперь изначально опираются на большие данные. А классическая модель однозначной оценки бизнеса лишь по нескольким показателям (прибыль, оборот, убытки) уже не работает. Для успеха на рынке необходимо учитывать все больше факторов. Инвесторы, сотрудники компаний и их клиенты хотят, чтобы бизнес реагировал на общественные ценности, проявлял больше внимания к экологическим и социальным вопросам: личностное развитие клиентов, здоровье и долголетие сотрудников, сокращение вредного воздействия на окружающую среду и пр. Одновременно меняются и модели потребления: клиенты хотят больше гибкости и свободы в выборе покупок и сервисов, а бизнес все чаще признает цифровые двойники важным инструментом прогнозирования, оптимизации и персонализации предложений для клиентов. Люди хотят, чтобы их покупки отражали их идеи, и это заставляет бизнес радикально менять бизнес-модели и адаптировать их в соответствии с личностными и социальными установками потребителей. Бизнес, рассматривая людей как часть большой экосистемы, формирует единый взгляд из миллиона точек: поведение покупателя, его активность в социальных медиа, предпочтения при построении своей среды обитания и пр. Чтобы все это реализовать, необходимо организовать управление большими данными, способное обеспечить их неизменно высокое качество.

Умение разбираться в этнографии данных, в метриках их качества и соответствии конкретной задаче, а также понимать их контекст, видеть картину целиком и уметь показать ее другим — пока еще прерогатива людей, специалистов по работе с данными. Развернув у себя инфраструктуру управления данными и наладив в масштабах всей компании мониторинг качества данных, ликвидировав фрагментацию информационного пространства, устранив, в частности, проблему «подстольных экселек», предприятия непременно сталкиваются с острой нехваткой исследователей данных и инженеров по данным, способных работать с новыми бизнес-моделями. Сегодня такие специалисты нужны всем: государственному сектору, частным компаниям, — а их дефицит становится проблемой всех цивилизованных стран. Конечно, предприятия пытаются самостоятельно решить кадровый вопрос, доучивая, например, выпускников вузов. Однако и тут есть проблемы: с одной стороны, огромное количество знаний, актуальных несколько лет назад и вложенных в бывшего студента, сегодня обесценилось, а с другой, этот процесс теряет академичность — исследователям данных нужна междисциплинарная подготовка, но комплексных образовательных проектов мало.

Малое качество больших данных

Построить дом — это не то, что построить город. Цифровизация невозможна без конвейера непрерывного обеспечения качества данных, который должен охватывать все этапы и всех субъектов жизненного цикла сбора, обработки и анализа больших данных. Иначе при низком качестве данных вместо Big Data в активе компании снова окажется традиционный «авось».

Дмитрий Волков

DOI: 10.26295/OS.2020.71.52.001