Неструктурированные данные 2.0

Сегодня, в результате активного участия широкого круга пользователей в публикации информационных материалов на различных ресурсах, увеличивается количество новостных и аналитических порталов, материалы для которых в виде текстовых документов, аудио- или видеофайлов размещают не только профессиональные журналисты или аналитики, но и другие посетители. Растет популярность социальных сетей, блогов и форумов как площадок, где каждый может поделиться своим мнением или оставить отзыв, например, о той или иной компании, для которой эта возможность, в свою очередь, открывает просторы для оценки, в частности, своей деятельности. Прежде всего речь идет о новых способах получения обратной связи от клиентов и анализа эмоционального информационного фона, который складывается вокруг организации и ее конкурентов. Все это позволяет говорить о рождении эпохи контента 2.0, решение задач в рамках которой в первую очередь необходимо компаниям, работающим на массовых рынках с высокой конкуренцией: финансовый сектор, страхование, индустрия развлечений и отдыха, сфера розничной торговли и другие отрасли. Своевременное получение полных и качественных данных позволяет повысить уровень обслуживания клиентов, ускорить продвижение услуг и продукции, быстрее реагировать на изменение ситуации на рынке. Однако найти нужные сведения в громадном объеме различной по структуре и форматам информации тяжело, чем и обусловлен сегодня стабильный спрос на специализированные программные приложения обработки неструктурированных данных.

Богатство выбора

Как правило, системы обработки неструктурированных данных — это разработки западных ИТ-компаний, что закономерно: в России интерес к сбору и анализу мнений клиентов, новостной и аналитической информации имеется пока лишь у небольшого круга компаний, а на Западе подобные программные продукты стали необходимыми. Источниками данных для них являются СМИ, новостные порталы, социальные сети, аналитические порталы, внутренние информационные приложения компаний и др. Приведем несколько характерных примеров таких систем.

First Rain компании First Rain — решение для поиска, сбора и анализа информации. В качестве источников данных здесь выступают только Web-ресурсы — в основном сведения из годовых отчетов компаний и аналитических отраслевых обзоров. Найденная информация сортируется по стандартизированным темам и степени значимости для клиента.
Digimind компании Digimind — решение для поиска структурированных и неструктурированных данных. Основные источники: Web и социальные сети. Решение имеет встроенные инструменты классификации обработанных материалов, однако основной акцент сделан на средствах представления итоговых данных в виде, удобном для пользователя, которому предлагается два возможных варианта внедрения: в качестве отдельного решения или дополнительного компонента, встраиваемого в уже имеющиеся у компании аналитические информационные системы.
InfoNgen компании Instant Information — спектр решений для поиска, сбора и анализа неструктурированных данных. Информация агрегируется из разных типов источников: порталы, электронная почта, внутренние информационные ресурсы организации-клиента. Полученные документы категоризируются по стандартизированной или специализированной таксономии клиента. Пользователь может получать данные в виде специальной новостной ленты, электронного бюллетеня, RSS, API или через источник («фид») электронного вещания в режиме реального времени. Стандартный пакет включает в себя Web-интерфейс и не требует инсталляции на стороне клиента.
Factiva компании News Corporations — спектр информационно-аналитических решений, наиболее известным из которых является система Factiva.com, позволяющая собирать мультимедийный контент из десятков тысяч источников новостной информации. Однако в их число входят только средства массовой информации: крупнейшие информационные агентства, новостные интернет-издания, электронные версии печатных СМИ и т. д.
«Медиалогия» компании «Медиалогия» — решение для автоматического мониторинга СМИ в режиме реального времени. Информация по конкретной компании, ее руководству, брендам, конкурентам и т. п. собирается из базы данных СМИ, анализируется по количественным и качественным критериям. Основные источники данных — около 8 тыс. российских и зарубежных печатных и электронных изданий (ТВ, Интернет, радио), а также блоги.
«Голос клиента» компании Clarabridge в партнерстве с EPAM Systems — решение для анализа структурированных и неструктурированных данных. Источники данных: отзывы клиентов в социальных сетях, данные из центров работы с клиентами и CRM, заполненные клиентами на сайте или в отделениях компании анкеты и т. д. В основном акцент делается на обработке информации из форумов и блогов.
RCO Fact Extractor Desktop компании RCO — решение для поиска и обработки информации. Источником данных может быть Web, внутренние приложения и базы данных компании. Продукт поставляется как персональное приложение для платформы Windows.

В целом работа с неструктурированными данными сводится к решению нескольких задач: поиск и агрегация контента из различных источников, извлечение данных в соответствии с заданными параметрами и их семантический анализ, предоставление итоговых сведений пользователю в удобном графическом виде. Более подробно возможности решений для работы с неструктурированными данными рассмотрим на примере приложений InfoNgen и «Голос клиента».

Агрегация контента

Рис.1. Группировка в InfoNgen схожих по содержанию новостей из различных источников

Для InfoNgen основными поставщиками данных являются Web (на данный момент около 70 тыс. сайтов) — СМИ, отраслевые новостные порталы, сайты регуляторов, ассоциаций и т. д., отобранные на основе запросов и пожеланий клиентов из различных отраслей и регионов, — а также электронная почта и внутренние информационные ресурсы самой организации. Средства сбора данных позволяют учитывать специфические особенности каждого источника. В зависимости от потребностей организации список ресурсов для мониторинга может быть изменен или разбит по группам подписки и предпочтениям. Пользователи имеют возможность добавить источники — например, включить узкоспециализированные порталы, публикующие информацию по отдельным небольшим бизнес-темам или направлениям, или сайты-поставщики подписного или лицензионного контента. Так как одна и та же новость часто приходит из разных источников, то InfoNgen предоставляет возможность сгруппировать похожие статьи (рис. 1).

С помощью поисковых роботов (краулеров) организуется подключение к системам обмена почтой или сообщениями, например Microsoft Exchange, что позволяет в режиме реального времени категоризировать содержание электронных писем и вложений в них, выбирая сообщения, соответствующие заранее установленным контекстным фильтрам. Кроме того, в качестве источника данных могут выступать информационные ресурсы самой организации-заказчика, в частности локальные и сетевые диски. Администратор заказчика имеет возможность контролировать доступ пользователей к найденным данным с помощью установки правил на уровне источника.

Система «Голос клиента» в качестве основного источника информации рассматривает Интернет, но, в отличие от более универсальных решений InfoNgen, позволяющих собирать и обрабатывать любую информацию о компании, ее продуктах и услугах или информацию по какой-либо выбранной теме (например, новости о сделках по слиянию и поглощению на финансовом рынке), «Голос клиента» имеет более узкую специализацию: выявление отношения к бренду и продуктам организации-заказчика, определение их сильных и слабых (по мнению потребителей) сторон. Для этого основной акцент делается на сборе и анализе отзывов, построении фона, выявляемого на базе прописанной специалистами-лингвистами для конкретного заказчика логики положительных или отрицательных оттенков в высказываниях, оставляемых клиентами на специализированных форумах, в блогах и социальных сетях. Автоматический сбор информации проводится с помощью краулеров (используются решения различных производителей программного обеспечения, к примеру компании RCO), при этом учитываются различия в стиле подачи информации на разных ресурсах (например, в ЖЖ или в Twitter). Возможности решения позволяют собирать не только контент в текстовом формате, но и, например, аудиофайлы. Для последующего анализа полученная информация с помощью технологий voice to text («голос в текст») переводится в текстовые данные.

Извлечение и семантический анализ

Сервисы InfoNgen проводят сканирование текстовой информации по мере ее поступления, извлекая заголовок, резюме, оглавление, дату публикации и нужный текст для анализа. В каждом обрабатываемом тексте определяется его семантическая структура, выявляются и удаляются данные, не относящиеся к основной теме: рекламные объявления других компаний или продуктов, упоминания о правовых ограничениях, ссылки на дополнительные информационные материалы и т. д. Система семантического тегирования позволяет распознавать наличие или отсутствие в тексте заданных пользователем элементов — названий компаний, биржевых котировок (тикеров), наименований продуктов, услуг и т. д. В качестве тегов могут использоваться и специфичные отраслевые или бизнес-термины, обозначенные самим заказчиком или взятые из стандартной таксономии InfoNgen (наборы терминов, характерных для таких индустрий, как финансы, розничная торговля, медиабизнес и др.). В процессе анализа учитываются синонимы, возможные варианты написания слов (в том числе на других языках), аббревиатуры, семантические зависимости, релевантность тега к документу, а также ряд других параметров. Данная функция реализована в виде программного интерфейса, что при необходимости позволяет ее интегрировать в любые другие приложения.

Пользователи могут также указывать релевантность тега к документу как параметр своего поиска, тем самым дополнительно фильтруя документы, которые фокусируются на выбранной теме, а не просто упоминают ее вскользь.

Кроме того, существует возможность определения эмоциональной окраски того или иного текста. Если речь идет о документах, где анализируется финансовая отчетность компаний, то средства лингвистического анализа позволяют оценить отношение авторов документа к компании или к ее отдельным данным (доход, прибыль, убытки и др.). Просуммировав такие оценки для всех высказываний в рамках одного текста, можно понять его общий эмоциональный характер. Например, предложение «Выручка Компании в 2011 году в России выросла на 5,5% по сравнению с показателем за 2010 год» имеет положительный смысл, а предложение «Объем продаж Компании в РФ в 2011 году снизился на 1% в натуральном выражении» — негативный.

По схожему принципу реализована работа системы «Голос клиента». В ходе морфологического и лексического анализа каждый текст разделяется на связанные между собой слова, которые сопоставляются с заранее определенными тегами. На основе прописанной аналитиками-лингвистами логики проводится анализ оценки тональности высказываний — позитивная или негативная. Специальные средства скоринга позволяют задать ценность каждого позитивного и негативного высказывания в зависимости от целей и специфики бизнеса заказчика. Например, фраза из отзыва клиента «менеджер был невежлив, но условия по кредитам в банке очень хорошие» содержит и позитивную и негативную часть. Если для компании приоритетом является повышение качества обслуживания клиентов в своих отделениях и именно по этому параметру ведется мониторинг отзывов, то для тегов, которые свидетельствуют об уровне сервиса, задаются более высокие значения, а для характеристик предлагаемых банковских продуктов — более низкие.

Предоставление итоговых данных

В InfoNgen встроенные средства анализа позволяют на основе обработки контента выявлять закономерности и тренды, связанные с использованием определенных тегов, что дает возможность увидеть неочевидные взаимосвязи (например, между конкретной компанией и темой слияния или судебного разбирательства). Для более наглядного просмотра полученных в ходе анализа результатов используются инструменты визуализации.

В зависимости от потребностей и задач в системе InfoNgen поддерживается несколько вариантов внедрения решения и предоставления результатов. Один из них — Web-интерфейс, через который пользователи могут искать и читать новости в виде ленты или настроить их электронную рассылку другим пользователям в виде бюллетеня, в который помимо ссылок на найденный контент включаются дополнительные сведения: дата и время публикации, заголовок, ключевые темы, выявленные взаимосвязи между ключевыми тегами (названия компании, продуктов и т. д.), индекс релевантности, эмоциональная оценка. У пользователей есть возможность кооперировать и комментировать найденные документы, создавать совместные рассылки или делиться результатами поиска. Другой вариант — встраивание решений InfoNgen через API в уже существующие в компании приложения.

Рис. 2. Автоматическое определение эмоционально окрашенных слов, которые чаще всего встречаются в обсуждениях по данной тематической категории («Голос клиента»)

В отличие от InfoNgen, система «Голос клиента» не содержит встроенных аналитических средств и для анализа подготовленных в системе классифицированных данных используются стандартные инструменты бизнес-аналитики: IBM Cognos, Microstrategy, Oracle BI и др. С их помощью можно не только подсчитывать количество упоминаний компании или ее продуктов, но и выявлять тенденции в обсуждениях на форумах конкретных услуг, продуктов или самой компании (как отдельно, так и в сравнении с конкурентами), определять наиболее «горячие» темы дискуссий. Итоги могут оказаться весьма неожиданными для компании: например, в результате анализа обсуждения пассажирами качества сервиса на борту самолетов одной из авиакомпаний выяснилось, что стюардессы, несмотря на запрет курения на борту, предлагают пассажирам приобрести у них сигареты.

Рис. 3. Определение случаев аномального роста позитивных или негативных отзывов клиентов

С помощью механизмов «развертки» (drill-down) по конкретной теме можно посмотреть ключевые слова, которые покажут, что именно в данной теме обсуждается чаще всего (рис. 2). Проследив связь между выбранными ключевыми словами и отзывами, где они присутствуют, легко понять, какими именно причинами был вызван всплеск обсуждений. Кроме того, благодаря анализу, появляется возможность выявить случаи намеренного упоминания в отзывах о компании названий ее конкурентов или их услуг (product placement) или отслеживать случаи резкого увеличения количества позитивных или негативных высказываний о компании (рис. 3).

***

Даже общий взгляд на возможности решений для обработки неструктурированных данных позволяет сделать вывод, что их применение может облегчить деятельность служб компаний, чья работа связана с обслуживанием клиентов, маркетингом, конкурентной разведкой, внешними и внутренними корпоративными коммуникациями, обработкой аналитической финансовой информации и др. За счет более качественной работы с неструктурированными данными появляется возможность отслеживать эффект от проведенных маркетинговых и PR-акций, более адресно работать с целевой аудиторией, повышать качество сервиса для клиентов, своевременно выявлять актуальные тенденции на важных для компании рынках и корректировать свою деятельность.

Артак Оганесян (Artak_Oganesyan@epam.com) — заместитель генерального директора по развитию бизнеса компании EPAM Systems (Москва).