И это прежде всего потому, что на пересечении суперкомьютеров, облаков и больших данных образовалась горячая точка, которая называется Smarter Computing, то есть более умный, нежели сейчас, компьютинг. Как ни странно, но именно об этом, а не об операционной системе, шла речь на торжестве по поводу 25-летия IBM AIX. За четверть века жизни этой ОС компьютерный мир настолько изменился, что теперь собственно операционные системы представляют интерес только для узкой группы специалистов, впрочем, как и СУБД, связующее ПО и многое другое, что было в центре внимания еще лет десять назад. По результатам исследования IBM Global CIO Study 2011, 83% из более чем 3 тыс. директоров информационных служб больше всего озабочены проблемами бизнес-аналитики и анализа больших данных. За пять лет объем данных возрос в шесть-семь раз, и более 85% из них неструктурированные. Один из путей спасения состоит в использовании технологий, подобных Watson.

Центральной частью Watson и, возможно, наиболее важной на последующую перспективу является UIMA. Иллюстрация: IBM
Центральной частью Watson и, возможно, наиболее важной на последующую перспективу является UIMA. Иллюстрация: IBM

Watson — это система, которая состоит из трех компонентов: суперкомпьютера, работающего под управлением операционной системы Linux; программного обеспечения, реализующего архитектуру UIMA (Unstructured Information Management Architecture); системы ответов на вопросы DeepQA, специально «заточенной» под Jeopardy!. Центральной частью и, возможно, наиболее важной на последующую перспективу является UIMA.

DeepQA относится к классу вопрос-ответных систем (Question Answering, QA), предназначеных для поиска точных ответов на вопросы, поставленные на естественном языке. Источником сведений могут быть неструктурированные данные (книги, журналы, веб-страницы, блоги), квазиструктурированные (справочники, словари, энциклопедии, вики и ее аналоги) и базы данных. В Европе такие исследования объединяет организация Cross-Language Evaluation Forum (CLEF), а в Японии ведет рабочая группа NTCIR в рамках реализуемого Национальным институтом информатики проекта Cross-Language Information Retrieval (CLIR). Архитектура UIMA разрабатывалась в IBM Research еще с 90-х годов группой, насчитывавшей порядка 200 сотрудников. Их деятельность была сосредоточена на средствах для работы с естественными языками и выделения полезной информации, на создании систем для анализа текстов и классификации документов, на машинном переводе и вопрос-ответных системах.

Систему DeepQA разрабатывали 20 человек в течение трех лет. О значимости этой работы можно судить по тому, что ей присвоили имя основателя IBM Томаса Уотсона. Работа началась с фундаментального исследования самой игры и тактики игроков. Помимо таких очевидных задач, как генерация гипотез, сбор доказательств, анализ и численная оценка, авторам пришлось решать и специфичные задачи: улавливание иронии, обнаружение скрытого смысла и других человеческих особенностей. Поиск ответа на вопрос в игре совсем не похож на поиск данных в Web, здесь ищутся не сведения, а точный ответ, поэтому источником для поиска ответов служит собственная СУБД, куда занесены и структурированные, и неструктурированные данные, собранные как в Интернете, так и во множестве других источников. Сегодня Watson уступает настоящим игрокам в том, что не понимает аудио- и видеоданные.

Принципы, отработанные в игре, сначала будут распространены на медицинские диагностиеские системы. Но этим дело не ограничивается, в мае корпорация анонсировала пакет ПО и услуг IBM InfoSphere BigInsights, предназначенный для работы с большими массивами с использованием технологии Apache Hadoop. Он включает модуль BigInsights Core, позволяющий развернуть специализированные аналитические средства и рабочие нагрузки для извлечения знаний из массивов данных в масштабах всего Интернета; технологию предварительного просмотра IBM BigSheets, которая дает возможность извлекать, снабжать комментариями и визуализировать информацию, добытую из огромных массивов данных, через веб-интерфейс. Новая технология использует рамочный программный модуль для механизмов анализа, а также программные средства визуализации, такие как ManyEyes; встроенные шаблоны отчетности и таблицы IBM InfoSphere Warehouse Pack for Market и Campaign Insight, необходимые для анализа ключевых показателей и характеристик.

Поделитесь материалом с коллегами и друзьями