В беседе со специалистом в области визуального представления информации Джорджем Гринштайном научный редактор журнала Bio-IT World Марк Юлинг уделил основное внимание вопросам анализа больших объемов данных

Если на практике вы не можете посмотреть, какой смысл содержится в ваших данных, имеет ли смысл накапливать их? Джордж Гринштайн готов предложить ответ на этот и другие вопросы. Профессор Массачусетского университета является ведущим специалистом в области визуализации данных научных исследований. Он организовывал семинары по данной теме для участников конференции Drug Discovery Technology, а также для членов ассоциаций IEEE и ACM. Периодически Гринштайн открывает свои собственные компании. Последнее из таких начинаний — компания AnVil, которая помогает ученым извлекать золотые крупицы из огромных объемов информационного шлака.

Для тех, кто привык иметь дело с диаграммами из Microsoft Excel, способы представления информации о геноме, — темный лес

Вы работали консультантом НАТО и Пентагона. Можно ли утверждать, что визуальное представление вопросов, связанных с науками о жизни, так же сложно, как и визуализация задач, возникающих в военной области или при реализации проектов NASA?

В настоящее время технологии визуального представления самого высокого уровня имеются лишь в аэрокосмической отрасли. Не уверен, что в области наук о жизни кто-то серьезно занимается решением подобных задач. Проектирование самолета или космического корабля сопряжено с огромным количеством условий и моментов, которые должны быть смоделированы. Для этого нужны мощные рабочие станции, множество процессоров, гигабайты оперативной памяти.

Джордж Гринштайн: «В ближайшее время ученые начнут анализировать данные в 5, 10, 15 измерениях»

Некоторые способы отображения данных — радиальные диаграммы, дендрограммы, параллельные координаты — интерпретировать нелегко. Должны ли исследователи изучать подобные технологии?

Если взять тех, кто никогда не работал с параллельными координатами, они наверняка ничего не поймут.

Для них это темный лес. Но можно обучить людей. Мне довелось преподавать студентам некоторые из подобных способов визуального представления, и я добился действительно неплохих результатов при работе с аспирантами.

Для чего при представлении больших наборов данных, накопленных в ходе решения научных задач, нужны дополнительные измерения помимо традиционных координат X, Y и Z?

Визуализация — это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движения. Вы говорите только о способах визуального представления, а я пытаюсь подтолкнуть вас к анализу.

Хорошо, но вы же не станете утверждать, что с помощью двумерных графиков можно адекватно описать большие наборы данных генома?

Пилот самолета одновременно отслеживает 10-15 различных параметров. В ближайшие несколько лет ученые начнут анализировать данные в 5, 10, 15 измерениях. Машины, с помощью которых они получают данные, будут генерировать множество измерений. Мы подходим к тому этапу, когда количество данных и объем работы, который должен проделать ученый, занимающийся науками о жизни, многократно возрастают.

Что бы вы посоветовали крупной фармацевтической компании, которая имеет в своем распоряжении множество средств собственной разработки, свободно распространяемых программ, коммерческих приложений визуализации и инструментов добычи данных — но при этом у нее нет четкого представления о том, каким образом все эти средства можно использовать?

Я бы сказал, что лучшим вариантом в данном случае является интегрированная среда. Ключевая роль должна отводиться человеку и осуществлению контроля с его стороны. Вам нужны специалист в области визуализации, специалист в области анализа данных и знаток предметной области. Объединив усилия трех этих людей, вы добьетесь успеха с гораздо более высокой степенью вероятности. Руководители большинства лабораторий подберут оптимальное сочетание знатоков предметной области и аналитиков. И рано или поздно они поймут, что сюда нужно добавить еще и визуализацию.

Так что же, пока они считают, что визуализация не так важна? Иными словами, лучше купить новые шины, чем красить автомобиль?

Они просто позабыли о том, что хорошо видеть дорогу можно лишь при чистом ветровом стекле. А сейчас ветровое стекло у них очень грязное. Они говорят: «Ничего страшного, ведь я улавливаю суть происходящего».

Что отличает особенно большие наборы данных?

Статистическая интерпретация. Методы статистического анализа, применимые к большим наборам данных, совершенно особенные. В некоторых случаях трудно найти нужный фундамент. Если у вас имеется 10 млн. пациентов, вы можете делать статистические выборки. Но если в наборе данных присутствуют сотни измерений, осуществить выборку из этого пространства и правильно интерпретировать результаты практически невозможно. Поскольку количество измерений чересчур велико, анализировать данные в этом многомерном пространстве не имеет смысла. Нужно разбить их на кластеры, подобрать способы группировки кластеров. Чтобы представить себе пространство, насчитывающее сотни измерений, надо обладать исключительным воображением.

Метод образования кластеров представляется элементарным. Пациент помещается в определенный кластер, а доктор прогнозирует для членов этого кластера излечение с помощью химиотерапии с вероятностью 85%. В чем заключается главный источник ошибок при прогнозировании на основе этого метода?

Как вы оценивали точность прогноза: с использованием статистических методов или какой-то иной технологии? Бросали монетку? Проводили вычисления на нескольких наборах данных? Как на практике проверяли точность оценок — статистически, а может быть, в естественных условиях? Использование аналитических средств того или иного программного пакета действительно не вызывает никаких сложностей. Вопрос сейчас заключается в том, насколько адекватны средства прогнозирования, насколько они точны, насколько важны и каких усилий требуют.

Поделитесь материалом с коллегами и друзьями