Новая парадигма взаимодействия людей и машин

Большинство современных компьютеров построены на основе архитектуры Джона фон Неймана, в основе которой лежит концепция хранимой программы, составленной исключительно людьми. Программирование — это, по сути, искусство передачи знаний о мире с помощью набора команд для достижения желательного результата от человека к компьютеру посредством электромеханических интерфейсов, таких как клавиатура и мышь. Люди в этой цепочке нередко оказываются тормозом для развития вычислительных способностей машин, поскольку передача информации от человека к машине ограничивается нашими способностями к составлению логических инструкций, выражающих хранимые мозгом знания, а также скоростью работы интерфейса. Но по мере того, как машинный интеллект приближается по общей эффективности к человеческому, ускорение динамики взаимодействия с машинами, скорее всего, заставит отказаться от нынешних интерфейсов их программирования.

Машинное обучение, одна из самых быстрорастущих областей компьютерной науки, в значительной степени полагается на доступность меток для данных — например, обозначений объектов на фотоснимках (здесь метки позволяют машине запоминать ассоциации между разными элементами данных). Нередко такие метки субъективны — они создаются людьми с использованием их знаний о мире, а потому их сложно генерировать полностью автоматически, хотя именно в автоматизме и состоит ценность меток. В частности, анализ переходов пользователей по сайтам стал основой бизнеса таких компаний, как Google, Amazon и Facebook, которые с помощью такого анализа персонализируют предоставляемые сервисы. Но хотя количество меток, генерируемых при действиях людей (например, при переходах по ссылкам), огромно, оно все же ничтожно по сравнению с числом меток, создаваемых мозгом при обработке сенсорной информации. Человеческое восприятие — активный процесс, даже когда он не приводит к конкретным действиям; если бы можно было получить доступ к содержанию когнитивных процессов человека, пока тот, скажем, идет по улице или смотрит телесериал, это дало бы гигантский объем сведений, полезных для систем машинного обучения, и определенно привело бы к колоссальным усовершенствованиям.

Интерфейсы «мозг-компьютер» (brain-computer interface, BCI) неинвазивно декодируют содержимое мозга с помощью электроэнцефалограмм (ЭЭГ), регистрируемых через электроды на коже головы, либо инвазивно посредством электрокортикографии, проводимой с применением внедренных в кору мозга электродов, заставляя компьютер действовать в зависимости от полученной информации. Характерный пример применения BCI — предоставление возможности инвалиду перемещать курсор по экрану, просто думая об этом. Но в целом системы BCI, обеспечивающие активное управление, до сих пор продемонстрировали людям лишь ограниченную пользу, в основном из-за низкого соотношения сигнал-шум при измерении электрической активности мозга. Но даже зашумленные сигналы могут дать полезную информацию, если их долго анализировать. Эти сведения можно использовать для расширения возможностей по обучению других вычислительных систем.

Инициатива BRAIN института IEEE

В конце 2015 года в IEEE начали проект Brain, задача которого — обеспечивать междисциплинарное взаимодействие и сотрудничество в рамках исследований, стандартизации и разработки нейробиологических технологий в целях улучшения условий существования человечества. IEEE опирается на свой обширный опыт в электронике, связи, датчиках, энергоснабжении и др., помогающий подходить к изучению мозга и поиску способов взаимодействия с ним с инженерной и системной точек зрения. В частности, проект IEEE Brain координирует процессы стандартизации и разработки технологий исследования мозга, осуществляемые в рамках инициативы Advancing Innovative Neurotechnologies и европейской программы Human Brain Project, а также аналогичных, идущих в Японии, Австралии и Китае.

Для реализации этой идеи предлагается новая парадигма кортикально-связанных вычислений, подразумевающая совместное выполнение вычислений людьми и машинами и связь между ними с помощью BCI. В простейшем варианте при кортикально-связанных вычислениях полученная от мозга информация об окружающем мире используется для непосредственной передачи специальных знаний машине, которая не была заранее запрограммирована. Со временем, когда подобные системы будут полноценно реализованы, высокоразвитый искусственный интеллект и люди смогут решать различные задачи во взаимодействии, легкость которого будет обеспечиваться интерфейсами «мозг-компьютер» следующего поколения. Концепцию кортикально-связанных вычислений можно проиллюстрировать на примере реальных систем, в которых уже воплощены некоторые элементы новой парадигмы.

Кортикально-связанный компьютер для машинного зрения

Несмотря на впечатляющий прогресс в области [I]машинного зрения (computer vision, CV), в том числе в сфере глубинного обучения, наделять машины способностью «понимать» смысл изображений в шумных и контекстно насыщенных средах по-прежнему трудно. Когда, например, аналитик оценивает потенциальную угрозу, изучая сведения от воздушной разведки, ему весьма затруднительно делать подробную оценку вручную из-за огромного количества изображений, поэтому оператору приходится быстро отбрасывать часть кадров, ранжируя их согласно субъективному критерию их важности. Для понимания изображений в подобных случаях нужно не только распознать объект на картинке, но и оценить его значимость с учетом контекстных сведений. Для решения этой задачи система CV обращается к опытному аналитику изображений.

Кортикально-связанная система машинного зрения (cortically coupled computer vision, C3V) объединяет способности человека в области общего и контекстно зависимого анализа со способностью компьютера без устали решать вычислительные задачи [1, 2]. Идея состоит в том, чтобы увеличить производительность автоматизированной системы поиска и исследования с использованием дополнительной информации, транслируемой через BCI. Эта информация, генерируемая путем обработки сигналов ЭЭГ мозга аналитика, позволяет оценивать уровень его заинтересованности, в то время как у него перед глазами мелькают изображения. Фактически тем самым C3V сопровождает каждое изображение из среза данных когнитивной меткой, сгенерированной человеком, и по ходу действия обучается.

Для создания меток C3V выводит аналитику изображения в режиме быстрого последовательного воспроизведения (rapid serial visual representation, RSVP) снимков, показывая каждый всего 100–200 мс. При такой скорости воспроизведения человек, благодаря хорошо развитой природной способности к распознаванию образов [3], может мгновенно уловить суть и создать общее представление о каждом снимке. Если при этом появится хотя бы ощущение того, что на картинке имеется предмет интереса, то внимание аналитика заострится, спровоцировав нейрофизиологический отклик, который и расшифрует C3V. Поскольку событие всплеска интереса не двоично, а скорее является плавной функцией, то расшифрованную сигнатуру когнитивного отклика можно использовать в качестве показателя для приоритизации изображений подобно тому, как в Google с помощью системы PageRank сортируются поисковые результаты. Важно, что сигнал заострения внимания можно распознать посредством ЭЭГ не только при просмотре объектов на статичных изображениях, но и во время пространственно-временных событий, происходящих в видеоклипах.

Механизм заострения внимания основывается на естественной способности визуальной коры мозга человека быстро отмечать изображения с объектами, представляющими интерес, а также видеокадры с интересующими событиями. При этом пропускная способность системы ограничивается возможностями человека — не более 5–10 изображений в секунду. Полагаясь на алгоритмы машинного зрения, C3V может предварительно отфильтровывать потенциально важные изображения и передавать аналитику или выполнять постобработку показателей заинтересованности для ограниченного набора изображений, чтобы обеспечить возможность последующего эффективного поиска по базам снимков гораздо большего объема. Рассмотрим два этих случая подробнее.

Обработка человеком после компьютерного анализа

На рис. 1 изображен прототип C3V-системы анализа спутниковых изображений, в состав которой входят три компонента: модуль CV-сортировки, модуль ЭЭГ-сортировки и визуальный интерфейс, позволяющий наглядно представить результаты совместной работы.

Рис. 1. Пример кортикально-связанной системы машинного зрения (C3V): а — компоненты системы; б — порядок работы системы

Пользователь вначале запускает CV-модуль, который анализирует большой спутниковый снимок целиком. При этом распознаются области вероятного интереса с применением сильно обобщенных моделей или выбранных пользователем ограничений (например, поиск только рукотворных объектов). Результаты используются для отбора фрагментов изображения, которые будут представлены пользователю в режиме RSVP. Пользователь работает в энцефалографическом шлеме, а в модуле ЭЭГ-сортировки действует классификатор, заранее обученный распознавать по сигналам ЭЭГ заострение внимания. Система передает пользователю набор фрагментов изображений, сформированный CV-модулем, декодирует сигналы ЭЭГ в реальном времени для выяснения показателей уровня интереса для каждого фрагмента и составляет список приоритетов для областей, представляющих интерес. Затем интерфейс накладывает составленные списки на спутниковые изображения, позволяя аналитику их панорамировать и масштабировать, отмечать объекты и быстро переходить к участкам на карте, представляющим высокий интерес.

Система проверялась на реалистичных задачах поиска изображений. В ходе этих испытаний увеличение пропускной способности при обработке изображений достигало 300%.

Обработка человеком перед подачей в систему машинного зрения

В системах C3V модуль машинного зрения может использоваться не только для предварительной обработки, предшествующей анализу человеком, но и для постобработки, когда когнитивные метки фрагментов изображений используются для идентификации визуально или семантически схожих изображений в большой базе. В пример можно привести систему, где C3V, пользуясь графовыми моделями выведения умозаключений, обученными с частичным привлечением учителя, присваивает показатели интереса неразмеченным изображениям, — таким образом система пытается оценить, насколько внимание человека могут привлекать изображения, которые он еще не видел. Как видно из рис. 2, компьютерная постобработка позволяет улучшить точность и полноту поиска заданной категории изображений по большой базе. Результативность дополнительно улучшается, когда показатели заинтересованности человека используются в качестве меток для CV-модуля, который затем выстраивает новые изображения в ряд согласно воспринимаемому уровню интереса. Когда C3V работает в описываемом режиме замкнутого цикла, то уровни точности значительно повышаются, а затем, в среднем после 2,5 итерации «декодирование ЭЭГ — CV-поиск», они постепенно выравниваются.

Рис. 2. Лучшие результаты поиска в случаях, когда субъекта интересовали (а) далматинцы и (б) семисвечники. Получено с использованием декодирования ЭЭГ (желтые прямоугольники) и постобработки с помощью графовой системы CV, обученной с частичным привлечением учителя (красные прямоугольники). Изображения отсортированы слева направо, сверху вниз по уровню интереса, выведенному путем декодирования ЭЭГ (желтые прямоугольники), а затем с учетом показателя, выведенного по ЭЭГ, и визуального сходства, зарегистрированного с помощью графовой CV-модели (красные прямоугольники). Видно, что при совместном использовании декодирования ЭЭГ и графовых CV точность и полнота лучше, чем если бы применялся каждый из двух механизмов по отдельности

Применение C3V в мультиагентской среде

Сегодня уже существует ряд платформ, расширяющих парадигму C3V; они характеризуются различными моделями машинного зрения и коммуникационными топологиями, а также более эргономичными и удобными BCI. В частности, в Научно-исследовательской лаборатории Армии США разработана система Human-Autonomous Image Labeler (HAIL) — масштабируемое решение замкнутого цикла для разметки изображений, основанное на взаимодействии сети людей и автоматизированных агентов. Распределяя задания в соответствии со стратегией, выработанной методом машинного обучения, HAIL обеспечивает более высокую результативность, чем любое подмножество участвующих агентов. Система распределяет изображения между агентами либо последовательно, когда вначале те назначаются участникам с высокой пропускной способностью, либо параллельно, когда все агенты одновременно анализируют подмножества снимков из общей базы изображений.

Последовательное распределение изображений

При последовательном распределении система HAIL сначала передает изображения CV-модулю, работающему по принципу глубинного обучения. Он проводит идентификацию с помощью поискового шаблона и направляет отсортированные по приоритетности изображения для воспроизведения в режиме RSVP человеку, работающему в заданном системой темпе. Пока человек просматривает непрерывный поток изображений, HAIL в реальном времени декодирует его сигналы ЭЭГ, получая возможность использовать их для перепроверки решений, принятых CV-модулем. В заключение HAIL демонстрирует оставшиеся изображения человеку, работающему в произвольном темпе. Тот, в свою очередь, принимает решения, пользуясь сенсорным интерфейсом, в котором изображения расположены «плиткой». В нынешней версии системы в CV-модуле и декодере используются статичные модели, но идет работа над реализацией адаптивных классификаторов и механизмов обратной связи, которые позволят людям и CV-агентам адаптироваться и учиться друг у друга.

Параллельное распределение изображений

Политика параллельного распределения изображений HAIL составлена на основе результатов исследования в области оптимизации краудсорсинга. Система обеспечивает оптимальное распределение изображений между автоматизированными агентами и людьми путем решения обобщенной задачи назначения (рис. 3). HAIL объединяет результаты выполненной агентами классификации изображений, используя для этого специальный модуль обученного без учителя классификатора на основе ансамблевого алгоритма. Результаты его работы вместе с выводами о надежности агентов используются для обоснования последующего распределения изображений. Система повторяет распределение изображений и их совместную классификацию до тех пор, пока для всех изображений не будет достигнут желательный уровень доверия. При такой совместной обработке изображений результативность на уровне, свойственном людям, достигается за гораздо более короткое время, чем если бы работал один человек или группа людей. Более того, адаптивная мультиагентская система HAIL оптимально комбинирует усилия агентов, индивидуальная эффективность которых заранее неизвестна и/или варьируется со временем. Таким образом, вычислительные характеристики системы меняются в реальном времени вместе с топологией сети и характеристиками узлов.

Рис. 3. Архитектура системы параллельного назначения изображений HAIL. Система оптимально распределяет изображения из базы данных между автоматизированными агентами и людьми, работающими в произвольном либо определяемом системой темпе. Выбор агентов осуществляется путем решения обобщенной задачи о назначениях. Агенты классифицируют назначенные им изображения, а специальный узел Spectral Meta-Learner (SML) присваивает каждому изображению показатель общего уровня доверия. Руководствуясь этими показателями, а также выведенной информацией о точности работы агентов, система либо принимает изображения как классифицированные, либо отправляет их снова на узел назначения для повторной классификации

Динамическая оценка когнитивной нагрузки при взаимодействии человека с машиной

Системы, основанные на слаженной работе человека с машиной и способные адаптироваться в условиях динамично меняющейся когнитивной нагрузки, можно применять не только для визуальных задач. На рис. 4 показан BCI замкнутого цикла, который непрерывно следит за нагрузкой пилота авиалайнера в ходе сложной навигационной задачи: перемещение по коридору с динамически меняющимися границами. При этом когнитивная нагрузка летчика зависит от того, что он делает: перемещает джойстик, увеличивает тягу двигателей, взаимодействует с интерфейсом кабины (например, реагирует на звуковые и визуальные события), следит за показаниями приборов и т. п. Результаты экспериментов позволили выявить достоверные признаки высокой когнитивной нагрузки летчика, способной привести к неоптимальной связи между ним и самолетом и, как следствие, к опасному явлению раскачки воздушного судна пилотом. Вместе с тем декодирование когнитивной нагрузки в реальном времени и вмешательство в форме предупреждающих сигналов, передаваемых человеку или машине, позволяют улучшать их взаимодействие. Кроме того, система способна параллельно с действиями пилота регистрировать соответствующие показатели когнитивной нагрузки. При ретроспективном анализе, пользуясь методами машинного обучения, можно определить, какие последовательности или комбинации действий приводят к увеличению нагрузки. Эту информацию можно использовать для создания более эффективных интерфейсов кабины пилота. Данную концепцию можно расширить, применив и к другим задачам, связанным с навигацией (например, к вождению автомобилей), что позволит оптимизировать интерфейс управления и приборную панель так, чтобы они меньше отвлекали водителя, снижая вероятность аварии.

Рис. 4. Интерфейс «мозг-компьютер» непрерывно следит за уровнем загруженности пилота и информирует бортовой компьютер, который может снизить нагрузку путем прямой передачи сведений летчику или с помощью манипуляций с интерфейсом кабины. Система способна помечать каждое действие человека, находящегося в кабине, зарегистрированными показателями когнитивной нагрузки, которые впоследствии можно использовать для улучшения взаимодействия между человеком и машиной с учетом знаний о том, какие именно действия приводят к повышению нагрузки

Адаптация искусственного интеллекта к предпочтениям человека

По мере расширения возможностей систем искусственного интеллекта им поручают все больше задач, связанных с оказанием помощи человеку, — от выбора развлечений до управления автомобилем. Многим системам, взаимодействующим с человеком, не помешало бы умение распознавать его предпочтения, это позволило бы персонализировать результаты и способствовало бы повышению доверия к машинам. Поскольку системам глубинного обучения нужны колоссальные объемы тренировочных данных, процедура прямого разъяснения предпочтений может потребовать недопустимо больших усилий от пользователя. Но сегодня, благодаря достижениям исследователей, появилась возможность оценивать пользовательские предпочтения без предварительного сеанса обучения и непосредственной передачи сведений — с применением физиологических показателей заинтересованности, проявляющихся в процессе работы с системой. Эти когнитивные метки, получение которых практически не требует усилий, можно использовать для адаптации поведения системы искусственного интеллекта к предпочтениям индивидуума.

***

Кортикально-связанные вычисления могут найти целый ряд применений, от масштабных систем быстрого поиска и аннотирования изображений до автоматизации задач управления автомобилем и самолетом. Концепция опирается на метод адаптивной оценки состояния головного мозга, когда система сохраняет результаты явных или подразумеваемых вычислений, выполненных пользователем, и передает их традиционной компьютерной системе по нейроинтерфейсу, например с использованием шлема ЭЭГ. Подход принципиально отличается от традиционных интерфейсов «мозг-компьютер», опирающихся на использование сигналов головного мозга для прямого управления компьютерами или робототехникой.

В ближайшем будущем появятся различные расширения данных технологий — в частности, будут доработаны системы HAIL и C3V, которые станут кортикально-связанными системами общего назначения, способными решать сложные аналитические и вычислительные задачи. CV-агенты разного рода можно объединить в сеть с людьми через BCI, что позволит представлять различные задачи в наглядной форме для их решения человеком. В такой мультиагентской системе подзадачи можно будет распределять по сети, а затем объединять результаты, получая решения с высокой степенью надежности. Подобные аналитические механизмы будут востребованы во многих предметных областях.

Кортикально-связанные вычисления также можно применять для объединения людей и роботов, имеющих различные сенсорные и физические способности. Например, сотрудникам службы спасения нужно быстро обследовать территорию бедствия при помощи группы миниатюрных дронов. Если те сумеют оценить, что именно представляет интерес для спасателей при поиске, то можно ускорить проведение спасательной операции путем выявления приоритетных областей или объектов на динамически формируемой карте. Человеко-машинное взаимодействие в рамках системы взаимоусиливающих элементов более результативно, чем работа суммы частей такой системы.

Литература

A.D. Gerson, L.C. Parra, P. Sajda. Cortically Coupled Computer Vision for Rapid Image Search // IEEE Trans. Neural Systems and Rehabilitation Eng. — 2006. Vol. 14, № 2. — P. 174–179.
P. Sajda et al. In a Blink of an Eye and a Switch of a Transistor: Cortically Coupled Computer Vision // Proc. IEEE. — 2010. Vol. 98, № 3. — P. 462–478.
A. Oliva, A. Torralba. Building the Gist of a Scene: The Role of Global Image Features in Recognition // Progress in Brain Research. — 2006. Vol. 155. — P. 23–36.

Самир Сапру (ssaproo.ucsd@gmail.com), Джозеф Фоллер (josef.faller@columbia.edu), научные сотрудники, Виктор Ши (s2481@columbia.edu), аспирант, Пол Шайда (psajda@columbia.edu), профессор, Колумбийский университет; Николас Вайтович (nick.waytowich@gmail.com), Эддисон Бохэннон (addisonb@math.umd.edu), научные сотрудники, Вернон Лоуэрн (vernon.j.lawhern.civ@mail.mil), специалист по математической статистике, Брент Лэнс (brent.j.lance.civ@mail.mil), специалист по теории вычислительных систем, Научно-исследовательская лаборатория Армии США; Дэвид Дженгро (david.jangraw@nih.gov), научный сотрудник, Национальный институт психического здоровья США.

Sameer Saproo, Josef Faller, Victor Shih, Paul Sajda, Nicholas Waytowich, Addison Bohannon, Vernon Lawhern, Brent Lance, David Jangraw, Cortically Coupled Computing: A New Paradigm for Synergistic Human-Machine Interaction. IEEE Computer, September 2016, IEEE Computer Society. All rights reserved. Reprinted with permission.