Компьютерное распознавание человеческих лиц

Интерес к процессам узнавания и распознавания лиц, всегда был значительным, особенно в связи со все возрастающими практическими потребностями: системы охраны, верификация кредитных карточек, криминалистическая экспертиза, телеконференции и т.д. Несмотря на ясность того житейского факта, что человек хорошо идентифицирует лица людей, совсем не очевидно, как научить этому компьютер, в том числе как декодировать и хранить цифровые изображения лиц.

Задачу оптимального поиска и идентификации слабоконтрастного объекта, каким по праву считается человеческое лицо, на основе систем кибернетического зрения можно рассматривать как в свете классической проблемы восприятия, так и в свете новых подходов. В данной статье речь пойдет о некоторых аспектах принципа динамического распознавания.

Прежде всего рассмотрим крайне интересные психофизические аспекты восприятия лица, в частности, вопрос о том, а как вообще человек воспринимает или распознает лицо.

Здесь нам помогут классические эксперименты А.Л.Ярбуса, основная особенность которых - независимость решения вопроса о роли движений глаз в зрительном восприятии от решения вопроса о регуляции самих движений глаз и их детерминации. Известно, что движения глаза представляют собой крайне сложную картину его активности и состоят, как минимум, из нескольких форм движений: нистагмы; отдельные саккады; инверсионные нистагмы; синусоидальные колебания низкой частоты (0,25-0,8 Гц, М=0,45 Гц) и большой амплитуды (до 50-60?; М=39,2?, б=2,9); медленные апериодические повороты глаз и другие формы движения, которые при произвольной смене объекта фиксации выражены наиболее ярко.

Формы движений глаз ориентированы вдоль оси инверсии ретинального образа, а порядок чередования типов глазодвигательной активности выглядит случайным. Причем перемещение изображения играет огромную роль в сенсорной функции зрительной системы. Если изображение на сетчатке тем или иным способом стабилизировано, видимый образ бледнеет и исчезает. Причины этого еще до конца не выяснены. Однако оказывается, что через некоторое время человек снова начинает видеть целое или отдельные части стабилизированного изображения. При длительном наблюдении весь образ или его фрагменты поочередно то угасают, то появляются вновь. Такая фрагментация образа (поочередное угасание и восстановление его отдельных частей) зависит от характера и содержания изображения (рис.1).

Рис. 1. Стабилизированные образы обычно угасают, как показано на этом рисунке.

Остающиеся видимые части профиля - это всегда осмысленные элементы или группы элементов (лицо, верхняя половина лица и т. д.)

В известной мере эти наблюдения подкрепляют теорию нейронных ансамблей, согласно которой для реализации способности к восприятию необходим опыт: тот или иной образ воспринимается в результате комбинаций отдельных следов в мозге, образовавшихся там ранее усвоенным элементам. Эти данные согласуются и с другими, казалось бы, противоположными теориями восприятия (например, теория Гештальта), согласно которым образ сразу, без всякого предварительного опыта воспринимается как целое, без какого-либо синтеза из отдельных частей, благодаря способности воспринимать «форму», «целостность» и «организацию».

Из этого и других экспериментальных данных следует важный вывод: при восприятии изображения на первый план выступает независимое поведение отдельных частей фигуры, т.е. выделение групп структурных элементов или организованных структур.

Итак, движения глаз приводят к дестабилизации изображения на сетчатке. Однако мы, тем не менее, воспринимаем изображение стабильным, постоянным, несмотря на движение глаз, тела и рассматриваемых объектов. В том, как это реализуется мозгом, состоит так называемая проблема пространственной константности зрительного восприятия, которая разделяется на две: проблема константности, стабильности зрительного поля и проблема инвариантного восприятия объектов.

Пространственная константность восприятия формируется в результате специальной деятельности зрительной системы, которая может подразделяться на пять основных этапов:

формирование сетчатых изображений;
локальный анализ возбуждения фоторецепторного слоя (рецепторный анализ);
непредметные механизмы инвариантности;
инвариантный синтез образа объекта;
анализ предметного окружения (прецепторный анализ).

Основная роль движения глаз состоит в перемещении оси зрения так, чтобы изображение пристально рассматриваемого объекта (или части объекта) всегда оказывалось в центральной части сетчатки, в зоне наилучшего зрения (фовеа). Именно в этой зоне имеется наибольшая плотность цветочувствительных рецепторов (колбочек). Здесь же располагаются рецептивные поля тонических корковых нейронов, анализирующих форму и т.п.

Один и тот же объект сначала обнаруживается, первично обрабатывается периферией с передачей полученной информации в мозг по «быстрому» каналу, а затем, после скачка, он исследуется более детально (если это необходимо) путем размещения изображения в зоне фовеа. Детальная информация в этом случае передается в мозг уже по «медленному» каналу. При фиксации какого-либо участка изображения зрительной системой обрабатывается не только этот участок (проецирующийся на фовеа), но и получаемая с периферии информация, необходимая для расчета следующего скачка.

Тем не менее данный процесс не столь очевиден. Дело в том, что как легко видеть из рис. 2, глаз фиксирует основные фрагменты слабоконтрастного изображения, которые обычно рассматриваются как информативные признаки описания изображения и которые в дальнейшем используются в формальных логических утверждениях.

Рис. 2. Запись движения глаза при свободном рассматривании фотографии

Особенности восприятия слабоконтрастных изображений зрительным трактом человека заключаются также в том, что в процессе узнавания мозг выступает как активная распознающая система (с проверкой правильности решений). Этапами распознавания при этом могут быть: выделение признаков, предварительный анализ, выдвижение гипотезы, проверка гипотезы - сличение изображений с эталоном, взятым из памяти. Поэтому принцип активного распознавания, должен закладываться на этапе первичного проектирования систем кибернетического видения слабоконтрастных объектов, в частности при распознавании человеческих лиц.

Методы автоматического распознавания лиц

Задача идентификации и распознавания лиц - это одна из первых практических задач, которая стимулировала становление и развитие теории распознавания и идентификации объектов. Существует девять категорий объектов, которые соответствуют гностическим областям и вызывают зрительные образы:

объекты, которыми можно манипулировать (чашки, ключи, часы и т.д.);
объекты, которыми можно частично манипулировать (автомобили, материалы и т.д.);
объекты не манипулируемые (деревья, здания и т.д.);
лица;
выражения лиц;
живые существа (животные, фигура человека);
печатные знаки (буквы, символы, знаки);
рукописные изображения;
характеристики и расположение источников света (луна, солнце).

Интерес к процедурам, лежащим в основе процесса узнавания и распознавания лиц, всегда был значительным, особенно в связи все возрастающими практическими потребностями: охранные системы, верификация кредитных карточек, криминалистическая экспертиза, телеконференции и т.д. Несмотря на ясность того житейского факта, что человек хорошо идентифицирует лица людей, совсем не очевидно, как научить ЭВМ проводить эту процедуру, в том числе как декодировать и хранить цифровые изображения лиц. Еще менее ясными являются оценки схожести лиц, включая их комплексную обработку. Можно выделить несколько направлений исследований проблемы распознавания лиц:

нейропсихологические модели;
нейрофизиологические модели;
информационно - процессуальные модели;
компьютерные модели распознавания.

Проблема распознавания лиц рассматривалась еще на ранних стадиях компьютерного зрения и сейчас не потеряла своей новизны, переживая период возрождения. Ряд компаний на протяжении более 30 лет активно разрабатывают автоматизированные, а сейчас и автоматические системы распознавания человеческих лиц: Smith & Wesson (система ASID - Automated Suspect Identification System); ImageWare (система FaceID); Imagis, Epic Solutions, Spillman, Miros (система Trueface); Vissage Technology (система Vissage Gallery); Visionics (система FaceIt).

Для решения задачи распознавания лиц были предложены различные методики, среди которых можно выделить подходы, основанные на нейронных сетях, на разложении Карунена - Лоэва, на алгебраических моментах, линиях одинаковой интенсивности, эластичных (деформируемые) эталонах сравнения. В разработках алгоритмов распознавания особые усилия направлены на автоматическое выделение элементов лица (глаза, нос, рот, подбородок и др.) на его различных изображениях: фас, профиль и произвольный ракурс. Далее эти геометрические характеристики используются в решении задачи распознавания. Типичным при описании этих подходов является отсутствие сравнения на статистически значимой базе данных лиц.

Можно выделить два способа распознавания лиц:

сравнение типа соответствия между стимулами один против одного;
сравнение между накопленным, репрезентативным рядом лиц.

Геометрическое сравнение, основано на определении элементов лица - ЭЛ: глаза, нос, рот, подбородок и др. Лицо может быть распознано, даже когда индивидуальные ЭЛ видны недостаточно. Идея подхода заключается в нахождении относительного положения и собственных характеристик отдельных ЭЛ. Было показано, что если даже ЭЛ извлекаются вручную, то компьютерное распознавание дает очень хорошие результаты.

Эталонное сравнение построено на идее, что изображение, представленно в виде массива байтов - величин интенсивности, сравнивается в подходящей метрике с эталоном - целым лицом. Существуют несколько путей подготовки эталонов и их представления. Несколько эталонов используются для распознавания с разных ракурсов.

Заслуживает внимания подход, когда лицо представляется в виде набора малых различных эталонов [R.J.Baron]. Предпочтительным и более комплексным подходом является путь в использовании одного эталона совместно с точной априорной моделью, которая позволяет оценить трансформацию основного лица, при изменении ракурса наблюдения. Деформируемая модель затем используется в построении метрики сравнения эталонных лиц. Данная идея является основой методики деформируемых эталонов [Bruce V.].

Схема эталонного сравнения в работе [Bruce V.], достаточно сильно модифицирована, чтобы просто называть ее корреляционно - экстремальной. Она использует нормализацию изображения, которое переводит его в карту величин градиентов и является свободной от карты краев. Одним из успешных находок является использование нескольких разрешений и малых по размерам эталонов для глаз, рта и носа. На этих подходах построены детекторы элементов лица. Важно отметить, что следующий шаг является конструктивным: сначала детектировать глаза (путем эталонного сравнения), потом автоматически нормализовать изображение по масштабу и ориентации. Можно заметить, что такой подход содержит элементы распознавания на основе эталона всего лица: ЭЛ (глаза) используются для нормализации изображения, и эталонное сравнение проводится раздельно по отдельным характерным чертам лица (глаза, нос, рот). Однако как показали эксперименты, успешнее всего распознавание лица происходит на архитектуре, комбинирующей подход распознавания всего лица с подходом на основе эталонного сравнения его элементов.

Следует также рассмотреть схему распознавания, основанную на К-L декомпозиции, которая аналогична системе распознавания, предложенной в работе [M.Kirby и L.Sirovich]. Отметим, что поскольку объекты распознавания в К-L декомпозиции представляются в виде линейной суммы базисных эталонов, то алгоритм распознавания не может дать лучше результата, чем корреляционный. Однако на этом пути можно значительно уменьшить вычислительные затраты, сравнимые со схемами распознавания на основе геометрических характеристик ЭЛ. Так Ellis H.D. показал, что снижение вычислительных затрат при том же уровне качества распознавания достигает 96%. Аналогичный алгоритм Т.Poggio работает лучше чем алгоритм R.J.Baron, поскольку использует более малые эталоны, что устойчивее к дисторсии изображения.

Представляет интерес схема распознавания на нейронных сетях. В частности, использование сети гипербазисных функций (ГБФ) в синтезировании вектора признаков ЭЛ для распознавания 3D объектов с произвольного ракурса [T. Poggio]. В этом случае входами сети являются параметры ЭЛ (в том числе их позиция на изображении). ГиперБФ-сеть имеет реально входы как амплитуды градиентов для каждого пикселя и как центры соответствующих эталонов (различные центры при различных сдвигах), что напоминает описанную ранее схему сравнения эталонов ЭЛ. Это может соответствовать линейной классификации на гауссовских функциях корреляционных коэффициентов взамен просто метода максимума на коэффициентах корреляции.

Вопрос о зависимости результатов распознавания от ракурса съемки можно решать несколькими путями. Если для каждого человека имеются изображения, снятые с разных ракурсов, то можно использовать те же схемы распознавания, за счет увеличения вычислительных затрат. Использование ГБФ - классификации с возможностью интерполяции между различными точками проекций достаточно рискованно. Однако в реальности, тем не менее, может быть только одно фронтальное изображение лица, доступное для генерации эталона. Очевидно, что одно изображение 3D - объекта (без теней) не содержит достаточной информации. Если, тем не менее, объект принадлежит классу сходных объектов (прототипов), для которых различные точки проекций известны, то возможно разумная экстраполяция и можно предложить корректную проекцию для данного объекта только по одной 2D проекции. Люди определенно способны распознавать лица, повернутые на 20-300 относительно фронтальной проекции. Возможно, они просто используют свои полученные данные о структуре типичного лица. Аналитически точное решение этой задачи я предложил в 1997 г.

Другим вариантом решения этой проблемы является задача использования 3D моделей лица, для поддержки распознавания на не фронтальных изображениях лиц, [A.J.Goldstein]. Как указывает R.Brunelli, возможны постановки задач и их решения, включая отработки на экспертной БД, связанные с получением других проекций лица, используя знания о проекциях других типичных объектов этого класса.

МЕТОДЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯ ЭЛЕМЕНТОВ ЛИЦА

Для различных контуров ЭЛ используются разные методы их извлечения на исходном портрете. Фигуры глаз и рта имеют устойчивые геометрические формы, поэтому они извлекаются в терминах модели деформируемого эталона. Другие элементы лица, такие как брови, нос и контур лица настолько изменчивы, что для их обнаружения применяется модель активного контура, которая устойчиво обнаруживает подобные объекты. На рис.3 показаны все элементы лица, которые используются при портретной экспертизе, и которые крайне желательно идентифицировать при автоматическом распознавании лица, что обеспечивает легитимность метода.

Рис. 3. Схема элементов лица при портретной экспертизе

Модель деформируемого эталона. Деформируемые эталоны определяются параметрами, задаваемыми априорными знаниями об ожидаемой форме ЭЛ и которые определяются численно в процессе обучения при контурном дешифрировании.

Эталоны достаточно гибки при изменении их размеров и других задающих параметров, при этом их можно числено сравнивать, а полученные значения параметров можно использовать для описания конкретного ЭЛ. Деформируемые эталоны взаимодействуют с текущим цифровым изображением в динамическом режиме. Энергетическая функция определяется набором компонентов, которые притягивают эталон к изображению ЭЛ на основе характеристик графиков срезов интенсивности, таких как максимумы и минимумы, краев и само значение интенсивности. Минимум энергетической функции соответствует лучшему выбору для данного изображения. Обычно деформируемые эталоны используют для обнаружения глаз и рта.

До начала поиска ЭЛ необходимо задать яркостные границы, которые можно было бы использовать для идентификации ЭЛ от других фрагментов лица и грубый контур каждого ЭЛ как начальный контур для последующих итераций. Обычно используют масштабный пространственный фильтр (МПФ), для вычисления гистограммы и определения нулевых яркостей на различных масштабах, и метод грубой оценки контура (МГОК) для грубого определения положения контура объекта. Исключением является только грубый контур лица, который меньше чем его точный контур. Более подробно процедуры МПФ и МГОК обсуждаются в работе [F.W.Young].

После того как получен грубый контур, происходит нахождение физического контура на каждом ЭЛ. Общепринятые детекторы краев не позволяют точно определить контуры глаз или рта, исходя только из локального набора краев. Дело в том, что обычные детекторы краев не позволяют синтезировать локальную информацию в целостный глобальный контур объекта. Поэтому проектирование детектора глаза основано на методе деформируемого эталона, который задается набором параметров, определяемым априорной информацией об ожидаемой форме и используемым в процессе обучения. Эти эталоны достаточно гибки и меняют свои размеры и форму путем вариации их значений параметров, так как эталон взаимодействует с изображением. Полученные значения величин параметров описания эталона используются для описания конкретного ЭЛ.

В качестве примера более подробно рассмотрим модель деформируемого эталона глаза (МДЭ), которая активно применяется во многих автоматизированных системах. МДЭ взаимодействует с тремя элементарными признаками изображения. Первые два - это максимумы и минимумы на матрице интенсивности, третий признак задается как участок изображения, где интенсивность меняется быстро.

Рис. 4. Простая деформируемая модель глаза

Простейшая модель показана на рис.4. Поскольку грубый контур глаза определяется методом МГОК, то возможные диапазоны длины (length), высоты(height), высоты(height) и ориентации ( могут быть следующие:

1). length ? ;

2). height ? ;

3). height ? ;

4). q ? .

Диапазоны , i=1,2 определяются из МГОК, (P_x, P_y) представляет собой точку центроида, (x', y') - преобразование точки (х,у) путем следующего преобразования

. (1)

Функция общей энергии определяется как

(2)

Функции определяются следующим образом.

а) Потенциал края задается интегралом по кривым верхней и нижней параболы, нормированным на длину:

(3)

где представляет верхнюю и нижнюю часть глаза, Ф_Е(x, y) представляет краевой эффект в точке (x,y).

б) Потенциалы белых и черных точек определяются как интеграл по площади, ограниченной верхней и нижней параболы, нормированной на площадь:

(4)

где N_b(x,y) и N_w(x,y) представляет собой число черных и белых пикселей, w_b и w_w - веса, связанные с белыми и черными точками. Для контроля за границами мы определяем интервал (() для определения черных и белых точек (для (4)) как: P(x,y) есть черная точка, если I(x,y)==q+e; P(x,y) есть неопознанная точка, если q-e =< I(x,y) =< q+e. Определяя примерно контур с помощью МГОК, далее мы можем найти точно положение контура глаза. Для этого вычисляем энергетические функции в диапазонах малых изменений длины, высоты, высоты и ориентации. (Когда минимум величины энергии будет достигнут, то это означает, что точный контур глаза определен.

Модель активного контура (модель змеи). Активный контур определяется как энергетически минимальный сплайн, обучаемый путем введения внешних притягивающих вынужденных потенциалов и влиянием потенциалов изображения, которые натягивают его на ЭЛ, на основе характеристик линий и краев. Змеи фиксируются на ближайших краях и более аккуратно и точно локализуясь в последующем. Поскольку змея есть энергетически минимальный сплайн (ЭМС), необходимо исследовать потенциальные функции, которые включают в себя локальные минимумы, а также альтернативные решения на более высоком уровне анализа процесса. Выбор необходимого решения будет достаточным, если выбрать путь добавления членов ряда, которые будут продвигать ЭМС по изображению для получения необходимого решения. Метод активных контуров (метод змей) обычно применяют для обнаружения и определения элементов лица, как брови, нос, овал лица. Формы бровей, ноздрей и овала лица, в отличие от глаз и рта, значительно различаются у разных людей и их контуры не могут быть определены с помощью деформируемых эталонов.

Для этих целей наиболее эффективной оказывается модель активного контура (МАК). Активный контур (змея) есть энергетически минимальный сплайн, направляемый активными внешними силами и влиянием сил собственно изображением, которые натягивают змею на признаки ЭЛ. В качестве признаков здесь принимаются элементарные признаки изображения: линии и края. Начальная змея локализуется на ближайших краях, а затем точно определяется ее локализация и форма. Определение энергетической функция змеи можно найти в работе [D.Tezopoulos].

Если сравнить два подхода: идентификацию лиц на основе вектора признаков, представляющих собой геометрические характеристики ЭЛ и идентификацию лиц на основе сравнения полутоновых эталонов, то видно, что корреляционно - экстремальный подход на базе полутоновых эталонов работает эффективнее. Этот подход не требует специальных априорных знаний о структуре ЭЛ. В тоже время, методика, основанная на характеристиках ЭЛ, дает значительную скорость распознавания, не требует специализированного программно-аппаратного обеспечения и больших объемов памяти.

***

Распознавание еще не исчерпывает задачу описания лиц - люди способны по лицу различать пол, возраст и выражения (настроение). Как показывают эксперименты, для решения этих задач может быть поелезен эталонный поиск и описание других геометрических характеристик. Однако, несмотря на достаточно четкое алгоритмическое решение, свосем неочевидно, что именно так можно характеризовать свойства человеческого зрения и восприятия.

В целом, работы по распознаванию могут обеспечить понимание механизмов распознавания лиц человеком, особенно если они тесно связаны с постановками задач на уровне нейроподобных и психофизических механизмов восприятия образов.

Александр Глазунов (eyeman101@mtu-net.ru) — профессор Института автоматизации проектирования РАН (Москва).

Полезные ссылки

H.Abdi, « A geheralized approach for connectionist auto-associative memories: Interpretation, implication and illustration for face processing Artificial Intelligence and Cognitive Sciences. Manchester, England: Manchester Univ.Press, 1988, pp.149-165.
A.A.Amini, T.E.Weymoth and R.C.Jain, IEEE Trans. PAMI, vol.12, no.9, pp.855-867, 1990.
Handbook of research on face prosessing/ edited by A.W.Young and H.D.Ellis, Oxford, 1989.
Ellis H.D. Perceiving and Remembering Faces, London, Academic Press. 1981.
Roberto B., Tomaso P. Face Recognition: Features versus Templates. IEEE TRAMI, vol.15, N 10, 1993, 1042-1048.
Craw I., Ellis H.D., Lishman J.R., Automatic extraction of face-features. Pattern Recignition Letters, N 5, 1987,183-187.
R.J.Baron, «Mechanism of human facial recognition», Int.J.Man Machine Studies, vol. 15, pp.137-178, 1981.
V.Bruce, A.Cowey, Ellis A.W. and Perrett D.I. (eds). Processing the Facial Image. Oxford Univ.Press, 1992.
D.J.Burr, «Elastic matching of line drawings», IEEE Trans.Patt.Anal.Machine Intell., vol. 3, no.6, pp.708-713, 1981.
P.J. Burt, « Smart sensing withing a pyramid vision machine», Proc. IEEE, vol.76, no.8, pp.1006-1015, 1988.
I.Craw, H.Ellis, J.R.Lishman, «Automatic extraction of face features», Patt.Recognition.Lett., vol.5, pp.183-187, Feb. 1987.
A.J.Goldstein, L.D.Harmon, and A.B.Lesk, «Identification of human faces», Proc. IEEE, vol. 59, May 1971.
T. Kanade Computer recognition of human faces. Birkhanger Verlag.Basel and Stuttgart.1977.
T. Poggio and F.Girosi, « Networks for approximation and learning», in Proc.IEEE, vol. 78, pp.1481-1497, 1990.
F.W.Young and H.D.Ellis, Eds., Handbook of Research on Face Processing. Amsterdam: North-Holland, 1989.
R.Brunelli, T.Poggio,»Face Recognition: Features versus Templates», IEEE Trans. on Pattern An.and Mach.Intell., vol.15, no.10, October, pp. 1042-1052, 1993.
D.Tezopoulos and K.Waters, Proc. of 3rd ICCV, pp.727-732,1990.
A.L.Yuille, «Deformable templates for face recognition», J. Cognitive Neurosci, vol. 3, no.1, pp. 59-70, 1991.
M.Kass, A.Wilkin and D. Tezopoulos, Inter.J.Computer Vision, pp.321-331, 1988.
A.J.Goldstein, L.D.Harmon, and A.B.Lesk, «Identification of human faces», Proc. IEEE, vol. 59, May 1971.
L.D. Harmon, M.B.Khan, R.Lasch, and P.F.Ramig, «Machine identification of human faces», Pattern Recognition, vol. 13, no.2, pp. 97-110, 1981.
V.Bruce and H.D.Ellis, Eds., Handbook of Research on Face Processing. Amsterdam: North-Holland, 1989, pp. 487-506.
A.Toole and H.Abdi, « Connectionist approaches to visually-based facial feature extraction», in G.Tiberghien, ed., Advances in Cognitive Psychology, vol.2. London: Wiley, 1989.
M.Kirby and L.Sirovich, «Application of the Karhunen-Loeva Procedure for the Characterization of humen faces «,IEEE Trans. on Pattern Analyses and Mach. Intelligence, vol. 12, no. 1, January, 1990, pp.103-108.
А.С. Глазунов, Автоматическое распознавание и идентификация лиц. Труды Академии Управления МВД РФ, Компьютерные технологии в криминалистике и информационная безопасность, Москва, 1997, стр.74-87
А.С. Глазунов и др., Компьютерное распознавание человеческих лиц,. Журнал Зарубежная Радиоэлектроника. Успехи современной радиоэлектроники, Москва, № 8, 1997, стр.3-14