Технология речевой подписи

До настоящего времени в системах контроля доступа или защиты от несанкционированного доступа (НСД) применялись идентификационные технологии, имеющие ряд недостатков [1]:

кража идентификационного документа (ключа или секретного кода) может во многих случаях открыть нежелательному лицу легальный доступ в охраняемые системы;
не исключается возможность копирования некоторых идентификационных документов;
большинство идентификационных документов требует организации дополнительной базы данных, а значит и ее защиты, что ведет к дополнительным расходам;
организация надежной работы известных систем защиты от НСД требует значительных финансовых и временных затрат.

Использование традиционных технологий (секретный код, магнитные и штрих-кодовые полоски, электронные ключи Touch Memory, proximity-карты, ИК-ключи и т.п.) совместно с биометрическими параметрами личности (отпечатки пальцев, рисунок ладони или сетчатки глаза, изображение лица, подпись) позволяет создавать системы контроля доступа с высоким уровнем безопасности. Главной особенностью современных систем можно считать использование автономного средства обработки информации (обычно ПК), способного выделять и обрабатывать биометрические признаки, используя в качестве первичных описаний графические образы (изображения) всех типов представленных данных. Однако до сих пор исключением был речевой сигнал, поскольку традиционно считалось, что из него крайне сложно выделить инвариантные параметры, полноценно его описывающие.

Контроль доступа на основе биометрических признаков

В качестве примера хорошо защищенной, сложной системы идентификации по изображениям лица можно привести систему ZN-FACE от партнеров компании Siemens-Nixdorf - Zentrum fur Neuroinformatic и MAKU. Данная система предоставляет доступ только известным ей клиентам. Тот, кто хочет пройти проверку, должен предъявить личный секретный номер или идентификационную карточку. В процессе контроля ZN-FACE посредством встроенной в консоль видеокамеры снимает изображение лица человека и сравнивает его с соответствующей записью из базы данных. Только при совпадении всех данных система разрешает доступ.

Другим примером, интересным с точки зрения массового и относительно недорогого использования, может служить технология идентификации личности автономными устройствами без их соединения с банками данных, представленная американской фирмой StarTen Technology. В качестве средства идентификации в системе используется автономное портативное устройство с дисплеем на жидких кристаллах. Идентификация владельца документа производится путем считывания с пластиковой карточки нанесенного на нее двухмерного штрих-кода, содержащего уникальные биометрические данные предъявителя: отпечатки пальцев или внешний вид (лицо). Эти же данные вводятся в модуль считывания с помощью сканера или видеокамеры. После сравнения информации на карточке с параметрами, выделенными из считанных изображений пальцев или лица предъявителя, принимается решение о допуске. Портативный модуль считывания может работать и в сложной компьютерной системе доступа, содержащей банк данных большого объема. Заявленные фирмой характеристики - очень высоки для такого рода систем - показатель ошибочного срабатывания (0,2%), время работы алгоритма сравнения (несколько секунд) - могут определить возможности широкого применения данной системы в различных приложениях.

Использование технологии, позволяющей записывать биометрические признаки индивида в виде бинарного изображения на пластиковой карте, привела к идее создания компьютерных систем управления доступом на основе идентификации человеческого голоса, параметры которого представляются в графическом виде, подобно рассмотренному двухмерному штрих-коду.

Речь традиционно считается самой распространенной формой человеческого общения. Поэтому решения задачи получения отпечатка (изображения) речи и наоборот - качественного синтеза речевого сигнала по этому изображению - позволяют обеспечить широкий спектр возможностей применения этой технологии не только в системах автоматизированного контроля доступа, но и в других областях информационной безопасности и связи.

Тем не менее до сегодняшнего дня эти задачи качественно решены не были, хотя все предпосылки для их решения имелись уже давно.

Новые "старые" подходы к обработке речевых сигналов

Согласно известной гипотезе Х. Гельмгольца, высказанной им еще в 1885 году, в процессе слухового восприятия речи в мозгу человека осуществляется ее спектральный анализ. В 1946 году профессором Л.Л. Мясниковым было предложено в процессе исследований и распознавания речи использовать визуальный анализ динамических спектрограмм. В 40-50-е годы исследователи уделяли много внимание анализу структур, полученных в процессе обработки выходных сигналов системой аналоговых фильтров. В 60-х годах ряд физиологических исследований подтвердил целесообразность скользящего спектрального анализа речевых сигналов. Так, в исследованиях Д. Розе отмечено, что каждые 60-100 мкс слуховая система человека как бы опрашивает состояние "гребенки" физиологических фильтров [2]. В исследованиях последних лет было доказано, что используя полноразмерный спектральный анализ речи на основе динамических разверток коэффициентов спектральных преобразований, можно распознавать и восстанавливать речевые сигналы.

Однако элементы (коэффициенты) матрицы динамического спектрального состояния (МДСС), сформированные в процессе цифрового скользящего анализа, по которым его можно восстановить (синтезировать) на основе известных рекуррентных соотношений [2], нельзя было представить в виде изображений. Основных причин здесь две: знакопеременность значений коэффициентов матрицы из-за присутствия фазовой составляющей сигнала и слишком большая ее размерность - на одну секунду речи в таком ее представлении потребовались бы горы бумаги.

И все-таки выход был найден благодаря полученной зависимости между амплитудной и фазовой составляющей элементов МДСС для речевых и акустических сигналов и разработанным алгоритмам обработки амплитудной составляющей [3]. Это позволило перейти от одномерного (осциллографического) представления речевого сигнала к двухмерному - в виде неких узорчатых рисунков, изображений, получаемых из МДСС. С этими изображениями можно производить цифровую обработку с целью сжатия, удаления помех и т. п., осуществляя также обратный переход от двухмерного представления к одномерному, сохраняя при этом важнейшие особенности (качество, узнаваемость, разборчивость и т. д.) восстановленного таким образом речевого сигнала. Эта технология обработки информации речевых сообщений названа технологией получения отпечатков речи или речевой подписи (РП).

Суть технологии РП состоит в получении из речевого сигнала в буквальном смысле "видимой речи", которую можно наносить в виде некоторого рисунка, узора или двухмерного штрих - кода на поверхность любого материала (бумага, металл, стекло, керамика и др.) и затем восстанавливать речевой сигнал из этих изображений посредством компьютерной обработки.

Технология речевой подписи

Идея речевой подписи состоит в компьютерном преобразовании оцифрованного речевого или любого другого акустического сигнала в бинарное (черно-белое) или многоуровневое (черно-белое или цветное) изображение с последующим его нанесением на поверхность. Такое изображение, введенное в компьютер посредством сканера, после синтеза по специальному алгоритму вновь преобразуется в речевой сигнал. При синтезе бинарного черно-белого изображения РП, полученного в экономичном режиме представления, обеспечивается телефонное качество звучания восстановленной речи. При использовании многоуровневой черно-белой или цветной картинки РП качество звучания синтезированного из картинки речевого сигнала существенно возрастает и практически становится неотличимым от слухового восприятия исходного образца речи.

Технология получения и применения РП основана на использовании стандартных технических средств. Например, для использования РП в документах на бумажных носителях необходим лишь компьютер со звуковой картой, сканер и лазерный принтер. Естественно, сам графический образ исходного речевого сигнала, введенного в компьютер с микрофона, магнитофона или телефонной линии, получается за счет средств специальной программной обработки. Этот образ может быть записан на любой компьютерный носитель информации в виде файла в произвольном формате (*.bmp , *.tif и др.) и/или выведен на печать. РП в составе документа или без него может быть отправлена нужному абоненту по факсу, почтой или фельдъегерской связью обычным порядком. При получении документа с РП абонент вводит его в компьютер, получает файл нужного графического формата, который затем преобразуется специальным программным обеспечением в речевой файл *.voc или *.wav форматов и выводится через звуковую карту на динамики для прослушивания содержимого полученной РП.

Данная технология РП позволяет записывать на бумажный лист стандартного формата А4 от 2 до 5 минут слитной речи. При этом обеспечивается разборчивость, узнаваемость и высокое качество звучания восстановленного речевого сигнала при минимальном разрешении принтера и сканера 300 точек на дюйм. На рис. 1 представлен один из образцов РП, который был получен из речевого файла *.wav формата. Он представляет собой записанный через микрофон голос с использованием стандартной звуковой карты и программного пакета.

РП, приведенная на рис. 1, после сканирования и программного синтеза преобразуется в речевой сигнал, при прослушивании которого можно услышать голос одного из авторов, сообщающий некоторые сведения о патенте на технологию речепреобразования.

Следует подчеркнуть, что каждому человеку и каждому произнесенному им слову, фразе будет соответствовать своя уникальная РП, их замещающая. В этой связи наиболее перспективно применение технологии речевой подписи при решении задач идентификации, информационной безопасности, защиты документов от подделки, рекламы товаров и услуг.

Речевая подпись в системах безопасности

Технология РП может широко построения таких систем показан на рис. 2.

Рис. 2. Пример системы идентификации и защиты от НСД

При регистрации на каждого пользователя заводится специальная карточка: регистрируемый произносит в микрофон парольное слово, фразу, которые можно затем прослушать и, в случае необходимости, еще раз перезаписать, используя программное обеспечение звукового редактора, поставляемое вместе со звуковой картой. После этого специальный алгоритм переводит звуковой файл с парольной фразой или словом в графический образ РП с последующим его печатанием на пластиковой карте, визитке, листе бумаги или другом носителе. Можно к РП добавить любые другие дополнительные данные.

При проверке полномочий предъявителя документа в пункте доступа охрана требует произнести парольную фразу (слово), которые содержатся в документе в виде РП. Затем происходит восстановление речевого сигнала с носителя РП посредством компьютерной обработки. При сравнении звучания и смысла произнесенной предъявителем и восстановленной из графического образа РП фразы принимается решение о допуске лица на охраняемый объект. Кроме того, имеется вариант автоматического (без участия охраны) сравнения произнесенной и синтезированной из РП парольных фраз.

Не верь глазам, а верь ушам своим

Основные преимущества использования технологии РП следующие:

в отличие от отпечатков пальцев (изображения лица) парольную фразу можно менять хоть каждый час, при сохранении всех характерных признаков голоса, интонации и смысла;
уникальность РП - слово, фраза произнесены именно этим голосом и имеют именно это смысловое значение;
не требуется какое-либо дорогостоящее оборудование - все необходимые технические средства имеются в любом офисе: компьютер со звуковой картой, принтер, сканер;
использование технологии РП совместно с другими, постоянными во времени, биометрическими признаками типа отпечатков пальцев позволит создавать системы защиты от НСД с очень высоким уровнем безопасности (99,99%);
стандарт представления РП в виде графического образа можно сделать "персональным" для внутреннего пользования в любой организации и компании.

Наклейки с РП на дверях, сейфах, системных блоках компьютеров и в других местах можно использовать как метки фиксации несанкционированного прохода, взлома, проникновения. С уверенностью можно сказать, что производство собственных меток-фиксаторов в виде РП на своей стандартной оргтехнике будет гораздо дешевле заказа на изготовление самоклеющихся голограмм.

В случае использования технологии РП в качестве дополнительного, наряду с другими (подпись ответственного лица, оригинальная печать организации, специальный тип бумаги, водяные знаки, голограммы и т. п.) элемента защиты документов от подделки общая степень защиты документа существенно повышается за счет привязки содержимого РП к содержимому самого документа. В этом заключается основное отличие и преимущество РП по сравнению с другими элементами защиты. При таком использовании технологии РП имеет смысл в речевой подписи указывать ключевые слова документа (например, сумму договора, срок его действия, ФИО ответственного и др.). Несоответствие содержимого РП содержимому документа, а также несовпадение голоса с голосом исполнительного лица, ответственного за подготовку документа, неузнаваемость являются признаком его подделки. Используя РП, можно изготовить защищенные "говорящие" платежные поручения, акцизные марки, гражданские паспорта, пропуска и т. п.

Существует методика создания документов, использующих в качестве защиты от подделки технологию РП. Она заключается в следующем. Каждому вновь создаваемому документу в целях защиты содержащейся в нем информации должна соответствовать своя, связанная только с ним РП. Для этого руководитель предприятия или разработчик документа выбирает такие парольные и ключевые слова, соответствующие информации в документе, утеря или искажение которых в контексте может привести к изменению смысла, значения всего документа. Озвучивание этих слов, с последующим их преобразованием в РП, осуществляется "голосом фирмы", выбору которого должно придаваться большое значение, поскольку голос человека, использующийся в качестве "голоса фирмы", должен быть хорошо известен всем сотрудникам предприятия и партнерам по бизнесу.

Послесловие

Технология РП предвещает появление новых алгоритмов обеспечения безопасности передачи речевых сообщений (работы [4,5]) в общедоступных каналах связи (факс, почта, телефон компьютерные сети и др). Новое представление речевой информации, по-видимому, даст импульс к разработке и исследованию пригодных для любого вида информации новых методов цифровой обработки изображений. Что же касается проблемы создания новых систем закрытия речевых сигналов, то ее решение будет базироваться как на использовании единого и уникального только для данной фирмы графического представления речевого сигнала (внутренний фирменный "стандарт" РП), так и на использовании дополнительных средств криптозащиты графических образов речи, сертифицированных ФАПСИ и ГТК России [6]. Уже сейчас эксперименты подтверждают возможность создания на основе технологии РП как новых типов высокостойких безсинхронизационных аналого-цифровых скремблеров [7], пригодных для работы в сильно зашумленных каналах связи, так и оригинальных алгоритмов сжатия речи с плавающей, в зависимости от условий канала, скоростью кодирования речевого потока, работающих в реальном масштабе времени на серийных процессорах без привлечения мощностей специализированных процессоров цифровой обработки сигналов типа TMS, ADSP и др. Более того, с помощью технологии РП можно создавать комбинированные средства закрытия речевых сигналов в каналах связи, в которых часть речевой информации закрывается аналого-цифровым скремблированием, а оставшаяся часть передается в этом же канале в цифровом виде. Такие средства закрытия речи будут обладать гарантированной стойкостью и очень высоким качеством восстановленного на приемном конце канала связи речевого сигнала.

В связи с бурным развитием систем компьютерной телефонии проблема распознавания речи становится все более актуальной [8]. Решение задачи масштабирования картинок РП, фактически нормировки слов [9], позволяет приступить к созданию теоретической и практической базы для поиска подхода к решению проблемы распознавания речи на основе подобия опорных точек изображений речевого сигнала, несущих одинаковую смысловую нагрузку. Здесь за основу могут быть взяты методы поиска подобных отпечатков пальцев, развитые в дактилоскопии. В свою очередь такая специфическая область знаний, как компьютерная фоноскопия [10], также может использовать достижения технологии РП в своих целях.

Литература

1. Барсуков В.С., Дворянкин С.В. Современные автоматизированные средства контроля доступа. // Монитор-Аспект. 1993, №2.

2. Плотников В.Н., Белинский А.В., Суханов В.А., Жигулевцев Ю.Н. Цифровые анализаторы спектра. - М., Радио и связь, 1990.

3. Дворянкин С.В. О технологии речевой подписи в системах охраны и безопасности. // Тезисы докладов VI Международной конференции "Информатизация правоохранительных систем". - М., Академия управления МВД России. 1997, ч.2.

4. Барсуков В.С., Дворянкин С.В., Шеремет И.А. Безопасность связи в каналах телекоммуникаций. - М., НИФ "Электронные знания", 1992.

5. Дворянкин С.В., Девочкин Д.В. Методы закрытия речевых сигналов в телефонных каналах. // Защита информации "Конфидент", 1995, №5.

6. Мещеряков В.А., Сергеев В.В. Сертифицированные Гостехкомиссией России системы защиты информации в пользовательских терминалах и локальных компьютерных сетях.// Системы безопасности связи и телекоммуникаций, 1996, №5.

7. Дворянкин С.В. Повышение уровня защищенности от НСД конфиденциальных речевых сообщений в стандартных системах речевой почты.// Тезисы докладов V Международной конференции "Информатизация правоохранительных систем". - М., Академия МВД России, 1996, ч.2.

8. Минаев В.А. Система DEX-VOX и неизвестные страницы компьютерной телефонии.// Открытые системы, 1996, №4 (18).

9. Дворянкин С.В. Нормировка слов в системах распознавания речи.// Тезисы докладов V Международной конференции "Информатизация правоохранительных органов". - М., Академия МВД России, 1996, ч.2.

10. Женило В.Р. Компьютерная фоноскопия. - М., Академия МВД России, 1995.

Сергей Дворянкин -- Национальный исследовательский ядерный университет «МИФИ», Владимир Минаев (minak@rosnou.ru) -- Российский новый университет (Москва).