Увидеть звук

И он, сам не понимая как, начинает говорить все правильнее и правильнее.

В последнее время разработчики обучающих мультимедиа-программ активно "одомашнивают" известный научный метод исследования звука, в котором записанный сигнал (в том числе речь) преобразуется в графическую форму. И в медицине, и в криминалистике осциллограммы позволяют специалистам увидеть очень и очень многое. Так почему бы не включить программу визуализации речи в компьютерный учебник иностранного языка? График, построенный на экране, покажет малейшие оттенки вашего произношения. Слово не воробей -но тут вы, вопреки известной пословице, не только подержите своего воробышка в руках, но и пересчитаете все перышки на нем.

В московских магазинах можно купить уже по меньшей мере четыре домашних учебника, умеющих строить осциллограммы, причем сами авторы уверяют, что работать с ними совсем несложно. Что ж, посмотрим поближе на каждого из этих "домашних профессионалов".

"Мой говорящий словарь"

Начнем с небольшого (примерно на 4600 слов) симпатичного словарика для учащихся. Автор словаря - фирма "МикроМаг+" - известна также как разработчик обучающего компакт-диска "Привет, Америка!". Основой программы служит механизм контекстного поиска (по целому слову, части слова) как в англо-русском, так и в русско-английском режиме. Каждое слово озвучено и, по доброй традиции, может быть услышано не только в нормальном, но и в замедленном темпе. К словарю прилагаются упражнения: перевод написанного русского слова на английский язык, перевод услышанного английского слова на русский (аудирование), запись и прослушивание собственного голоса, визуальный контроль произношения. За перевод программа ставит оценки в журнале, а произношение ученик оценивает сам.

На запись произношения вам дается десять секунд - этого более чем достаточно. Чтобы начать запись, вы щелкаете мышью по красной кнопке над верхним графиком, произнесение слова укладывается в две-три секунды, после чего лучше самому отключить запись, щелкнув мышью по кнопке "стоп". Программа автоматически подгоняет полученный график под масштаб окна. Теперь сверху мы видим графический "портрет" произнесенного слова, а в нижнем окне - эталонный график, соответствующий дикторскому произношению.

Обратите внимание, что графики "Говорящего словаря" несимметричны относительно горизонтальной оси (рис. 1). Из всех рассмотренных здесь программ только "Говорящий словарь" представляет речь в ее естественном, необработанном виде. Авторы некоторых других тренажеров считают, что удобнее и приятнее работать с более "причесанными" графиками. Практически это дело вкуса; впрочем, мы еще вернемся к этому вопросу.

Одно замечание о характере словаря. Он сделан очень "по-деловому". Обычно словарь, даже мультимедийный, можно просто перелистывать, читая от нечего делать все словарные статьи подряд. Здесь это невозможно, доступ к материалу производится только через контекстный поиск. Если вам нужно конкретное слово, программа вмиг его найдет, если же нет - не стоит зря тратить время. "На свете много занятий поинтереснее, чем возня с компьютером", - как будто бы говорят нам авторы "Говорящего словаря". Обучающая система Talk to Me, к рассмотрению которой мы сейчас перейдем, настроена гораздо более "игриво".

Talk to Me и серия Aura-Lang

Серия обучающих программ Aura-Lang впервые была показана российскому потребителю на выставке SofТool-97. В то время на нашем рынке уже теснилось десятка полтора подобных продуктов как отечественной, так и зарубежной разработки. Диски Aura-Lang не потерялись среди них, выделяясь оригинальностью концепции (Есть еще одна обучающая программа, с которой также можно "поговорить" - это "Английский. Путь к совершенству" (Syracuse Language Systems - CompuLink). В неё заложены диалоги по шести темам. Программа переведена на русский язык и продается в торговом доме CompuLink по цене 83 у.е.) - как, впрочем, и довольно высокой ценой.

Занятия с Aura-Lang - это самый настоящий разговор с компьютером. Диск выглядит как воплощенная мечта всех лентяев на свете: вы "просто" садитесь за машину и "сразу" начинаете говорить на иностранном языке. На самом деле это, конечно, не так уж просто и не совсем сразу, но авторы постарались сделать урок динамичным, захватывающим. Электронный "учитель" обращается к вам через колонки или наушники, а вы отвечаете ему в микрофон. Правда, ответы не могут быть произвольными, их нужно брать из списка (рис. 2). Если машина понимает вас, то произнесенная реплика высвечивается зеленым цветом и разговор продолжается. Если же нет, вам приходится указывать свой выбор мышью на экране, и тогда вы на какое-то время попадаете в режим тренировки произношения этой реплики. Тут-то мы снова наблюдаем графики произношения в действии.

На рис. 3 показано окно тренировки произношения. Эталонный график расположен в верхнем окне, ученический - в нижнем. Графики имеют разный цвет, это значит, что программа считает произношение ученика неудовлетворительным. В нижней части экрана в ярком условном виде показана статистика успеваемости и размещены управляющие кнопки.

Графики заметно смещены по горизонтали друг относительно друга. К сожалению, так получается часто, потому что запись в этой программе включается и выключается автоматически. Диктор сказал свое слово, прозвучал гонг и - вперед! Нужен некоторый опыт, чтобы отвечать без задержки. На ответ дается всего четыре секунды, и этот параметр пользователем не регулируется. Как и во всех подобных программах, полученную фонограмму можно затем многократно прослушать, сравнивая с оригиналом. Но здесь появляется еще одна возможность - выделить часть графика и слушать только ее вместе с такой же частью эталона (рис. 4). Жаль только, что при этом нельзя синхронизировать записи, вручную меняя смещение графиков по горизонтальной оси. И часто выходит так, что в один и тот же интервал времени ученик произносит, например, еще только звук "а", а диктор - уже звук "б". Ясно, что сравнивать "а" с "б" - бессмысленное дело.

Эта программа, единственная из всех, выставляет оценку вашему произношению. Функции распознавания речи позволяют ей "слышать" или "не слышать" ваши реплики. Уровень чувствительности к ошибкам задается пользователем и меняется в пределах от 1 до 7. На самом низком уровне вы можете положить в рот большой кусок печенья и мычать в микрофон, следя только за интонацией -программа все равно вас поймет. На самом высоком уровне наша тестовая бригада, состоявшая из двух опытных демонстраторов и одного преподавателя, была посрамлена. В руководстве к Aura-Lang рекомендуется начинать занятия со среднего уровня, поскольку на низшем существует риск закрепить свое неправильное произношение.

При подготовке статьи мы рассматривали первый компакт-диск из серии Aura-Lang (английский язык), озаглавленный Talk to Me ("Говори со мной"). На нем записано шесть уроков. Сами по себе диалоги, составляющие каждый урок, не так уж велики - их проходишь "на одном дыхании". Но в режиме тренировки отдельных фраз видно, что общее количество лексических единиц в каждом уроке немалое - около сотни. Где же они используются? А дело, оказывается, в том, что диалог интеллектуален, реплики машины зависят от ваших и разговор способен принимать всевозможные обороты. С Talk to Me можно играть долго и весело. К примеру, компьютер спрашивает: "What do you look like?" ("Как ты выглядишь?"), ведь он-то железный, глаз не имеет и вас не видит. Вы отвечаете: "Like myself", по-русски это что-то вроде "Я похож на самого себя". Но если ваше произношение хромает, машина "услышит" совсем другое - что вы похожи на чудище ("Like a monster"). И тотчас же выразит вам свои соболезнования.

Кроме упражнений на произношение, в урок входит "письменная" работа: подбор антонимов, заполнение пустых мест в предложении, расстановка слов, диктант и традиционная "виселица". А еще программа отличается богатыми возможностями управления и настройки. Вы можете, например, своими глазами полюбоваться на уровень шума в помещении: он плещется, как вода, в нарисованном на экране стаканчике. Программа как будто говорит вам: вот, и в таких условиях приходится работать... Ну как тут удержаться, чтобы не хлопнуть в ладоши, не пощелкать по микрофону и не посмотреть, что из этого получится!

Итак, перед нами отличный диск - веселый, добротный и прямо-таки феерически красивый. Но нужно отметить, что по содержанию Talk to Me представляет собой не более чем разговорник. Это значит, что, пользуясь только этой программой, нельзя овладеть языком. Здесь нет ни грамматики, ни основ фонетики. Talk to Me не объяснит вам ни того, как строятся фразы, ни чем, собственно, отличаются звуки английского языка от звуков русского. Вы сможете только заучивать и копировать, приближаясь к эталону произношения методом проб и ошибок. Но если у вас уже есть начальная языковая подготовка, если вы одновременно занимаетесь в школе или на курсах - вот тогда Talk to Me окажет вам помощь. Как разговорник и тренажер эта программа выполнена на высшем уровне.

"Профессор Хиггинс"

В этом обучающем курсе идея власти над звуком реализована наиболее полно. "Хиггинс" - программа хорошо известная (см., например, "Мир ПК", № 9/96, с. 77), так что, наверное, нет смысла подробно говорить о ее структуре. Напомню только, что она распадается на два обучающих курса - грамматический и фонетический. Грамматический курс "Хиггинса" весьма объемный (130 уроков) и довольно традиционный; в нем прослеживается влияние известного учебника Реймонда Мерфи. Мы же рассмотрим фонетическую часть диска, особенно одно меню (рис. 5), в которое пользователи, даже опытные, заглядывают не всегда. Как видим, в программе предусмотрено не менее четырех разных способов визуализации речи. По умолчанию в программе установлена форма представления звука "двойной максимум", но ее можно заменить "двойным минимумом", "нормой" или механизмом "максимум+минимум". На рисунке приведены четыре немного различающиеся осциллограммы для одного и того же слова chemistry. С точки зрения обучения все четыре, строго говоря, равноценны. Но иногда в зависимости от установленной звуковой платы тот или иной вариант графика может выглядеть на экране лучше остальных.

Важны и некоторые другие управляющие параметры программы. Регулируется время записи (по умолчанию это шесть секунд, но его можно варьировать от пяти до двадцати секунд). Команды начала и конца записи подает сам пользователь. Есть возможность выровнять свою и эталонную осциллограммы, которой так не хватает в Talk to Me. Чтобы сверять графики было проще, на большинство образцов нанесена разметка, указывающая место каждой фонемы.

На диске "Профессор Хиггинс" графическое представление речи является не дополнительной функцией, как, например, в "Моем говорящем словаре", а основой фонетического курса. Тренировки начинаются "с азов", с отдельных звуков, затем изучаются буквы алфавита, характерные буквосочетания, потом можно перейти к словам (выбирается любое слово из программного словаря), фразам, диалогам, стихам, поговоркам и, наконец, скороговоркам - это уже высший пилотаж произношения. Последовательная подача материала позволяет сказать, что перед нами не разговорник, не словарь, а настоящий учебник фонетики. Он похож на традиционные учебники прошлых лет; в нем, например, есть жутковатые схемы, изображающие голову в разрезе, где показано положение зубов и языка при произнесении того или иного звука. Только в мультимедиа-варианте все это еще и движется. При всей своей неэстетичности (а по-другому не бывает - вот, например, в роскошном курсе Learn to Speak English эти схемы еще противнее!) они хорошо помогают тем, кто приступает к обучению самостоятельно. Достоинством диска я назвала бы и то, что он учит читать фонетические знаки. Ведь если вы всерьез вознамерились овладеть языком, то вам еще придется работать и со старыми учебниками, и с толстыми словарями, а там не обойтись без знания транскрипции.

Напомню, что на диске больше двух тысяч эталонных графиков. Фонетический курс содержит также упражнения на аудирование, когда нужно распознавать слова и фразы на слух - при этом опять-таки вы одновременно видите осциллограмму сказанного. В целом учебник фирмы "ИстраСофт" заметно уступает конкурентам по красоте оформления, зато выигрывает по содержанию.

"Профессор Хиггинс" имеет благородный кембриджский акцент, привнесенный преподавателем Биллом Шефардом, который озвучивал всю программу. Вообще-то во всех трех рассмотренных продуктах звук очень и очень неплох: действительно есть что послушать, чему подражать. Эффект от занятий с диском обычно проявляется раньше, чем осциллограмма становится "идеальной". Здесь, наверное, будет уместно напомнить общее правило работы с графиками произношения: старайтесь получить идеальный график, но не расстраивайтесь, если ничего не вышло! Урок не должен быть утомительным, а после него вы имеете полное право и отдохнуть, и повеселиться. Только посмотрите, как безотказно компьютер строит графики - какие бы слова и на каком бы языке вы ни говорили в микрофон!

Наконец, графики произношения встречаются еще в одном мультимедиа-учебнике, на этот раз польского производства - в EuroPlus+. К сожалению, на момент подготовки статьи программа EuroPlus+ не была доступна для подробного анализа, и мне приходится ограничиться лишь упоминанием о ней.

Графический метод: за и против

Сравнение осциллограмм считается спорным методом обучения. "Это хорошо для профессионалов, ученых-лингвистов, - сказал в интервью со мной Гэри Клинер, профессор университета Kennedy-Western, - а домашнему пользователю, желающему подготовиться к обучению в США*, мы рекомендуем программы с возможностью цифрового распознавания речи". (Речь шла о проекте дистанционного образования AJA (American Junior Academy), в котором участвует ряд колледжей, университетов, муниципальных и частных школ США. Не покидая свой родной город, школьники разных стран изучают предметы американской средней школы и получают подготовку, достаточную для поступления в американский университет. Обучение основано на "заочно-индивидуальном" принципе и активном использовании мультимедийных обучающих программ. Для языковой подготовки студентов в учебные планы AJA включены компьютерные учебники TriplePlayPlus! ("Английский в три приема"), Learn to Speak English ("Учись говорить по-английски"), а также сборник грамматических игр Grammar Games.)

Сторонники применения визуализованной речи стремятся упростить вид графиков произношения, сделать их доходчивыми и понятными. И... попадают под огонь критики уже с другой стороны. Можно ли доверять картинкам на экране, не слишком ли они условны? Действительно ли мы видим на них то, что произносим?

Как ни странно, последний вопрос вообще не имеет никакого смысла. Доподлинно до сих пор не выяснено, в каком виде речь достигает сознания человека. Известно, что первоначальная фильтрация звука, его разложение на частоты (почти как в компьютере!) производятся уже средним ухом. Известно также, что чувствительность слуха к разным частотам различна: в одних диапазонах человек слышит более тихие звуки (это относится к свистящим и шипящим согласным), в других - лучше различает изменения тона. Ничего этого графики произношения, разумеется, не показывают. Они отражают свойства самого звука, а не его восприятия нами. Иными словами, слух человека характеризуется своей мерой условности, графики - своей. Мы как бы получаем шестой, дополнительный, комплексный орган чувств.

Диапазон частот человеческой речи составляет приблизительно от 1-2 до 10 кГц. Понятно, что представлять эти частоты на графике в одном и том же масштабе невозможно. Чтобы честно отобразить спектрограмму речи на экране, пришлось бы строить трехмерный график с координатами "время", "амплитуда" и "частота". Можно, к примеру, отложить по оси абсцисс время, по оси ординат - частоту суммарного сигнала, а его амплитуду передать изменением цвета или яркости. Такие проекты существуют, но картинка получается слишком сложной и ничего не говорит неподготовленному пользователю.

Разработчики идут по иному пути, превращая трепещущие пики и впадины на осциллограммах в декоративные элементы. Каждый участок графика условно обозначает наличие некого диапазона частот, несущего определенную энергию. А основная полезная информация сосредоточена в огибающей, т. е. в контуре, "профиле" графика.

Впрочем, частота характеризует не столько произношение, сколько индивидуальный тембр голоса. А значит, действительно лучше не принимать ее в расчет!

Насколько же все-таки можно верить графикам? Рассмотрим это на практическом примере. Ведь нас, по большому счету, интересует только одно: в какой степени близость надиктованной учеником осциллограммы к эталону говорит о качестве его произношения? Полностью ли графический метод отвечает правилу "не навреди"? Может ли, например, слово, произнесенное с ошибкой, дать правильный график? Последнее возможно теоретически, но совершенно невероятно на практике. Графический метод "честнее" цифрового распознавания речи, когда машина легко может принять одно слово за другое. А впрочем, судите сами...

На рис. 6 показаны два графика, построенных программой "Профессор Хиггинс". Вверху Билл Шефард произносит английское слово tan (загар), а внизу ученик, не пытаясь ему подражать, просто говорит русское "тень". Для человека эти два слова звучат совершенно по-разному, а вот системы распознавания речи легко путают их. Что же касается графиков, то они довольно близки, однако заметны и различия между ними. Ясно видно характерное смягчение русского "н", а также то, что английское "n" звучит громче и звонче. Не совпадают контуры гласного в середине слова. "Т" и "t" тоже выглядят по-разному: это объясняется тем, что русский при произнесении этого звука держит язык у зубов, а англичанин - у альвеол. Таким образом, при восприятии речи на слух мы были более склонны к эмоциональной оценке (не похоже!!!), а при изучении графика видим те места, в которых сделаны ошибки.

Перейдя от отдельных слов к фразам подлиннее (рис. 7), мы замечаем, что графики прекрасно отражают важнейшую характеристику речи - ритм. На кривых хорошо различимы ударения, паузы, все чересчур растянутые или, напротив, "проглоченные" звуки.

Но нельзя не отметить и другое. Легкое несовпадение осциллограмм не обязательно означает ошибку. Сами эталоны могут быть разными, и каждый диктор всегда говорит немножко по-своему. Отсюда следует, что получение идеальной кривой - не самоцель. Работа с графиками эффективно сочетается с другими упражнениями, и, конечно, ее результативность намного выше при условии параллельной оценки речи на слух.

Окончательный вердикт о графическом методе обучения должен вынести пользователь. Можно предположить, что метод больше подходит людям с техническим образованием и аналитическим складом ума. Скорее совершенствующимся, чем начинающим. Скорее взрослым, чем детям. Впрочем, исключения возможны из любых правил...

По моим наблюдениям, к тренировкам не следует относиться слишком педантично - особенно на первых стадиях обучения, когда ваш "прононс" еще далек от совершенства. Не нужно пытаться "переупрямить" компьютер, добиваясь совпадения осциллограммы "сегодня и во что бы то ни стало". Как и любой тренажер, компьютерный фонетический курс рассчитан на регулярные, но не слишком утомительные занятия. Графики - тонкий инструмент, и работать с ними можно очень долго.

При этом, даже добившись отличного произношения, вы, скорее всего, будете говорить не совсем так, как Билл Шефард. Хотя не исключено и то, что партнеры-англичане заметят в вашей речи легкий кембриджский акцент. Ведь не случайно известный герой, особенно любимый российскими разработчиками обучающих программ, говаривал, что может по оттенкам произношения определить место рождения человека с точностью до шести миль, а в Лондоне - до двух... n

Мой говорящий словарь

Языки: английский (американский вариант), немецкий

Поставляется на компакт-диске

Системные требования: 386; 4 Мбайт ОЗУ, 1 Мбайт памяти на жестком диске; SVGA; звуковая плата; внешний микрофон, колонки или наушники; Windows 3.1 или 95

"МикроМаг+", тел.: (095) 962-15-46, http://www.dol.ru/users/ilmmag/, e-mail: serg@micromag.msk.su

Aura-Lang

Языки: английский (британский и американский варианты), французский, немецкий, испанский

Поставляется на компакт-дисках

Системные требования: 486DX, SVGA, 16-разрядная звуковая плата; 8 Мбайт ОЗУ и 20 Мбайт свободного места на жестком диске; внешний микрофон, колонки или наушники, Windows 3.1 или 95.

Цены в торговом доме MultiSoft для персональных версий:

Talk to Me (начальный уровень) - 40 долл.

Aura-Lang, "классическая коллекция" (диски для начинающих, продолжающих обучение и для совершенствующихся в языке) - по 160 долл.

Aura-Lang, "бизнес-коллекция" (темы - "экспорт/международная торговля" и "туризм/продажи") - по 260 долл.

Auralog, http://www.auralog.com

Представитель в России: MultiSoft, тел.: (095) 176-75-93, http://www.multisoft.ru

Профессор Хиггинс. Английский без акцента (Фонетика + грамматика)

Язык: английский (британский вариант)

Поставляется на компакт-диске

Системные требования: 386DX, SVGA, звуковая плата, совместимая с Sound Blaster; внешний микрофон, колонки или наушники; Windows 95 или NT

Цена: 35 долл. в НПП "БИТ про"

"ИстраСофт", тел.: (095) 158-47-02, http://www.istrasoft.ru

Хорошее произношение и хорошая запись

Важно заметить, что необходимо различать качество записи звука на диск и качество самого звука. Представьте себе, например, что некий гипотетический мультимедиа-курс английского озвучивал не преподаватель, не актер и не диктор, а, допустим, случайно попавший в Россию американский студент китайского (турецкого, африканского и т. д.) происхождения. Он говорит невыразительно, нечетко, с акцентом, не характерным ни для американского, ни для британского варианта английского языка. Поможет ли в этом случае увеличение частоты оцифровки при записи? Нет, ошибки диктора станут только заметнее. Вы навредите себе, если станете учиться по такому диску: акцент прилипнет к вам, и избавиться от него будет сложно.

Возьмем теперь обратную ситуацию: пусть голос носителя языка, отличного диктора, воспроизводится плохо, грубо, с шумами и искажениями. Сильно ли это мешает занятиям? Как ни странно, не очень. Конечно, работать с полустертой записью неприятно, утомление наступает быстрее - но и только. Непостижимым образом человеческий слух извлекает полезную информацию даже из самой скверной фонограммы - лишь бы на ней был записан живой человеческий голос. Именно поэтому ни один мультимедиа-учебник не использует при обучении иностранным языкам компьютерный синтез речи. Осмелюсь утверждать, что этого и не случится ни в каком обозримом будущем.

Но привлекательнее всех, конечно же, третий вариант - голос отличного диктора, записанный с хорошим качеством. Вот как раз это мы и видим, точнее, слышим, в рассмотренных здесь программах.