Первые системы для видеоконференций с использованием аналоговых соединений появились в Германии в середине 80-х гг. Однако даже получившие распространение на рубеже 90-х гг. соединения ISDN с каналами на 64 кбит/с не стали оптимальным решением, поскольку для обеспечения высокого качества передачи требовалось объединить несколько дорогостоящих каналов ISDN. Лишь появление широкополосных технологий дало толчок активному развитию видеоконференций (см. Рисунок 1).

Широкополосные каналы передачи данных пользуются все большей популярностью, однако таких соединений по-прежнему еще недостаточно, особенно в сельской местности, ведь многие малые и средние предприятия, располагаясь в отдалении от городов, являются участниками современного глобального делового мира. Таким образом, борьбу за оптимизацию объемов данных при передаче видеосигналов необходимо вести сразу на двух фронтах: наряду с повышением емкости каналов передачи сокращать объем данных. Поскольку при высоком, а значит, более качественном разрешении (к примеру, HD) генерируются большие объемы данных, для производителей главным лозунгом становится сжатие.

Рисунок 1. Решения для «телеприсутствия» в формате Full HD позволяют встречаться лицом к лицу, находясь в разных офисах. Отраслевая ассоциация European Information, Communications and Consumer Electronics Technology Industry Association (EICTA) присваивает статус HD Ready 1080p, ранее известный как «полный HD» (Full HD), только тем устройствам, цифровой интерфейс которых позволяет достичь минимального разрешения в 1080 пикселей, что соответствует разрешению в 1080 строк и 1920 столбцов в формате 16:9. Кроме того, мониторы должны обеспечивать полноэкранное изображение с разрешением 1920х1080 пикселей, а сама «картинка» отображаться с точностью до пикселя. Это означает, что традиционные геометрические отклонения в крайних зонах экранов ЭЛТ совершенно недопустимы: так называемая переразвертка (Overscan) у мониторов с электро-лучевой трубкой требовалась для четкого ограничения изображения. Для получения статуса HD EICTA частота кадров должна составлять 50, 60 или 24 Гц. Статус «пригодный к HD» присваивается полноэкранным изображениям с расширением 1280х720 пикселей (720p). Для сравнения: традиционное телевизионное изображение стандарта PAL имеет разрешение, равное лишь 720х576 пикселей (см. Рисунок 2).

Рисунок 2. Сравнение размеров изображения — от классического телевизионного формата PAL до Full HD. Количество передаваемой информации об изображениях в случае HD существенно выше.

ВЫСОКОКАЧЕСТВЕННЫЕ ИЗОБРАЖЕНИЯ УРОВНЯ HD

Следует отметить, что, по крайней мере, в индустрии развлечений, порой злоупотребляют маркировкой HD. Это обозначение не является общепринятым или обязательным, и каких-либо специальных независимых организаций, занимающихся проверкой технических параметров, не существует. В качестве контролирующей инстанции выступают лишь тематические издания и пользователи. Внимательное изучение параметров предложенных систем в любом случае будет оправдано и в отношении решений для проведения видеоконференций.

Для того чтобы обеспечивать высокое качество изображения, необходимо предпринять некоторые технические усилия. Главная трудность заключается не в «производстве» изображений, а в обмене ими после оцифровки. Чаще всего кадрам с высоким разрешением не хватает доступной пропускной способности, предоставляемой провайдерами телекоммуникационных услуг. Если ранним системам HD требовалась пропускная способность в 5 Мбит/с, то сегодня для передачи видеоконференций с качеством уровня HD при 720p и 30 кадрах в сек достаточно 768 Кбит/с. По уровню восприятия это уже соответствует качеству DVD. Такие успехи в сфере сжатия данных стали возможны благодаря распространению сетей IP, а также разработке все более производительных кодеков, алгоритмы которых обеспечивают высокую степень компрессии данных без видимой потери качества и появления на изображении так называемых артефактов.

УСОВЕРШЕНСТВОВАННЫЕ КОДЕКИ ОБЕСПЕЧИВАЮТ ЛУЧШЕЕ КАЧЕСТВО

Первый процесс, выборка (Sampling), переводит аналоговые сигналы в цифровые, а информация об изображении в форме растра связывается с отдельными точками. Полученные таким образом файлы очень объемны: для их передачи без какого-либо сжатия потребовалась бы пропускная способность около 165 Мбит/с. Поэтому объем данных необходимо уменьшить. Применяемые механизмы сжатия, как правило, приводят к потерям: определенная часть информации об изображении просто удаляется так называемым кодеком — к примеру, известным MPEG-4 — в результате объем данных уменьшается, но остается еще достаточное количество информации для того, чтобы человеческий глаз в процессе взаимодействия с мозгом смог составить полноценное изображение.

При преобразовании кадров из аналоговых в цифровые их обработка осуществляется сегментированно. Первый кадр, именуемый также индексным изображением, передается полностью. В последующем передаются лишь изменения относительно индексного изображения. Если пользователь выбирает высокую степень сжатия, то уровень потерь повышается. Упомянутые ранее артефакты могут возникать, если передается недостаточное количество информации об изображении. Тогда отдельные сегменты прибывают к пользователю в неправильном порядке: пиксели появляются не на своем месте, изображение искажается и т.д.

В обозначениях кодека MPEG следует различать несколько подвидов. DivX — формат, часто используемый в потребительской сфере, однако для видеоконференций чаще применяется MPEG-4/AVC (Advanced Video Coding), известный также как ITU H.264 (доработка MPEG-4, пригодная для передачи по сетям). В отличие от стандарта H.262 (MPEG-2), эта технология обеспечивает сжатие, пригодное для форматов HD. По сравнению с другими подобными технологиями H.264 рассматривает блоки пикселей меньшего размера: всего 4х4 пикселя. В качестве базовых операций применяются сложение, вычитание и двоичное смещение, поскольку благодаря разделению на блоки меньшего размера сокращаются накладные расходы на их трансформацию. Однако сокращение объема данных в битах (до 50%) приводит к трехкратному увеличению потребности в вычислительных ресурсах. Тем не менее, этот кодек широко распространен: помимо решений для видеоконференций, этот формат используется в технологии Blu-Ray.

В H.264 применяется множество технических хитростей: так, расчет промежуточных пикселей для компенсации движения осуществляется с помощью фильтра с конечной импульсной характеристикой, известного как фильтр Transversal или Finite Impulse Response (FIR). Он предотвращает нестабильность сигнала или самостоятельные колебания и повышает резкость изображения. Благодаря таким технологиям, как «взвешенное» (Weighted Prediction), «внутреннее» (Intra Prediction) и «долго-срочное» (Long-Term Prediction) прогнозирование, можно рассчитать прогноз для изображения на основе предшествующих, окружающих или уже декодированных пикселей, поэтому потребуется декодировать только отличия. Существуют разные профили, но для видеокоммуникации в реальном времени, как правило, применяется базовый (Baseline) стандарт.

Помимо оптимизации механизмов сжатия в кодеках, качество передачи видеоизображений можно улучшить с помощью администрирования доступной пропускной способности. Так, в сетях IP приоритет для видео- и голосовой информации устанавливается с помощью технологий обеспечения качества сервиса (Quality of Service), однако проблема нехватки пропускной способнос-ти полностью при этом не решается. Производителям решений для видеоконференций постоянно приходится искать новые подходы для сокращения передаваемых объемов данных.

SIP ИДЕТ НА СМЕНУ H.323

Видеосоединения, а также необходимые для обмена данными договоренности и транспорт данных регулируются с помощью специальных протоколов, хорошо известных по IP-телефонии. Долгое время приоритет отдавался стандарту H.323, базирующемуся на протоколе ISDN Q.931 — иначе говоря, свое происхождение он ведет не из мира IP. Этот двоичный и до сих пор широко распространенный протокол обеспечивает высокую степень совместимости и пригоден, благодаря T.120, для всех мультимедийных приложений. В H.323 задаются всевозможные параметры передачи, к примеру, используемые кодеки. Базовая система состоит из трех стандартов: H.225, H.245 и H.235, — каждый из которых выполняет свои задачи.

H.225 формирует исходящий поток данных в соответствии с сетевым уровнем и отвечает за упаковку и сортировку пакетов данных. H.245 управляет сообщениями и действиями для открытия и закрытия каналов, по которым передаются аудио-, видео- и другие данные. H.235 обеспечивает аутентификацию. Так называемые устройства управления многосторонней связью (Multipoint Control Unit, MCU) позволяют осуществлять коммуникацию трех и более узлов H.323 между собой. Привратники (Gatekeeper) берут на себя функции шлюза между телефонной и IP-сетями, поддерживают сигнализацию, передачу данных и преобразование кода. Таким образом, H.323 охватывает все требуемые службы. Кроме того, начиная с третьей версии, H.323 может обращаться к невстроенным кодекам.

Тем не менее, в некоторых решениях для видеоконференций, выпускаемых, например, компаний Lifesize, функционально сравнимый протокол SIP все активнее вытесняет как H.323, так и H.320, разработанный для традиционных конференций ISDN. SIP позволяет создавать и управлять сеансами для двух или нескольких участников (при использовании MCU). Однако изначально стандарт разрабатывался для передачи с устройства на устройство.

Активное распространение SIP обусловлено несколькими весомыми причинами. Одна из них — высокий уровень защищенности, так как SIP может использовать и протокол Secure Socket Layer (SSL), и Transport Layer Security (TLS). Кроме того, SIP позволяет легко модифицировать уже организованные сеансы. И наконец, повсеместное применение просто реализуемого протокола в виде открытого стандарта является значительным преимуществом (по сравнению с H.323). Практические функции, к примеру, переадресация или удержание вызовов или передача профиля пользователя обеспечиваются с помощью интегрированных функций Custom Local Area Signaling Services (CLASS). При внедрении SIP в шлюзах самой большой трудностью долгое время был тот факт, что из-за использования транспортного протокола Real-time Transport Protocol (RTP) брандмауэры представляли собой трудно преодолимое препятствие: предоставление требуемых для RTP портов UDP осуществляется динамически, но большинство брандмауэров не в состоянии предоставлять динамически распределяемые порты. В этой ситуации на помощь приходят специальные протоколы, к примеру, Simple Traversal of UDP over NATs (STUN): запрос отправляется серверу STUN в сети Internet, а полученную информацию можно вставить в заголовок протокола. Другие варианты решения — использование шлюзов прикладного уровня (Application Layer Gateway, ALG), которые в данном контексте представляют собой встроенные в брандмауэр посредники SIP и переключают вызовы, а также разделение брандмауэра и ALG посредством протокола Middlebox Communications Protocol.

Помимо усовершенствования технологии видеоконференций, производители работают над улучшением взаимодействия своих продуктов с другими, к примеру, с офисными приложениями. Так, компания Lifesize предлагает решение для согласования времени разговоров через Microsoft Outlook. Стандарты наподобие H.239 обеспечивают совместное использование приложений (Application Sharing) или интерактивных досок (Whiteboards). Кроме того, ранее нестандартные системы сегодня взаимодействуют почти без проблем.

Андреас Винольд — директор по продажам в регионе EMEA компании Lifesize Communications.


© AWi Verlag


Победоносное шествие H.264

Видеокодек H.264 (усовершенствование MPEG-4 в расчете на передачу по сетям) организация ITU признала в качестве стандарта еще в 2003 г. Однако свое значение он приобрел лишь сейчас, в эпоху видеосистем с изображениями высокой четкости и с качеством HD, а также быстрых процессорных технологий для алгоритмов с высокими требованиями к вычислительным ресурсам. Возможности применения H.264 простираются от сетевых IP-камер и систем для видеоконференций вплоть до цифрового телевидения.

Курт Пфайлер

Рисунок 3. H.264 отличает высокая степень эффективности кодирования по сравнению с более старыми видеокодеками: такое же качество видео (ось Y) достигается уже при половине той пропускной способности (ось Х), которая потребовалась бы в случае применения кодека MPEG-2.