Алгоритм gZip поможет сберечь полосу пропускания
Использование в протоколе НТТР 1.1. сжатия с помощью алгоритма gZip позволяет добиться увеличения скорости передачи пользователю сгенерированных страниц. По моим наблюдениям, благодаря этой возможности объем передаваемых по сети данных можно уменьшить в 10 раз, тем самым сокращая время ожидания. Не во всех версиях IIS имеет встроенную поддержку компрессии по алгоритму gZip (http://support.microsoft.com/ search/preview.aspx?scid=kb;en-us;Q304202), позволяющую сжимать не только статические, но и динамически сформированные страницы.

Вопросы конфигурирования и использования встроенной в IIS компрессии обсуждались на многих форумах, и я пришел к выводу, что настройка данной возможности IIS — занятие не для начинающих. Можно ли произвести сжатие не встроенными средствами IIS? После поиска в Internet я нашел пару компаний, разрабатывающих ISAPI-фильтры, которые позволяют сжимать данные в обход стандартных методов IIS. При дальнейшем изучении продуктов этих компаний оказалось, что они дорого стоят и сложно конфигурируются. Что же делать начинающему Web-мастеру, работающему с IIS? Попробуем выполнить компрессию своими руками.

Конечно, метод, который предлагается ниже, не претендует на звание самого эффективного и вряд ли его стоит применять на сайтах, которые обслуживают в день сотни тысяч клиентов. Однако для небольших компаний, не сильно загруженных сайтов и внутренних приложений в сети компании он годится. Мы использовали его для приложений и проверяли на клиентах, подключенных на скорости 9600 бод. В качестве клиентской программы использовались браузеры IE старше версии 5.0, а также Netscape Navigator 4.72.

Для написания кода нам понадобится только один «внешний» компонент: стандартный gZip, переписанный с сайта www.gzip.org (http://www.gzip.org/gzip124xN.zip). GZip.exe можно переписать в один из системных каталогов (я записал его в winnt), чтобы его было удобно вызывать. Все остальные объекты, которые мы будем использовать, разработаны компанией Microsoft.

Для начала проведем маленький эксперимент — попробуем создать в корневом каталоге IIS (по умолчанию это c:inetpubwwwroot) каталог test, затем войдем в консоль Internet Information Services и создадим для каталога test-приложение (см. Экран 1).

Экран 1. Назначение каталогу приложения.

Поместим в созданный каталог файл test.html со следующим содержанием:



Test


1234567890
1234567890
1234567890
1234567890
1234567890

Вызовем оболочку MS-DOS, перейдем в каталог, в который мы записали test.html, и сожмем его с помощью gZip.

gzip.exe -c -n -a -9 test.html > test.gz

Получим сжатый файл test.gz. Можно сравнить размеры двух файлов — исходный файл test.html занимал у меня на диске 304 байт, после компрессии test.gz стал занимать 85 байт. Уменьшение почти в три с половиной раза!!! В продолжение эксперимента создадим в том же каталоге страничку test.asp (см. Листинг 1).

Если все сделано правильно, то вызов http://localhost/test/test.html и http://localhost/test/test.asp выдаст в окне браузера одну и ту же страницу. Разница только в том, что при вызове http://localhost/test/test.asp количество информации, переданной от сервера к клиенту почти вдвое меньше.

В коде, размещенном в файле test.asp, упоминается объект ADODB.Stream, который используется для чтения с диска сжатого файла test.gz. Подробнее об этом объекте можно прочесть на сайте Microsoft по адресу: http://support.microsoft.com/default.aspx?scid=kb;en-us;Q276488.

Теперь реализуем более полную версию программы сжатия для asp-страниц. В первую очередь нужно позаботиться о том, чтобы можно было вызывать из ASP компонент WScript.Shell и выполнять с его помощью вызов gZip. Для этого c помощью приложения Computer Management необходимо создать учетную запись для нового пользователя, которую затем указать в консоли Internet Information Services как учетную запись анонимного пользователя, на закладке Directory Security для нашего приложения, созданного в IIS (см. Экран 2).

Экран 2. Новая учетная запись для анонимного пользователя.

Теперь переходим непосредственно к программированию. Необходимо позаботиться о том, чтобы генерируемая для пользователя страница не сразу передавалась клиенту, а кэшировалась в файле на сервере для дальнейшего сжатия. Создаем на нашем сервере файл output.inc, содержимое которого представлено в Листинге 2. В принципе, код довольно прост, но все-таки хочется пояснить, для чего нам понадобились подобные функции и подпрограмма. Функция CreateTempFile предназначена для создания пустого временного файла, в который мы направим весь поток формируемых для клиента данных. Эта функция возвращает имя созданного файла. Если браузер клиента не умеет работать с gZip-компрессией, возвращается пустое значение. Это означает, что генерируемые данные нужно отправлять клиенту без сжатия. Подпрограмма Write осуществляет запись строки данных str в файл с именем filename или передает строку данных клиенту, если filename содержит пустую строку. Когда страница будет готова, необходимо вызвать функцию Compress — она сжимает исходный файл, содержащий сгенерированную страницу. Функция Send завершает вывод информации клиенту — она непосредственно передает клиенту полученный в результате сжатия файл. Можно приступить к испытаниям программы сжатия. Создаем новый файл test1.asp (см. Листинг 3).

Текст этого файла специально написан так, чтобы мы получили выходной файл большого размера. Загружаем в браузере написанный test1.asp. Кажется, ничего особенного не происходит — мы видим обычную таблицу длиной 2000 строк (см. Экран 3).

Экран 3. Результат работы test1.asp.

Временно закомментируем в файле test1.asp две строчки

call DeleteFiles(file&».txt») 
call DeleteFiles(file&».gz»)

И еще раз вызовем в браузере страницу test1.asp. В нашем каталоге на сервере появилось два новых файла, причем файл с расширением gz значительно меньше файла txt (у меня исходный файл имел размер 217 Кбайт, а сжатый — 17 Кбайт, почти в 13 раз меньше). Именно этот маленький файл и отправляется клиенту при запросе страницы test1.asp. Интересно содержимое полученного файла с расширением txt. Если открыть его, мы увидим, что, хотя был написан хорошо размеченный текст test1.asp, в полученном файле txt нет лишних пробелов, символов табуляции, переводов строк и т. д. Конечно, все это помогает разработчику ориентироваться в структуре HTML-документа, однако совершенно не нужно для браузера, который прекрасно разбирает даже написанный в одну строку код HTML. Такой побочный эффект от использования нашей программы компрессии позволяет дополнительно уменьшить объем передаваемой информации. Теперь можно попробовать подключиться к нашему серверу с помощью модема и вызвать test1.asp с удаленного компьютера.

Каковы плюсы и минусы описанного выше метода? Выигрыш в размере предаваемой информации — это плюс. Однако нам пришлось выполнить лишние операции на сервере с жестким диском и использовать лишнее процессорное время — это минус. Конечно, диск — относительно медленное устройство, но следует помнить, что модем пользователя — устройство еще более медленное, и часто время, потраченное на передачу несжатого документа, намного больше, чем время, необходимое для сжатия.

Приведенная схема — это только набросок, ее можно развить, добавив отслеживание актуальности страницы, что позволит избежать повторного создания и сжатия страниц. К примеру, если сайт, который мы разрабатываем, не содержит динамически изменяемых данных (например, если он представляет собой сборник статей, каждая из которых будет содержаться в обычном HTML-файле), то можно использовать метод оптимизации, основанный на нашей методике. После создания статической страницы ее можно сжать с помощью gZip, а полученный сжатый файл передавать клиентам сайта вместо первичных данных. Нам только придется позаботиться о том, чтобы в случае внесения изменений в исходную информацию происходило автоматическое обновление соответствующего сжатого файла. Попробуем решить эту задачу. Допишем в наш output.inc следующую функцию (см. Листинг 4).

Данная функция предназначена для сравнения даты последней модификации двух файлов, имена которых передаются в качестве параметров. Одним из этих файлов будет файл с исходной информацией (имя файла — первый параметр функции), а вторым — сжатый файл (имя файла — второй параметр функции). В том случае, если исходный файл более новый или если сжатый файл имеет нулевую длину (например, его просто нет на диске), функция возвращает значение 1.

Попробуем написать «самосжимающуюся» статическую страницу. Страницу test1.asp нужно переделать в test2.asp так, как показано в Листинге 5.

Из комментариев, которые вставлены в текст этой страницы, становится ясно, как происходит «самосжимание». К сожалению, написанная страница отслеживает только собственную актуальность, и этот код пригоден лишь для сжатия «статических» страниц. Если же используются динамически изменяемые данные, например при формировании прайс-листа или форума, придется вместо функции CompareModifyDate написать функцию, которая будет проверять необходимость обновления архивного файла, основываясь на данных, предназначенных для вывода на экран.

АНДРЕЙ НИДЕНС — заместитель директора департамента информатики в Объединенном Грузинском банке. С ним можно связаться по адресу: root@ugb.com.ge

Поделитесь материалом с коллегами и друзьями