Обезьянка мне вынет счастье,
И пущу я его по ветру,
Не читая. А что с ним делать,
Раз кириллицей - мое счастье?

Ирина Ратушинская

Электронная почта
Web-страницы
Поиск на зарубежных серверах
Некоторые интересные адреса

В прошлый раз (см. "Мир ПК", 1998, #1, с. 52) я представила журнал Tip World и предложила вашему вниманию подборку советов из числа тех, которыми его сервер ежедневно наполняет мой электронный почтовый ящик. Нынешняя же порция рекомендаций - не из Tip World (небольшую подборку советов оттуда см. на с. 50).

Дело в том, что Tip World - американский журнал. Конечно, при том что большинство популярных программ русифицированы, а сеть Internet настолько всемирна, что даже вирусы у "нас" с "ними" стали одни и те же, это, как правило, несущественно, но нет правил без исключений. Скажем, около двух третей Web-страниц и конференций, рекомендуемых Tip World, представляют интерес только для жителей Соединенных Штатов, а многое из того, что могло бы заинтересовать нас (в частности, все русскоязычные страницы и конференции), не попадает в поле зрения авторов никогда. В этой "Стране советов" я сознательно делаю перекос в сторону отечественных проблем, а в дальнейшем постараюсь найти разумное сочетание "национального" с "общечеловеческим".

Электронная почта

Судя по тому, в каком виде приходит к нам в редакцию электронная корреспонденция, далеко не все пользователи e-mail умеют отправлять письма: мы часто получаем, во-первых, сообщения в "кривых" кодировках, а во-вторых, файлы WinWord (в разных вариантах). К сожалению, дать единую инструкцию о том, как правильно послать письмо в кириллице, невозможно: слишком уж много здесь разных ситуаций. Поэтому придется ограничиться советами и замечаниями общего характера.
  • По почте можно пересылать, во-первых, сообщения, а во-вторых, файлы в виде так называемых вложений (attachments). Файлы-вложения могут быть любого формата, а сообщения - только текстовыми. Овладение искусством электронной переписки следует начинать с освоения отправки текстовых сообщений, созданных в самой почтовой программе. Все остальное - и вставку в сообщение текстов, созданных во внешнем редакторе, и красивое оформление сообщений, возможность которого появилась в Netscape Communicator, и отправку вложений - лучше пробовать потом, после того как сделан этот первый шаг.
  • Вложения предназначены для пересылки нетекстовой информации: программ, изображений, документов, для которых существенно форматирование (скажем, разумно переслать в такой форме бланк). Посылку вложения обязательно следует предварительно согласовать с получателем: нужно убедиться, во-первых, что у получателя есть программные средства для работы с соответствующим форматом, во-вторых, что имеющаяся в его распоряжении линия способна "переварить" письмо такого объема (длинные файлы для пересылки часто необходимо разрезать на части).
  • Не следует посылать в виде вложения то, что содержательно является текстовым сообщением. Если вы, скажем, отправляете письмо непосредственно из MS Word, соблазнившись встроенной функцией отправки, то при этом вы:
    1. не можете быть уверены, что получатель вообще сумеет прочесть сообщение (MS Word, тем более Word 97 есть не у всех);
    2. отправляете по линиям связи раз в пять больше информации, чем необходимо;
    3. подвергаете себя опасности случайно разгласить нежелательную информацию - например содержание отвергнутой черновой версии документа или что-то, вообще не имеющее к нему отношения (в служебную область документа может попасть, скажем, фрагмент кэша Web-браузера, из которого будет видно, какие узлы вы посещали, - один такой документ я видела);
    4. с большой вероятностью обрекаете получателя на мучения со шрифтами (и в конце концов документ все равно будет выглядеть иначе, чем исходный);
    5. с чуть меньшей вероятностью выступаете в качестве разносчика макровирусов;
    6. лишаете получателя возможности работать с письмом при помощи стандартных средств почтовой программы: при ответе затруднено цитирование, при поиске по телу сообщений (если он есть) вложения игнорируются.
  • Существует несколько способов правильно оформить почтовое сообщение на русском языке. Традиционно письма пересылаются в кодировке КОИ-8, в которой их можно прочитать даже после механического "срезания" восьмого бита. Однако допустимы и другие кодировки - при том условии, что их название правильно указано в поле charset (например, письмо в кодировке Windows должно содержать в заголовке запись charset=Windows-1251). Ряд почтовых программ правильно интерпретируют письма в КОИ-8 и без указания charset= koi8-r, но лучше на это не полагаться.
Поле заголовка Content-Transfer-Encoding для простых текстовых сообщений обычно должно иметь значение 8bit, что соответствует передаче текста "как есть". В некоторых случаях он кодируется в формате Base64 или Quoted-Printable ; при этом значение поля должно быть тоже Base64 или Quoted-Printable.

Проследить за всем этим было бы не так уж сложно, если бы не то обстоятельство, что пользователь не может непосредственно управлять упомянутыми полями заголовка и ограничен в выборе кодировки. У многих провайдеров забота о кодировке возложена к тому же на сервер, так что пользователь должен оформлять свои письма в соответствии с требованиями не почтовых стандартов, а системы перекодирования, установленной на сервере.

В результате совет приобретает несколько странную форму: методом проб и ошибок настройте свою почтовую программу как-нибудь так, чтобы письма уходили в одном из допустимых стандартом видов. Дальнейшее будет сводиться к описанию этих самых проб и ошибок.

  • На первых порах, пока вы слабо разбираетесь в тонкостях работы почты, лучше довериться провайдеру и действовать в точности по его инструкциям: как правило, это гарантирует успех, а если что-то вдруг не заладится, вы имеете полное право требовать дополнительных разъяснений. Поменять же почтовую программу на "более мощную и совершенную" вы успеете и позже.
  • Первый эксперимент должен состоять в том, чтобы отправить самому себе тестовое сообщение - например русский алфавит. Наберите его во встроенном редакторе почтовой программы. Если алфавит дошел нормально, обменяйтесь тестами с кем-нибудь из знакомых, уже освоивших электронную почту.
  • Проверять поля заголовка имеет смысл только в том случае, если письмо пришло в искаженном виде: тогда их содержимое может пролить свет на природу ошибки. Вообще же перекодирование писем при передаче - обычное явление, и оно не должно вас смущать, коль скоро письмо остается корректно оформленным.
  • Если почтовая программа не показывает заголовок целиком, сохраните письмо как файл и просмотрите его в текстовом редакторе типа "Блокнота" Windows.
  • Письмо, которое не удается прочесть, можно попытаться перекодировать. Программ для этого немало, все они более или менее идентичны. Я пользуюсь своим собственным (написанным совместно с А. Сухановым) пакетом, который можно найти по адресу http://www.sch57.msk.ru/~alsu. Фирма "Агама" разработала для дешифровки искаженной почты интеллектуальную (использующую знания о русской лексике и грамматике) программу MailReader (http://russia.agama.com/mailreader). Правда, она работает только в Windows 95 и не является бесплатной (стоит, впрочем, недорого).

Web-страницы

  • Страница, на которой пользователю предлагается сменить кодировку, обязательно должна содержать хотя бы небольшой кусочек текста - иначе невозможно понять, есть ли необходимость в такой смене. Думаете, это очевидно каждому? Страница - целиком графическая выглядит одинаково во всех кодировках. Понятно, что строчка текста разрушила бы здесь всю красоту, но без нее ссылка на страницу, где можно сменить кодировку, теряет смысл. Лучше было сразу показать на первой странице весь список поддерживаемых кодировок либо, наоборот, вообще убрать оттуда упоминание о кодировках и перенести ссылку на следующие страницы, где уже есть текст.
  • В документе HTML можно указать на странице (в секции ) кодировку документа, чтобы браузер автоматически установил для него нужный набор символов. Соответствующая запись имеет вид:
Допустимые значения xxxx для кириллицы - WINDOWS-1251, KOI8-R и ISO-8859-5 (последнее, впрочем, вряд ли вас заинтересует - эта кодировка почти не применяется для русских текстов). Netscape Composer вставляет такую строку (с правильным значением charset) во все создаваемые документы.

Однако при разработке русскоязычных страниц названной возможностью пользоваться, как правило, не нужно. Причин тому две. Во-первых, на многих российских серверах применяется автоматическое (в том числе динамическое) перекодирование документов, при котором параметр charset не учитывается. В результате такой обработки кодировка документа окажется указанной неправильно, что хуже, чем если она не указана вообще. Во-вторых, протокол HTTP предусматривает передачу информации о кодировке документа в сообщении сервера, и если сервер это действительно делает, то указание в самом документе излишне.

Таким образом, заботиться о параметре charset имеет смысл, только если сервер ничего не перекодирует и не передает на клиентскую машину информацию о кодировке. Если же он перекодирует страницы, не меняя значения charset, необходимо позаботиться о том, чтобы этот параметр в документе указан не был.

Поиск на зарубежных серверах

Поисковые системы, ориентированные специально на Россию, такие как Rambler (http://www.rambler.ru) или Tela (http://tela.dux.ru), умеют отождествлять русские слова в разных кодировках и разных регистрах, а две системы - "Яndex" (http://www.yandex.ru) и "Апорт" (http://www.aport.ru), кроме того, ищут все формы запрошенных слов. Поэтому для поиска по русскоязычным страницам они удобнее, чем универсальные серверы.

Тем не менее опыт показывает, что, скажем, AltaVista не так уж редко "преподносит на блюдечке" ссылки, которых мы тщетно домогаемся от специализированных российских серверов. В чем тут дело, сказать трудно, поскольку число проиндексированных русскоязычных документов на "наших" серверах по идее чуть ли не на порядок больше, чем на AltaVista (я пользуюсь здесь подсчетами Ивана Паравозова - см. его статью "Поймай языка в искалке" в #4 "Планеты Интернет"; этот номер доступен в электронном виде на узле http://www.netplanet.ru). Но факт остается фактом, и из него следует практический вывод: поиск русских ссылок на заокеанских серверах - занятие более чем оправданное, хотя это и сложнее. Так что искать следует и "дома", и "на стороне".

  • Серверы AltaVista (http://www.altavista.digital.com), Excite (http://www.excite.com) и Infoseek (http://www.infoseek.com) "ищут по-русски", а HotBot (http://www.hotbot.com), Lycos (http://www.lycos.com) и DejaNews (http://www.dejanews.com) - не ищут: они не воспринимают в запросах символы с кодом, превышающим 128, и поэтому для поиска документов по фрагменту русского текста бесполезны. Но при этом с DejaNews вполне можно, например, отправить в конференцию сообщение, написанное на русском языке.
  • При работе с зарубежными серверами, не имеющими ничего против кириллицы, но и не вникающими глубоко в особенности русскоязычной части Internet, имеет смысл повторять запросы в разных кодировках: даже если страница хранится в нескольких вариантах, может случиться так, что на поисковом сервере окажется проиндексирован только один из них. Пути поисковых роботов неисповедимы, но принято считать, что можно ограничиться двумя самыми распространенными кодировками - КОИ-8 и Windows.
  • По запросу в кодировке Windows часто выдаются ссылки с образцами текста, в которые кое-где вкраплены странные буквы. Это кодировка Macintosh. Скорее всего, где-то рядом обнаружится ссылка на соответствующую страницу в кодировке Windows, но если ее нет, смело заходите на страницу в кодировке Macintosh: "на месте" вам почти наверняка удастся сменить кодировку на Windows или КОИ-8.
  • Если вы не возражаете против чтения транслитерированных русских текстов, попробуйте ввести интересующие вас слова еще и латиницей (при необходимости задайте несколько вариантов: на разных страницах используются разные схемы транслитерации). Для этого вида поиска "заокеанские" машины подходят лучше, поскольку транслитерированные русские страницы встречаются почти исключительно на зарубежных серверах.
  • Можно автоматически обработать свой запрос к зарубежному серверу, воспользовавшись интерфейсом "Яndex" для AltaVista (http://www.comptek.ru/alta.html) или метапоисковой системой "Следопыт" (http://www.medialingua.ru/www/wwwsearc.htm) - она умеет еще и переводить запросы.

Некоторые интересные адреса

  • Максимально достоверный прогноз погоды по СНГ и сопредельным странам (данные Гидрометцентра) предоставляет сервер http://meteo.infospace.ru. Многие услуги на нем платные, но к общему прогнозу (а для обычных целей его, как правило, хватает) это не относится. Чтобы получить прогноз, вы должны указать интересующее вас место на карте России. Если этот способ кажется вам громоздким, зайдите на узел http://meteo.demos.su и просмотрите прогноз Гидрометцентра для крупных городов в табличной форме.
  • Прочитать сводки новостей радио "Свобода" и послушать другие передачи в формате RealAudio можно по адресу http://www.svoboda.org.
  • На узле http://www.fido7.com собрана всевозможная информация о сети Fido вообще и Fido7 (т. е. части Fido на территории бывшего СССР), в частности: документация, часто задаваемые вопросы, словарь, список "смайликов", полезные программы и ссылки (в частности, на базу конференций Fido7). Отсюда же можно отправлять письма адресатам в Fido.
  • Современную российскую музыку (эстраду, рок) в формате RealAudio можно послушать по адресу http://www.music.ru. Все записи размещены на сервере с согласия авторов и исполнителей. Есть также тексты песен, концертная афиша, статьи и т. д., принимаются заказы на диски и кассеты (среди них неожиданно оказалась очень хорошая подборка записей Юлия Кима; он, кажется, единственный бард, представленный на этом сервере).
  • Всевозможная информация о научной и сказочной фантастике на русском языке собрана на сервере http://www.sf-f.ru. А по адресу http://intra.reksoft.ru/Biblio находится экспериментальная библиографическая база данных по той же тематике, объем которой быстро увеличивается, а также принимаются заказы на новые и готовящиеся к выпуску книги.
На этом разрешите распрощаться. Свои отзывы, замечания, вопросы и советы присылайте мне по адресу masu@osp.ru.
705