Некоторые количественные оценки
Как анализировать содержание Internet?
Какая информация представлена в российском Internet?
Языки российского Internet
Бизнес и Internet
Большой бизнес
Государство и Internet
Кто и чем интересуется в российском Internet?

В прессе часто можно встретить утверждения о том, что российского Internet не существует. Даже на пресс-конференции, открывавшей выставку Internet/intranet 96 была высказана та же мысль. Я намерен отстаивать противоположное мнение: Internet в России не только существует, но давно уже вырос из ползунков и на глазах взрослеет. Такой вывод вытекает из анализа данных, полученных при помощи "Русской Машины Поиска" (http://search.interrussia.com), которая специально ориентирована на сбор информации о российском секторе Сети.

Некоторые количественные оценки

Internet, как известно, никому не принадлежит, более того, не имеет единого центра управления. Поэтому на простой вопрос - сколько на самом деле компьютеров в России перманентно подключено в Сеть? - ответа нет. Судите сами: согласно данным RUSnet N/W (http://www.neva.ru), при непосредственном обращении на запрос по HTTP-протоколу отвечает около двух тысяч серверов. Из них около 700 не только отвечают, но и открыты для внешнего доступа. Именно эти машины обычно и имеются в виду при разговоре о российском Internet. Что представляют собой оставшиеся 1200 серверов? Очевидно, это ворота в Сеть со стороны каких-то локальных сетей или того, что сейчас именуется модным словом intranet. Сколько реально машин находится за этими воротами - вопрос открытый. Существуют в российском секторе и такие серверы, которые отключаются либо на ночь, либо днем. Вместе с тем число зарегистрированных активных пользователей, имеющих постоянный IP-адрес, составляет 43 085. Все они, скорее всего, имеют приличный канал связи и соответствующее аппаратно-программное окружение.

Сколько пользователей связываются с Internet через модем, неизвестно никому - в большинстве случаев любой клиент провайдера, оплачивающий свои счета, может сообщить соответствующие имя и пароль друзьям, которые также получат доступ к Сети. Таким образом, суммарное число зарегистрированных у всех провайдеров пользователей "дозвонки" - это нижний предел оценки общего количества участников Internet. Обычно эти данные - коммерческая информация, и провайдеры не заинтересованы в их публикации. Одного этого уже достаточно, чтобы почувствовать: чем больше углубляешься, тем более сомнительными кажутся цифры, обозначающие количество серверов и подсетей в российском секторе Internet, куда автоматом относят и субъектов из стран бывшего Советского Союза - большинство из них по-прежнему имеет имя "xxxxxx.su" и подключены к российским провайдерам.

В дальнейшем российским Internet будем называть те самые 700 открытых для внешнего доступа серверов. Однако это число постоянно растет, и к моменту выхода статьи реально их может оказаться примерно на 10% больше.

Географически российский Internet локализован в двух столицах и европейской части страны. Активная работа провайдеров, региональная направленность программы Дж. Сороса и концентрация крупного бизнеса на севере России и в Сибири создают предпосылки для скорой "интернетизации" и этих регионов. Некоторая часть российских, по характеру представляемой информации и фактической принадлежности, узлов зарегистрировано непосредственно в InterNIC и имеет имя "xxxxxxx.com". Все известные нам подобные узлы также попадают в рассматриваемый список.

Как анализировать содержание Internet?

Никаких автоматических способов анализа подобного рода текстовой информации мне не известно, поэтому был разработан метод, который при всех своих недостатках, позволяет получать достаточно неплохие оценочные данные.

Суть его в том, что создается список ключевых слов, однозначно относящихся к той или иной области. Например, "модем", "Java" и "операционная система" ассоциируются с разделом "Компьютеры и Internet". В то же время слово "Java" для анализа непригодно - российский сектор Internet нужно рассматривать на двух языках и поэтому необходимо подбирать соответствующие пары на русском и английском. Ключевых слов должно быть достаточно много, чтобы они составляли репрезентативную выборку по данной теме. Самих рубрик тоже требуется немало: по оценкам, сделанным на основе анализа рубрикатора Yahoo, 8-12 различных рубрик для классификации современного российского Internet достаточно. Однако ясно, что создание рубрикатора и репрезентативного набора ключевых слов является нетривиальной задачей, а проблема разработки действительно хорошего рубрикатора и подсистемы автоматической рубрикации HTML-документов по-прежнему остается весьма актуальной.

На следующем этапе необходимо провести анализ частоты повторения всех ключевых слов на разных машинах поиска. Во время этого процесса на Yahoo обнаружилась скрытая ошибка, и эту машину из анализа пришлось исключить. Для сравнения были выбраны Alta Vista и LYCOS, как наиболее распространенные по всему Internet, анализ российского сектора Сети проводился с помощью "Русской Машины Поиска".

Какая информация представлена в российском Internet?

Очагами роста Internet как в России, так и во всем мире были университеты и институты Академии Наук. На начальных стадиях в Сети преобладала научная информация, а со временем начинают доминировать бизнес, компьютеры и информация об Internet, как таковом. В результате информационный состав Сети можно считать показательным критерием ее развития. Вплоть до недавнего времени в российском секторе Internet была в основном представлена научная и культурологическая информация, однако за последний год положение изменилось. Сегодня в российском секторе Сети имеется все, что есть в остальной его части и процентное соотношение различного рода информации уже почти сопоставимо с Internet в целом. Появились чисто развлекательные узлы, на которые интересно посмотреть даже совершенно неподготовленному пользователю, узлы одиночек-любителей, информационные узлы, узлы отдельных фирм. Мода, радиостанции, музеи, города, художники также оказались сегодня широко представленными в Internet. Само по себе это является признаком взросления. В то же время доля культурологической информации остается выше "среднеинтернетовской".

Это вполне соответствует отечественному менталитету в лучших его проявлениях и, возможно, станет одним из отличительных особенностей нашего Internet от остальной его части.

Языки российского Internet

Ясно, что Сеть - англоязычная среда. Так же, как и то, что основным стимулом для вхождения в нее является возможность представить свою информацию для потенциального западного инвестора, партнера и т. д. Тем не менее в российском секторе Internet информации на русском языке почти в два раза больше, чем на английском. Основная причина в недостаточном владении английским языком как поставщиков, так и потребителей информации. Учитывая, что с развитием Сети, образовательный ценз его пользователей будет только снижаться, преобладание русского языка станет еще более значительным. При всем этом можно предположить, что русскоязычному Internet ближайшее будущее практически обеспечено. В нашем секторе можно найти странички на языках многих народов России. Правда, без соответствующих шрифтов, при первой загрузке, естественно, вместо текста видишь полную ерунду, но в углу есть кнопочка, которая позволяет получить, например, татарские шрифты, и читайте на здоровье!

Бизнес и Internet

В любой части Internet значительную часть информации составляют бизнес и данные, непосредственно с ним связанные. В основном эта информация находится в рубриках "Бизнес и экономика", "Компьютеры и Internet", а также в некоторых других и занимает не менее половины всего объема. В российском секторе Сети эта доля около 55% - что вполне соответствует общемировым нормам. Соотношение различных видов бизнеса в российском Internet, равно как и изменение этого показателя вполне укладывается в априорные предположения. Лучше всего представлен компьютерный и информационный бизнес. Создаются туристические фирмы, начали появляться гостиницы. Развивается реклама, но пока ее тематика ограничена перечисленными видами бизнеса. Кроме того, существует собственно "интернетовский" бизнес. Под этим подразумевается не провайдинг и не создание узлов на заказ - существование таких видов бизнеса понятно, и без них Сеть сегодня уже немыслима. В российском секторе Internet имеется бизнес, который целиком осуществляется в Сети: заказ услуг и продуктов. Правда, этот бизнес пока еще связан с собственными нуждами Internet и, в основном, представляет собой заказной художественный дизайн. В будущем можно ожидать появление консалтинговых фирм, для которых Сеть станет наиболее удобной формой для ведения дела.

Большой бизнес

В российском секторе Internet практически отсутствует большой бизнес (биржи, нефтяные компании, крупные производители и т. д.). И это тем более удивительно, ведь чем крупнее российский бизнес, тем он сильнее нуждается в инвестициях, а Сеть - самое современное, оперативное, престижное, широковещательное, мультимедийное, подробное, диалоговое и т. п. средство массовой информации, а следовательно, средство привлечения внимания потенциальных инвесторов. Интерес к intranet, по понятным причинам, проявляют многие крупные компании. Можно надеяться, что эта дорога и приведет их в Internet. Освоение Сети большим бизнесом России, очевидно, будет происходить в массовом порядке, и, как обычно, впопыхах понаделают немало глупостей. Сегодня редко кто представляет как должен быть представлен в Internet тот или иной бизнес, и у большинства необходимая для этого деятельность ассоциируется с арендой пространства на диске и версткой HTML-страниц.

Характер распределения российских банков в Сети свидетельствует о том, что она воспринимается ими, скорее, как не очень обременительная модная обязанность, нежели как новый рынок бизнеса. Причины подобного отношения наверняка кроются в отечественной финансовой системе.

Наиболее быстро развивающейся частью Internet на Западе является банковское обслуживание и электронная коммерция. В российском секторе этих услуг нет вовсе, и надежда на скорое решение подобных проблем практически отсутствует. В то же время активная деятельность банков в Сети могла бы значительно стимулировать все аспекты развития российского сектора Internet.

Государство и Internet

Если вы обратитесь на сервер Белого Дома в Америке, то услышите соответствующее времени суток приветствие. А вот количество российских правительственных учреждений, представленных в Сети, свидетельствует о полном безразличии нашего государства к отечественному сектору Internet. Это тем более обидно, если помнить о существовании связки Internet - А. Гор - Б. Клинтон и о том, сколько тратит денег и уделяет внимания Белый Дом Internet и развитию информационных технологий. Честное слово, пора научиться анализировать чужие ошибки и успехи.

Кто и чем интересуется в российском Internet?

Проанализировать информационный спрос в Internet можно с помощью Машины Поиска - каждый пользователь сам вводит ключевое слово для поиска, а список этих слов можно накапливать. Существуют определенные трудности, связанные с тем, что многие ключевые слова не поддаются классификации, так, например, по слову "журнал" пользователь может искать бизнес-информацию, новинки моды, порнографию, искусство, архитектуру и пр. Кстати, о сексе. Широко распространенное в прессе мнение о засилии на Internet порнографической информации является самой что ни на есть ложью. В российском секторе подобные данные занимают не более 1%, а количество запросов на Машине Поиска по этому поводу около 20% - спрос превышает предложение почти в 10 раз, а Internet получается гораздо целомудреннее нашего общества.

Неожиданным оказалось и распределение запросов по странам: 30% СНГ, 30% США, 40% все остальные страны. Интерес иностранцев к нашей стране чрезвычайно велик. Правда, тут нужна поправка на соотношение общего числа пользователей в нашей стране и за рубежом. Кроме того, анализируя язык, на котором производятся запросы, можно получить дополнительную информацию. Около 70% запросов происходит на русском языке. Учитывая, что иностранцы практически не владеют русским языком, можно предположить, что значительную часть пользователей из-за рубежа составляют наши бывшие соотечественники и граждане России, находящиеся за ее пределами. В то же время встречаются запросы, явно набранные с помощью словаря. В последнем случае вызывает интерес только одно: что намерен делать автор с полученным русским текстом?

Анализируя количество запросов по фамилиям политических деятелей, можно сделать вывод, что пользователи Сети представляют собой нерепрезентативную выборку населения нашей страны. Как известно, по итогам президентских выборов, М. Горбачев получил гораздо меньше голосов, нежели В. Жириновский, а по количеству запросов на Машине Поиска - они имеют одинаковый рейтинг как среди иностранных, так и среди российских пользователей. По мере развития Internet в нашей стране репрезентативность и достоверность получаемых на Машине Поиска результатов будет только возрастать, а оперативность этого способа бесспорна: можно будет отслеживать последствия отдельных политических событий.

Некоторые данные получены на Машине Поиска после регистрации серверов на индексацию. Основная часть этой информации интересна только специалистам, но тем не менее абсолютное большинство серверов создано на IBM-совместимых компьютерах, на многих из них используется HTTP-демон Apachi, установлена ОС Unix и почти половина серверов поддерживает более одного узла.


Варлам Кешелава - главный специалист компании RusInfOil, с ним можно связаться по e-mail: kesha@interrussia.com

"Русская Машина Поиска", которая работает на узле search.interrussia.com, предлагает искать нужный документ по самым разным критериям. Форма запроса настраивается по многим параметрам. Во-первых, есть возможность искать нужную строку в документах всех основных кодировок. Это важная особенность, но при этом самостоятельное переключение кодировок для ввода информации представляется не слишком удобным. Выигрышнее смотрится, конечно, другой вариант - чтобы при выборе кодировки сервер сам перекодировал запрос.

Искать можно по категориям: в заголовке, в документе и т. д. Можно настроить чувствительность к регистру. Машина поддерживает не только булевы операторы AND и OR, но и шаблоны : "*", "^", "$" (начало и конец строки, соответственно), диапазон значений символов.

Есть и совсем экзотические возможности, например возможность поиска с числом ошибок не больше заданного. Это говорит об высоком интеллекте машины. Как легко было заметить, от пользователя, желающего реализовать данные возможности, тоже требуется некоторое напряжение мысли.

Поделитесь материалом с коллегами и друзьями