Илья Сегалович: «О высоконагруженных системах на рынке преобладает информация маркетингового характера»Профессиональные мероприятия, раскрывающие внутреннюю кухню разработки масштабных, высоконагруженных программных систем (речь идет прежде всего о больших интернет-проектах) становятся все популярнее. К проходящей уже не первый год конференции разработчиков высоконагруженных систем Highload++ в середине сентября добавился технологический форум Mail.Ru, а две недели спустя еще одна конференция, которая так и называется — Yet another Conference 2010 — и организована, как нетрудно догадаться, компанией «Яндекс» (напомним, что название гиганта Рунета было выведено ее основателями как слияние слов yet another indexer, а их, в свою очередь вдохновил популярный конструктор компиляторов yacc — yet another compiler compiler).

Тем не менее директор «Яндекса» по технологиям и разработке Илья Сегалович считает, что о высоконагруженных системах на рынке преобладает информация маркетингового характера, а содержательные мероприятия на эту тему — в большом дефиците. Организуя YaC 2010, в «Яндексе» стремились этот дефицит восполнить и дать возможность посмотреть на невидимую часть айсберга крупномасштабных разработок в Сети — организацию распределенных вычислений и хранилищ данных, тестирование, инструменты создания высоконагруженных приложений, сетевой ввод/вывод для больших систем, высокопроизводительные алгоритмы обработки текстов, звука, изображений.

Конечно, специалисты самого «Яндекса» задавали тон конференции, взяв на себя порядка половины докладов, однако для участия в YaC 2010 были приглашены и их коллеги из других крупных проектов. По словам Сегаловича, основными критериями для представления своего опыта на YaC были успешность и массовость созданных продуктов. На конференции выступили представители компаний ABBYY, Google, Intel, Skype, Spirit, Oracle, SUP, Yahoo.

Петр Попов из «Яндекса» рассказал о механизмах базовой оптимизации поисковых запросов, количество которых на различных поисковиках в Интернете, по их данным, за последнее десятилетие выросло в тысячу раз, а объем проиндексированной информации — в 100 раз. Поисковый запрос на «Яндексе» проходит несколько стадий обработки, от метапоиска верхнего уровня до базового поиска. Базовый поиск является наиболее требовательной к ресурсам, а потому и к оптимизации подсистемой, на реализацию которой расходуется до 95% серверных мощностей.

Возможности нового пакета инструментов Intel Parallel Sudio 2011 по распараллеливанию приложений для оптимизации их работы на современных многоядерных серверах представил специалист Intel Кирилл Мавродиев. Руслан Гаращук из ABBYY остановился на вопросах тестирования крупномасштабных распределенных систем. Разработанная в ABBYY программа машинного перевода использует большое количество компьютеров и потребляет большие объемы процессорных мощностей, поэтому на процесс тестирования возлагаются критичные для успеха системы задачи проверки производительности, отказоустойчивости и масштабируемости в условиях экстремальных нагрузок.

Еще один специалист компании — хозяйки YaC 2010, Евгений Поляков, представил разработанную в «Яндексе» технологию хранения данных на базе распределенных хеш-таблиц для обработки очень больших наборов данных. Для работы с гигантскими — петабайтными объемами данных (так называемыми Big Data) предназначена технология с открытым кодом Hadoop, о современном состоянии работы над которой рассказал Константин Швачко из Yahoo, член программного комитета по Hadoop в Apache Foundation. По определению Швачко, Hadoop представляет собой экосистему инструментов для хранения и вычислительной обработки огромных массивов данных на базе множества недорогих серверов стандартной архитектуры.

В глаза бросалась молодость аудитории конференции: помимо уже работающих разработчиков, тестировщиков и системных администраторов, в зале было много студентов московских вузов, с которыми «Яндекс» активно сотрудничает. В частности, по инициативе компании три года назад была создана Школа анализа данных, которая предоставляет студентам-старшекурсникам возможность получить глубокую подготовку в области обработки и анализа данных и извлечения информации из Интернета. Школа, которая была также представлена на конференции, финансируется «Яндексом», но готовит специалистов не только для самой компании, но и для российской ИТ-индустрии в целом.