В компании считают, что это не только самая большая база данных в мире, но и самая нагруженная запросами. Базу создали только год назад, а к будущему году ее размер дойдет до десятков петабайтов. База работает под управлением модифицированной версии СУБД PostgreSQL. Даже на крупных предприятиях размеры баз данных редко доходят до десятков терабайт. Например, база данных налоговой службы США «весит» всего лишь 150 Тбайт. Конечно, существуют базы с огромными объемами архивированных данных — скажем, на магнитных лентах Всемирного центра данных о климате в Гамбурге хранится свыше 6 петабайт данных, но обслуживать такую базу — это не то же самое, что базу со структурированными, готовыми к обработке данными, к которым постоянно осуществляется доступ.Три года назад в Yahoo уже были базы данных объемами в сотни терабайтов. Но поддержки SQL в них не было, и для работы с ними приходилось писать специальные программы. Поэтому новый вице-президент по инжинирингу в подразделении данных Yahoo Вагар Хасан первым делом приобрел компанию-«стартап» Mahat Technologies, работавшую с СУБД с открытым кодом PostgreSQL. С тех пор СУБД была модифицирована и приспособлена к работе с большими объемами данных — некоторые таблицы в базе содержат триллионы строк. Ни лицензировать свои технологии работы с базами данных сторонним компаниям, ни предоставлять доступ к ним через Web в Yahoo пока не планируют.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF