Цифровое забвение

З

аписывая ценные данные на современные носители, мы особо не задумываемся, сколько лет сможем на них рассчитывать. О цифрах и сроках рассказывает Юрий Ревич.

Каждой семье в какой-то момент приходится решать, что делать с унаследованными от родителей коллекциями виниловых пластинок или магнитофонных катушек, с рулончиками фотопленки и альбомами, набитыми пожелтевшими фотографиями. Трижды на памяти представителей старшего поколения происходила смена физических принципов звукозаписи, а звуковые носители (и, конечно, устройства для их воспроизведения) изменялись 6 раз! Еще в 50-е годы прошлого века это были шеллаковые пластинки (78 об/мин), затем их сменили виниловые «долгоиграющие» диски (33,3 об/мин). Почти одновременно возникли бытовые катушечные магнитофоны, а затем появились и кассетные. В середине 1980-х годов все аналоговые устройства скопом были вытеснены цифровыми оптическими компакт-дисками. А пять–десять лет назад появились универсальные миниатюрные флеш-карты, причем основным каналом распространения звукозаписей вообще становятся нематериальные сущности – файлы, скачиваемые через Интернет.

Смены носителей видеопродукции совершались еще быстрее. Пленка для любительских кинокамер (8- и 16-мм), ставших общедоступными в конце 1950-х–начале 1960-х годов, уже в 1980-х годах была вытеснена бытовыми видеокассетами формата VHS. Потребители еще только начали обзаводиться видеотеками на кассетах, как появились DVD, аналогичные по устройству звуковому компакт-диску. В конце концов, любительская видеозапись пришла, подобно звукозаписи, к компактным компьютерным форматам файлов, которые легко распространять через Сеть.

У многих при взгляде на это разнообразие опускаются руки – так уходят в небытие личные архивы, интересные далеко не только членам одной семьи. Для того чтобы понять, как выбраться из такой ситуации, стоит бросить ретроспективный взгляд на особенности различных носителей и способов представления информации.

 

Долговечность аналоговых носителей

Как ни странно, чем более носитель продвинут с технической точки зрения, тем меньше срок его службы. И данное правило почти не имеет исключений. Книги и рукописи на пергаменте могут храниться тысячелетиями, не говоря уже о глиняных табличках или надписях на камне. Правда, библиотеки, случается, горят, а недавно весь мир увидел воочию, что и камень не устоит, если кто-то захочет целенаправленно уничтожить памятники культуры — в 2001 г. талибы взорвали простоявшие больше полутора тысяч лет Бамианские статуи Будды, оправдав этим поступком в глазах всего мира вторжение западных войск в Афганистан.

Если исключить столь радикальные методы воздействия, беречь от влаги, света, грызунов и насекомых, то бумажные издания, выпущенные до начала XIX века, могут храниться сотни лет. В конце XVIII века, к огорчению архивистов, изобрели способ изготовления дешевой бумаги из древесины на автоматических или полуавтоматических машинах. Такая бумага намного дешевле старинной, но желтеет и становится ломкой за несколько десятилетий, а синтетические красители на ней выцветают. Причем на свету это происходит гораздо быстрее, но «древесная» бумага портится в любом случае, независимо от тщательности хранения, по «внутренним» причинам.

Интересно, что в Советском Союзе действовала правительственная программа по выпуску долговечных бумаг для важных документов. К 1990-м годам начался выпуск бумаги для делопроизводства, рассчитанной на хранение до 850 и 1000 лет. Однако компьютерная революция сделала реализацию такой программы ненужной – документы стали хранить на электронных носителях, к чему мы еще вернемся.

В ходе технологической революции конца XIX–середины ХХ века появились принципиально новые носители информации, но бумага, даже ухудшенная массовым производством, осталась в этом ряду одним из самых надежных. Единственная разновидность носителей, сравнимая по долговечности с бумагой, – черно-белая фотопленка на полиэфирной основе, которую начали производить примерно с 1960-х годов. Век же целлулоидной пленки, выпускавшейся до этого, даже короче, чем у газетной бумаги. Целлулоид содержит летучие вещества, которые со временем постепенно испаряются, из-за чего пленка коробится, деформируется и теряет прозрачность.

Основная слабость аналоговой фотографии заключается в ее главном компоненте – желатиновом слое. Для примера можно привести оригиналы цветных фотографий Сергея Прокудина-Горского, сделанных в начале XX века, каждая из которых представляет собой набор из трех цветоделенных негативов на стеклянной подложке. Они хранятся в щадящих условиях Библиотеки Конгресса (США) с 1948 г., но при совмещении каждый из трех цветов приходится «подтягивать» компьютерными методами – настолько они деформировались менее чем за сто лет. Желатин имеет свойство пересыхать и деформироваться со временем и, кроме всего прочего, не выносит даже слабого нагревания. Изображение на негативных пленках, которые, в отличие от отпечатков, не подвергают специальному дублению, можно просто смыть горячей водой из-под крана.

Цифровое забвение                       

Цветные красители в пленке и отпечатках имеют свойство самопроизвольно выцветать даже при хранении в темноте. Цветная кинопленка отечественного производства, особенно произведенная до 1970–1980-х годов, хранится не более нескольких десятилетий. В конце 2000-х по телевидению показали неотреставрированную копию «Кавказской пленницы», которая менее чем за полвека выцвела почти полностью. Особенно это было заметно в эпизодах с преобладанием светлых тонов.

Достаточно капризны и магнитофонные ленты, причем в первую очередь те, на которых хранятся самые ценные и редкие записи 1950–60-х годов, времени возникновения отечественной авторской песни и рока, когда в нашей стране еще в ходу были катушечные магнитофоны под примитивную ленту «Тип 2». Эти ленты пересыхают и осыпаются – знатоки советуют перед перезаписью дать такой катушке отлежаться в герметичном пакетике вместе с увлажненной ваткой (однако долго держать во влажной атмосфере ленты тоже нельзя!). Неотъемлемый недостаток всех магнитофонных лент – способность к так называемому копир-эффекту, когда намагниченный слой в одном витке рулона со временем «отпечатывается» в соседних витках. Для уменьшения этого эффекта ленты следует хранить в холодильниках и изредка перематывать. Держать при пониженных температурах полезно также для того, чтобы предотвратить самопроизвольное снижение намагниченности из-за теплового движения атомов в частицах магнитного слоя.

Частая эксплуатация магнитофонных лент и кинопленок способствует их быстрому изнашиванию. Износ при эксплуатации – вообще характерное свойство аналоговых носителей. Особенно ярким примером этого служат шеллаковые пластинки первой половины ХХ века. На примитивных механических граммофонах они выдерживали всего несколько десятков циклов воспроизведения. О силе воздействия на носитель можно судить по тому факту, что после каждого проигрывания приходилось заменять стальную иглу, истиравшуюся от трения о дорожку. Пришедшие на смену шеллаку виниловые диски, подобно черно-белой пленке, могут теоретически вечно храниться в архивах, но также быстро портятся при проигрывании. Показательно, что несколько десятилетий, с момента выпуска первого «винила» фирмой Columbia в 1948 г., прогресс в этой области шел в сторону не усовершенствования носителей, а конструирования устройств воспроизведения, оказывающих как можно меньшее давление на иглу.

 

Устройства для воспроизведения информации

Новый аналоговый формат записи звука или видео всегда предполагал и новое устройство для его воспроизведения. При необходимости приходится это устройство искать, а еще лучше – предусматривать возможность чтения старых и новых форматов в одном устройстве. Прогресс электроники сделал этот процесс простым для производителя, но усложнил его для пользователя. Ярким примером могут служить бытовые видеомагнитофоны. Традиционно они поддерживают не менее пяти стандартов интерфейсов: компонентный, композитный, S-Video, SCART и HDMI (причем давно устаревший S-Video встречается в нескольких типах разъемов). Компьютерные видеоустройства расширяют это разнообразие до полной необозримости. В них можно встретить и аналоговый VGA, и различные модные цифровые интерфейсы, среди которых есть распространенные DVI (причем трех разновидностей – DVI-A, DVI-I и DVI-D) и IEEE 1394, и экзотические DisplayPort, DVB, SDI и UDI.

К счастью, многие из этих интерфейсов совместимы между собой на уровне переходников. Например, можно превратить цифровой DVI в цифровой же HDMI, а также аналоговый VGA в аналоговый S-Video. Но, к сожалению, столь простым способом нельзя превратить аналоговый интерфейс в цифровой. Поэтому приходится сохранять в составе видеоустройств множество интерфейсов, зачастую уже и не нужных, зато обеспечивающих совместимость со всем имеющимся оборудованием, включая древние телеприемники начала 1980-х годов.

Такие же трудности могут возникнуть и с компьютерными цифровыми данными – за последние 20 лет успели уйти в прошлое не только дискеты, но и стримеры, и магнитооптические диски (Iomega Zip и др.), успевшие распространиться в среде науки и финансов. В 2008 г. в Национальном агентстве США по аэронавтике и исследованию космического пространства (NASA) обсуждались планы новых лунных экспедиций. Ученым потребовались данные о свойствах лунной пыли, собранные во время экспедиций «Апполонов» в конце 1960-х годов. Эти сведения были записаны на 173 магнитных лентах, но их оригиналы в NASA оказались утраченными. К счастью, копии сохранились в Сиднейском университете. Однако для их чтения был нужен специальный накопитель на магнитных лентах – IBM 729 Mark V, выпускавшийся в 1950--1960-е годы. Оказалось, что некогда популярные ленты (с многодорожечным параллельным форматом представления данных) прочесть уже не на чем. Впрочем, на счастье исследователей, пригодный экземпляр накопителя сыскался в Австралийском компьютерном музее.

Похожая история произошла и с американскими архивистами в 1990-е годы, когда они вознамерились ознакомиться с данными переписи населения 1960 г., хранившимися на магнитных носителях. Нашлось всего два компьютера в мире, способных прочесть эти данные. Один из них находился в США, другой — в Японии. Наученная этим опытом, крупнейшая в мире Библиотека Конгресса (США) создала специальное подразделение, в котором хранятся устройства для чтения информации с устаревших электронных носителей. Однако нет никакой уверенности, что где-нибудь в архиве не отыщется носитель в таком оригинальном формате, что для его чтения не сохранилось ни устройств, ни программного обеспечения.

 

Цифровые носители

Цифровые носители, пришедшие на смену всем этим виниловым дискам, пленкам и магнитофонным лентам, в плане долговечности также оставляют желать лучшего – многие из них выходят из строя просто при хранении. Даже если вы найдете считывающий привод для 5-дюймовых дискет, они, скорее всего, уже не прочитаются – ни вовсе, ни частично. Правда, мне не так давно пришлось прочесть 5-дюймовую дискету «Изот» болгарского производства, записанную на компьютере «Правец-16» в конце 1980-х годов. Представьте себе, данные на ней оказались целехоньки (не зря же компьютерные компоненты советской эпохи проходили военную приемку!), но в общем случае рассчитывать на такое не стоит. А 3-дюймовые дискеты, более стойкие в процессе эксплуатации, все же менее долговечны, чем 5-дюймовые, поскольку информация на них записана с более высокой плотностью.

Жесткий диск (винчестер) имеет срок службы около пяти лет, хотя производители декларируют гораздо больший. Нередко он выходит из строя еще быстрее – особенно когда греется в процессе работы. И такое его состояние скорее обычное, чем исключение. Исследователи из университета Карнеги-Меллона еще в 2007 г. обследовали примерно 100 тыс. дисков разных производителей и обнаружили, что основной показатель надежности – среднее время наработки на отказ (mean-time before failure, MTBF) — завышается производителями приблизительно в 15 раз. По их данным, ежегодно выходит из строя не 1% дисков, а 2–4%, причем пики отказов наблюдаются в первый год эксплуатации, а также после пятого–седьмого года. Производителей, чьи диски показали самый высокий процент отказов, исследователи не назвали. Но оказалось, что накопители, как ориентированные на массовый рынок, так и предназначенные для профессионального сектора (а следовательно, более дорогие), позиционируемые не только как высокопроизводительные, но и как обладающие повышенной надежностью, в действительности демонстрируют сходные показатели.

Самыми стойкими из оптических дисков (CD и DVD) считаются штампованные. Они, как заявляют изготовители, способны работать без сбоев более 30 лет при хранении в хороших условиях. А записываемые и особенно перезаписываемые CD и DVD могут потерять данные уже в первое десятилетие своего существования. Причем из-за особенностей представления информации звуковые компакты (Audio CD) надежнее дисков с данными, содержащих настоящую файловую систему.

Можно считать, что долговечность флеш-накопителей информации такая же, как у штампованных оптических дисков. Следует отметить, что надежность хранения информации на флешках значительно увеличивается, если ее периодически, как минимум один раз в несколько лет, перезаписывать заново.

Цифровое забвение

 

Форматы данных

Как уже было отмечено, для аналоговых носителей видео и звука проблема форматов данных – это поиск нужного оборудования. Достаточно вспомнить, что с момента изобретения видеомагнитофона в 1956 г. в видеозаписи использовалось около 30 различных несовместимых форматов, что вынуждает вещательные организации и архивы «на всякий случай» хранить множество аппаратов. Для цифровых форматов, существующих в виде компьютерных файлов (т.е. для всех, кроме классического Audio CD, где файлы как таковые отсутствуют), чтение устаревших или редких форматов обеспечивается проще. Кроме того, аналоговое преобразование и копирование данных всегда сопровождаются потерями информации. А преобразование данных из одного цифрового формата в другой – полностью автоматизируемая процедура, и этот процесс, в принципе, может протекать без потерь. Потери могут сопровождать преобразования сжатых форматов, но они не так существенны, как при копировании аналоговой информации, и их уровень легко контролируется.

Простота чтения и преобразования цифровых форматов оборачивается тем, что их становится слишком много. Например, одних архиваторов, помимо общеизвестных ZIP и RAR, существует несколько десятков разновидностей. Причем некоторые из них, создававшиеся в расчете на конкретное применение, вне определенной ограниченной области не употребляются. Но если для носителей старых типов понадобится специальное устройство чтения (возможно, подобно магнитофонам или кинопленке, основанное на уже не использующихся физических принципах), то для чтения файла старого формата нужна лишь соответствующая программа. И если она отсутствует, то ее несложно разыскать, в крайнем случае – написать заново, что обойдется дешевле создания целого устройства воспроизведения.

Чем больший объем занимает данная разновидность информации, тем большее разнообразие типов цифровых данных наблюдается для нее. На практике употребляется всего несколько текстовых форматов – «чистый текст», пара-тройка форматов Microsoft (DOC, DOCX и RTF), Open Document Format (ODF), а также веб-формат HTML и еще «иллюстрированный текст» PDF. Остальные разновидности представления текста относятся в основном к различным фирмам–производителям электронных ридеров, наплодившим около полутора десятков разных форматов, приспособленных к конкретным устройствам. И потому в быту сейчас уже совсем редко возникают проблемы с текстовыми форматами – в основном они касаются преобразования различных языковых кодировок.

Сравнительно немного форматов употребляется на практике и для представления статических изображений. Их список практически исчерпывается пятью разновидностями: TIFF, JPEG, GIF, BMP и PNG. Остальные существующие форматы в основном привязаны к конкретным областям применения или графическим программам. Нужно отметить, что для звука форматов существенно больше, чем для текста и изображений, а для представления видео разнообразие еще больше, причем именно среди употребляющихся на практике. Это связано с тем, что звук и видеофайлы занимают значительно больший объем, чем тексты или статические изображения, и для представления в приемлемом для пользовательских целей объеме их приходится сжимать различными методами. При этом методы сжатия различаются в зависимости от цели кодировки – в Интернете видео и звук надо представить максимально компактно, даже жертвуя качеством. А вот для записи на DVD и тем более в формате Blu-Ray можно размахнуться и пошире.

И потому не так уж редки случаи, когда видеодиск, записанный на бытовом плейере, отказывается проигрываться на компьютере, или наоборот. Кроме того, следует учитывать, что распространенные типы видеофайлов вроде AVI, OGG или MPEG-4 – это еще не форматы, а так называемые «контейнеры». Контейнер представляет собой оболочку для собственно содержимого, которое может быть представлено в самых разных форматах. Контейнерами являются не только видеоформаты, но и многие привычные типы текстовых, звуковых файлов или изображений (скажем, PDF, WAV или BMP – также контейнеры). Именно в области видеопродукции проблема разнообразия форматов стоит наиболее остро. Скажем, разработчики стандарта MPEG-4 оставили частным разработчикам определенную свободу в определении способов и приемов сжатия видеоряда. Потому не следует удивляться тому, что видеодиск, записанный на одном компьютере, не «захочет» воспроизводиться на другом, на котором отсутствует подходящая для данного формата программа-кодек.

Архивисты относительно просто и дешево решают проблему форматов. Путем проб и ошибок хранители архивов развитых стран выработали ряд решений, и главным из них стало хранение информации в машинно-независимых стандартизированных формах. Базовым таким форматом стал, естественно, текстовый – то, что в компьютерных программах называется «чистый текст». Цифровые таблицы очищаются от всех дополнительных данных, которыми они сопровождаются при создании в конкретных программах вроде Excel, и представляются в виде последовательности чисто текстовых знаков.

Впрочем, в архивах не исключается и использование собственных форматов. На входе вся документация преобразуется в формат, оптимальный для хранения, а на выходе, при передаче конкретному пользователю, производится обратная процедура — конвертирование данных в формат, наиболее удобный пользователю.

Вывод простой: цифровые данные на современных носителях имеют огромное преимущество перед старинными аналоговыми – они просто и быстро переписываются без потерь, причем копия идентична оригиналу. Потому долговечность цифровых носителей не так важна, поскольку своевременная перезапись информации позволяет хранить ее практически вечно. Данные стоит хранить в цифровом виде на современных носителях и менять последние, когда возникает опасность их устаревания и исчезновения из обихода. Это также требует времени и средств, но гораздо меньших, чем создание условий для хранения уникальной информации, записанной на аналоговых носителях в предыдущие века.

Как же все это делать, чтобы было и надежно, и удобно?

 

Цифровое забвение

Что делать?

Для воспроизведения устаревших носителей информации в быту решение, примененное в Библиотеке Конгресса, практически неприемлемо. Никто не будет хранить огромный катушечный магнитофон или кинопроектор только для того, чтобы раз в несколько лет, под настроение, прослушать старинные записи или просмотреть семейную кинохронику. Единственный способ обойти это препятствие – не пожалеть времени и денег, оцифровать архивы и хранить их на современных носителях в цифровой форме. Для государственных и других крупных архивов это тоже единственный путь для сохранения старых оригиналов, представленных в аналоговых форматах. Мало того, преобразование в «цифру» делает информацию доступнее – появляется возможность ее обнародовать, пересылать и копировать без риска для оригинала (вспомним, что кинопленки и магнитные записи деградируют при копировании, бумага изнашивается и рвется, а краски на старинных картинах выцветают от экспозиции на свету).

Объем работы в этой области предстоит грандиозный, и во всем мире оцифрована пока лишь малая часть старой информации. Заметим, что значительное количество информации продолжает выпускаться в традиционной форме. Например, отечественное книгоиздание выпускает примерно 50–60 тыс. наименований книжной продукции в год в печатном виде, в то время как крупнейшие русскоязычные электронные библиотеки (вроде знаменитого «Либрусека») содержат не больше 100–200 тыс. оцифрованных книг, т.е. объем выпуска за два-три года. Следовательно, огромная часть информационного массива в недалеком будущем, когда состоится переход к электронным носителям, скорее всего, останется недоступной. Кстати, существующее законодательство об интеллектуальной собственности отнюдь не облегчает эту задачу, а скорее мешает ее решению.

Постепенно мир движется к информации без носителей. Многие компании предлагают хранение данных в облаке, т.е. в распределенном хранилище без определенного местонахождения. Но едва ли стоит доверять таким сервисам полностью. Хранилище, управляемое из единого центра, не намного надежнее, чем локальное хранение копий на компьютерах пользователей, что легко показать на примерах.

На массовых электронных почтовых службах или на таких сервисах, как Google Docs, постоянно случаются сбои, прерывающие доступ. Глобальный сбой подобных служб с безвозвратной утерей данных – сценарий гипотетический, но отнюдь не фантастический. Кроме того, централизованное хранилище в любой момент можно отключить от доступа пользователей, и это уже политический вопрос. Кстати, вопрос безопасности в таких хранилищах в принципе не решаем: любую компьютерную защиту можно взломать.

А вот еще сценарий, от которого не застрахован никто: недавно мне случилось безвозвратно потерять архив весьма ценных фотографий, сделанных по моей просьбе на конференции, где в одном месте собрались многие заслуженные деятели компьютерной отрасли еще советских времен. У девушки-фотографа полетел диск, на котором хранились снимки. При этом копий ни она, ни я не делали, понадеявшись на фотохостинг Picasa компании Google. Но к моменту обнаружения поломки выложенная там галерея оказалась уже недоступной, потому что никто не озаботился обратить внимание на ограниченность срока хранения. Стечение обстоятельств, как видите, совсем не уникальное.

Из этих примеров следует, в общем-то, простой, хотя и довольно громоздкий в исполнении рецепт для тех, кто озабочен сохранностью своих архивов.

Для начала нужно все аналоговые оригиналы перевести в цифровой вид. Чаще всего это проще сказать, чем сделать. Так, оцифровку фотографий (включая и негативы со слайдами) сейчас предлагают практически на каждом углу, а вот с любительскими кинопленками и магнитофонными записями ситуация уже гораздо сложнее и выйти из нее значительно дороже.

Однако, решив эту проблему, стоит вспомнить, что цифровая форма сама по себе еще не гарантирует сохранности. Долговечность цифровых носителей даже меньше, чем у традиционной бумаги или пленки, они лишь позволяют без лишних затрат и усилий сделать сколько угодно копий без потери качества. Вот этим преимуществом цифры и стоит воспользоваться на полную катушку.

Храните ценные данные в виде не менее чем трех копий. Одну рабочую, с которой вы манипулируете ежедневно, и еще одну для оперативного восстановления единичных папок и файлов, причем разместите ее на отдельном жестком диске (или даже в отдельном компьютере). И, наконец, еще одну копию стоит хранить в виде образа целого файлового раздела для аварийного восстановления при капитальных поломках. Такой «бэкап» удобно хранить в специальном файловом хранилище с RAID-массивом (известном под названием NAS – Network Attached Storage, сетевое подключаемое хранилище). Но если интернет-канал позволяет, то, конечно, неплохо закачивать образ и куда-нибудь в облако, необходимо только следить за его сохранностью и своевременным обновлением. Тогда у вас есть шанс восстановить данные даже в случае, если при пожаре или другом стихийном бедствии все ваши устройства будут уничтожены.