Библиотеки, метаданные
и сохранность электронных ресурсов
Обеспечение сохранности
электронных ресурсов – это сложная
технологическая, организационная и
правовая проблема. Библиотеки, в первую
очередь национальные, призваны сыграть
решающую роль в этом деле.
Под обеспечением сохранности
электронных ресурсов обычно понимается
целенаправленная деятельность по
обеспечению непрерывного доступа к
электронным ресурсам; доступ здесь
является ключевым фактором: если ресурс
нельзя использовать, бессмысленно его
хранить.
Обеспечение сохранности
напечатанной книги в течение десятилетий
или даже столетий – не столь уж и сложная
задача: во-первых, бумага – в общем-то
достаточно прочный материал, во-вторых,
извлечение информации из бумажного
носителя (т.е. чтение) – это довольно
несложный технологический процесс, в-третьих,
информация легко
воспринимается, поскольку обычно имеются
специалисты, готовые перевести документ на
современный язык, но при отсутствии такого
специалиста прочтение может оказаться
невозможным.
С этой точки зрения электронные
ресурсы принципиально отличаются от
традиционных. Для прочтения цифрового
документа необходима прикладная программа.
Любой набор двоичных знаков (битов) может
иметь несколько значений в зависимости от
типа данного документа и от прикладной
программы (например Word for Windows’98), которая, в свою очередь, должна
сопровождаться соответствующими
программно-аппаратными средствами –
компьютером, операционной системой и т. п.
Документ может стать нечитаемым, даже
будучи в отличной физической кондиции,
пример тому – перфокарты, для которых почти
невозможно сейчас найти считывающее
устройство. Постоянное технологическое
развитие вынуждает периодически
возвращаться к проблеме читаемости
материалов; эмпирически определенный
период перемен – около 5 лет.
Рассмотрим несколько возможных
технологий обеспечения долговременной (до
нескольких столетий) сохранности
электронных материалов.
Принцип сохранения
электронных документов в виде их печатных
копий (принцип «распечатывать все») не
может приниматься всерьез ввиду
нереальности.
Многие специалисты считают,
что неразумным было бы пытаться сохранить в
библиотеке все физически ощутимые носители
(будь то дискеты 5,25 или 3,5, CD–ROM
или другие) и, соответственно, старые
компьютеры и устройства ввода-вывода. Это
означало бы превращение библиотеки в музей
технических древностей; да и откуда
возьмутся специалисты по их обслуживанию?
Перезапись («освежение», refreshing),
под которой понимается периодическое
многократное перенесение электронных
ресурсов на современные носители. С
технической стороны этот метод выглядит
безупречно, поскольку полностью
сохраняется первичная информация.
Сложность состоит в том, что никогда не
узнаешь заранее, пора ли приступать к
перезаписи или можно еще подождать. Кроме
того, некоторые документы могут быть
изначально защищены от перезаписи по
соображениям авторского права. Конечно,
следует обновлять и копии соответствующего
прикладного программного обеспечения –
иначе все окажется напрасным, документы
утратят читаемость.
Миграция, в данном случае –
конверсия электронных ресурсов в новую
аппаратно-программную среду. Эта
технология выглядит жизнеспособной и
широко применяется, например конверсия
документов Word Perfect 9
в формат Word
2000 XML. Легко и без потерь качества
осуществляется конверсия из простого
формата в более высокоразвитый; обратный
переход (например из формата, используемого
для записи математических формул LaTex в простой текстовый формат)
может оказаться очень трудоемким,
требующим массы ручной работы. В некоторых
случаях вообще невозможно говорить о
конверсии ввиду трудоемкости или
дороговизны процесса, например для
документов, представляющих собой
записанные в бинарном коде компьютерные
программы. Столь же нелегким делом может
оказаться конверсия баз данных: их
необходимо будет конвертировать сначала в
текстовый файл, а уж затем загружать в новую
оболочку. При этом обменный формат ISO
2709 не полностью передает все детали записи
формата MARC и
приходится делать небольшие доработки,
которые при огромном количестве записей
выливаются в довольно большие затраты
ручного труда.
Эмуляция. Еще в 1995 г.
консультант европейского отделения
компании RAND
Джеф Розенберг опубликовал в журнале Scientific American предложение – обеспечивать
долговременную сохранность электронных
документов методом эмуляции, т.е.
разработки программ, которые воспроизводят
копии старого программно-аппаратного
обеспечения в новых условиях, на новых
технических средствах (иными словами,
мимикрируют). Итак, в памяти нового мощного
компьютера хранятся сами ресурсы и
подробная информация, описывающая те
средства, на которых они в свое время
воспроизводились. Пока что эта технология
испытывалась только на небольших массивах.
Для эмуляции требуются очень точные
описания оборудования и программ (спецификации),
но в ряде случаев все это имеется и,
например, процессор Transmeta
вполне успешно воспроизводит процессор
Intel,
а эмуляторы системы МАС
– систему Windows.
Цифровой архив на базе эмуляторов будет
довольно неудобным в пользовании,
поскольку придется надстраивать их «один
над другим» по мере внедрения новых видов
оборудования и программ.
Рассмотренные технологии имеют
свои преимущества и недостатки, хотя при
совместном их использовании, может быть,
удастся скомпенсировать одно другим.
Использование
метаданных для обеспечения сохранностиэлектронных
документов
В свое время уже отмечалось, что
одной из задач составления метаданных
является, помимо описания документа,
демонстрация его существования и
доступности.
Метаданные могут содержать:
идентификацию; при этом для
цифровых ресурсов необходимо указывать
связь между объемом и его описанием,
например, статья может быть
идентифицирована на основе ISSN
и идентификатора тех, кто создавал материал
(Serial Item Contribution
Identifier, SICI); соответствующие связи
создаются при присвоении индивидуального
номера цифрового объекта – Digital
Object Identifier (DOI)
и/или уникального имени ресурса – Uniform
Resource Name (URN);
программно-аппаратное
обеспечение;
описание физических свойств
объекта (для оптических или магнитных
дисков и т. п.);
формат файла, номер версии (например
Word 7);
информацию относительно
миграции и возможных потерях при миграции;
данные,
обеспечивающие проверку аутентичности
объекта (например, это может быть
контрольная сумма MD5,
сверка с которой покажет, что объект во
время архивного хранения не изменился);
С этих позиций можно говорить и
о том, что в метаданных отражаются условия
долговременной сохранности документа. Эти
проблемы пока находятся в стадии
интенсивного обсуждения и опробования
различных методик описания; большинство из
них базируются на «Модели открытой
информационной системы» (Open Archival Information System, OAIS).
В различных
методиках составления метаданных для
спецификации аппаратно-программных
средств предполагается использовать от 8 до
10 элементов записи (операционная система,
прикладная программа, конфигурация
платформы, спецификации процессора,
мультимедийных устройств и периферии и т. п.).
Указанные метаданные обеспечения
долговременной сохранности без особых
сложностей могут быть использованы в
работе с форматами MARC
21 или Даблин Кор.
В целом можно сказать, что
метаданные могут быть одним из ключевых
средств предотвращения потерь цифровой
информации.