Электронная библиотека ГПНТБ России

Научные и технические библиотеки №2 2003 год

Содержание:

9-я МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ "КРЫМ–2002"

Секция 2. Автоматизированные библиотечные системы и технологии

Маршак Б.И. Современные проблемы разработки и внедрения автоматизированных библиотечно-информационных систем: системный подход и оценка программного окружения

Бродовский А.И. Система автоматизации библиотек ИРБИС: от третьего поколения к четвертому

Ступкин В.В. ИРБИС в библиотечных системах стран СНГ: типологический анализ и статистика

Мазов Н.А., Жижимов О.Л., Скибин С.В. Опыт построения распределенных информационных систем на основе протокола Z39.50

Грибов В.Т., Левова Л.В., Ефремов С.В., Трифонова Е.В. Автоматизированная информационно-библиотечная система "MARC-SQL": использование в библиотеках учреждений культуры, науки, образования

Сегберт М., Хохлов А.Ю., Вислый А.И., Рубина С.С. Новые электронные услуги для читателей Российской государственной библиотеки: проект РГБ – Фонд Эндрю У. Меллона

Шелюто О.Н., Скворцов В.В. Технологические аспекты внедрения автоматизированной системы в РНБ

Секция 3. Сетевые технологии, мультимедиа и Интернет в библиотеках

Гончаров М.В. Особенности библиотечных Интернет-комплексов

Федоров Б.Ф., Фридман В.П. Развитие технической базы Интернет-комплекса ГПНТБ России в рамках проектов Федеральной целевой программы "Электронная Россия"

Баженов С.Р., Баженов И.С., Федотов В.Б. Совершенствование веб-ориентированной системы управления базами данных CDS/ISIS

Нежурбеда Г.Г. Создание архивов Интернет-документов как новая задача национальных библиотек

Секция 6. Библиотечные кадры, профессия и образование

Адамьянц А.О. Новый взгляд на современные возможности обучения будущих библиотекарей: новые образовательные технологии кафедры информационных технологий и электронных библиотек МГУКИ

Кузнецова Т.Я. Дополнительное профессиональное библиотечное образование: концептуальные основы

Пилко И.С. Технологизация как тенденция развития библиотечного образования

Арзуханов А.С. Организация работы Учебно-методического центра ГПНТБ России

Очолла Деннис Н. Информационно-коммуникационные технологии в школах библиотековедения и информатики некоторых стран Африки

Секция 7. Информационно-лингвистическое обеспечение библиотечно-информационных систем

Зайцева Е.М. Универсальная десятичная классификация применительно к книжному делу: разработки и результаты практического использования

ИФЛА–2002

Эшкрофт Л. Цифровой разрыв и электронные технологии

Хаанк Д. Будущее электронных публикаций

ДИСКУССИОННЫЙ КЛУБ "ТЕРМИН"

Моргенштерн И.Г. Документ: информация и/или носитель?

Столяров Ю.Н. Документ: и информация, и носитель

Нежурбеда Г.Г.
Национальная библиотека Украины
им. В.И. Вернадского, Киев

Создание архивов Интернет-документов
как новая задача национальных библиотек

Большинство стран мира стремится собрать, описать, сохранить, обеспечить доступ к культурному и интеллектуальному наследию народа, используя музеи, архивы и библиотеки. С появлением Интернета стремительно растет количество электронных документов. Не имея печатных аналогов, большая их часть, несомненно, обладает исторической, культурной или научной ценностью. Однако в связи с иной природой, свойствами и характером этих документов к ним невозможно применять традиционные приемы и методы формирования и использования фондов.

Традиционный библиотечный фонд состоит из документов, являющихся собственностью библиотеки. Механизмы поступления документов определены и регламентированы. Вопросы, связанные с обработкой фонда и предоставлением документов в пользование решаются в соответствии с имеющимися в распоряжении библиотеки документами. Характеристики, идентифицирующие печатный документ, и правила размещения этих характеристик на документе определены и закреплены национальными и международными стандартами.

Печатный документ всегда имеет определенный физический объем и линейную структуру, содержание его неизменно в течение времени. В отличие от печатных сетевые документы могут изменяться с течением времени и иметь разные содержание и объем. Документы World Wide Web чаще всего являются гипертекстовыми файлами и содержат ссылки на другие документы. Гипертекстовый файл может включать рисунки, звук, видео и ссылки на другие текстовые файлы. Учитывая международный характер сети и множественность связей между документами, сложно выделить признаки, определяющие понятие сетевой документ и национальную принадлежность документа.

Другая группа проблем, возникающая при решении задач сохранения электронных документов, связана с зависимостью электронных документов от программных и аппаратных средств. Магнитные и оптические носители информации, на которых хранятся электронные документы, в настоящее время имеют срок службы около 10 лет. Далее они либо морально устаревают, либо приходят в негодность из-за физических повреждений.

Десятилетний срок неумолимо мал по сравнению со столетиями, в течение которых могут сохраняться бумажные документы. Однако процесс подготовки электронного документа требует гораздо меньше времени и значительно дешевле, чем создание традиционного бумажного документа.

Легкость копирования электронной информации, простота и исчерпывающая полнота поиска, быстрота получения абонентом необходимой информации в любое время суток независимо от места ее хранения привели к стремительному росту количества сетевых документов во всем мире.

Неся моральную, а в ряде стран и законодательно закрепленную ответственность за то, чтобы любой изданный документ, который стал доступен общественности, был сохранен и доступен в дальнейшем, национальные библиотеки начали работу над созданием инструментов и технологий для сбора, регистрации и архивирования Интернет-ресурсов с целью их долгосрочного хранения.

Первым проектом, предполагающим создание постоянной электронной коллекции веб-документов в библиотеке, вероятно, был проект EPPP (Electronic Publication Pilot Project) Национальной библиотеки Канады, стартовавший в июне 1994 г. [1]. В июне 1996 г. Национальная библиотека Австралии начала проект PANDORA (Preserving and Accessing Networked Documentary Resources of Australia) [2]. В сентябре 1996 г. Национальная библиотека Швеции представила проект Kulturarw3 [3]. В июне 1997 г. в Финляндии стартовал проект EVA [4]. В 2000 г. Библиотека Конгресса США начала проект MINERVA (Mapping the Internet Electronic Resources Virtual Archive) [5, 11], Национальная библиотека Эстонии – проект ERIC@ (Estonian Resources on the Internet; Cataloguing and Archiving) [6]. Следует отметить также NEDLIB – совместный проект восьми национальных библиотек Европы (Нидерландов, Франции, Норвегии, Финляндии, Германии, Португалии, Швеции и Италии) [7] и проект организации Internet Archive (www.archive.org).

Проведенные исследования показали, что рост количества Интернет-документов происходит по экспоненциальному закону, а среднее время жизни документа в сети по разным оценкам колеблется от 30 дней до 4 месяцев. В связи с этим промедление с началом осуществления сбора и накопления Интернет-документов в библиотеках (или других специализированных учреждениях) приведет к невосполнимой потере части культурного наследия человечества.

Почему создание архивов Интернет-документов должно стать задачей именно национальных библиотек? Очевидно, что ответственность за долгосрочное хранение и обеспечение доступа к собранным документам должна быть возложена на учреждение с устойчивым финансированием, имеющее опыт работы с документами (их обработкой и организацией пользования). Национальные библиотеки большинства стран накопили большой опыт работы, неся ответственность за хранение национальных печатных изданий и регистрацию их в национальной библиографии.

В случае возложения ответственности за создание архивов Интернет-документов на отдельные организации (например владельцев веб-сайтов) гиперссылки в архиве, указывающие на ресурсы другой организации, будут разорваны (не будут функционировать). С этой точки зрения лучшее решение – организация международного архива, но вероятность скорого создания организации с долгосрочным, устойчивым финансированием, имеющей твердую юридическую основу своей деятельности на международном уровне, очень мала. Гораздо реалистичнее начать создание национальных архивов Интернет-документов в национальных библиотеках, учитывая уже существующие межбиблиотечные традиции по обмену опытом и совместной выработке международных стандартов, форматов и протоколов обмена информацией.

С точки зрения традиционных подходов к формированию библиотечных фондов при создании архивов Интернет-документов можно выделить следующие процессы: комплектование, учет и обработка фонда, размещение и доставка документов по требованиям абонентов, обеспечение сохранности фонда.

Опыт зарубежных коллег показал, что в качестве единицы учета фонда Интернет-документов (веб-ресурсов) удобно использовать веб-сайт. Процесс комплектования фонда заключается в создании в библиотеке копии ("зеркала") веб-сайта. Поскольку информация на веб-сайте изменяется в течение времени, библиотека должна создавать "зеркала" одного и того же сайта периодически.

Количество веб-сайтов в странах, где развита сеть Интернет, значительно больше количества издательств, выпускающих печатную продукцию. Например, в Швеции – около 60 тыс. веб-сайтов, это в 20 раз больше, чем традиционных издателей [8]. Обязательный экземпляр печатных документов в Национальной библиотеке Швеции занимает 1,7 км полок в год, а архив веб-документов занял бы приблизительно 25 км полок [9]. В настоящее время архив состоит из 138 млн файлов объемом в 4 497 гигабайт. "Снимки" Интернета производились 9 раз. Архив включает все веб- и gopher- страницы доменов .se и .nu; веб-сайты доменов .com, .org, .edu, .net, содержащие шведские адреса и/или телефонные номера, а также иностранные материалы, имеющие отношение к Швеции (так называемые Suecana).

Для формирования архива используется программа-робот, которая ищет Интернет-документы, используя специальный алгоритм, а затем сохраняет найденные документы на компьютере библиотеки, стремясь таким образом осуществить исчерпывающее комплектование фонда Интернет-документов.

Другой подход предложен в Национальной библиотеке Австралии, где отбор сохраняемых веб-ресурсов производится не программой-роботом, а персоналом библиотеки. При разработке принципов отбора Интернет-документов для хранения здесь учитывается как то, что объем Интернет-публикаций очень велик, так и то, что многие из них имеют очень низкую ценность. Поэтому принципы отбора Интернет-документов более строгие и не столь всесторонние, как при отборе печатных изданий.

Документы в архив включаются независимо от того, находятся они на серверах в Австралии или за ее пределами. Отбор производится на основе анализа содержания и определения его ценности.

Следует отметить, что Интернет-документы часто не содержат сведений, составляющих библиографическое описание традиционных документов и служащих основой отбора. Документ включается в архив, если его большая часть посвящена общественной, политической, культурной, религиозной, научной или экономической жизни Австралии или автор документа – австралиец, внесший вклад в познание мира [10].

После того как документ отобран для включения в архив, библиотека обращается к издателю с просьбой разрешить включить публикацию в архив и, если необходимо, получить помощь в создании копии. Копии документа включаются в архив с периодичностью, устанавливаемой персоналом библиотеки.

И метод ручного отбора Интернет-документов, и метод автоматического сбора имеют свои недостатки и достоинства. При использовании автоматического метода объем одного "снимка" Интернета в Швеции превышает 1 терабайт. Процедура сбора полного "снимка" может занимать несколько месяцев. При этом нет гарантии, что документы, связанные гиперссылками, будут соответствовать по содержанию именно тем документам, которые предполагались авторами, из-за изменчивости сети в течение времени формирования "снимка". Автоматический сбор html-документов, являющихся результатом обращения к базе данных, невозможен.

В связи с нерешенностью юридических вопросов создания таких архивов (копирование без согласия автора – нарушение закона об авторском праве), а также вопросов предоставления в пользование документов архива, в Швеции доступ к архиву закрыт. В Австралии – разрешен, благодаря практике заключения договоров между библиотекой и автором Интернет-ресурса.

Периодичность изменения Интернет-документов колеблется в широких пределах: от одного дня до нескольких лет. Благодаря гибкости австралийской политики сбора Интернет-документов, в архив не попадают "дублеты" и есть возможность чаще сохранять ресурсы, имеющие периодичность изменения меньше времени создания одного "снимка" автоматическим путем.

Сравнение затрат на создание архивов показывает, что австралийский проект во много раз дороже, чем шведский. В Швеции в создании архива участвуют лишь 4 человека [9]; однако в будущем, вероятно, обслуживание и поддержание архива в рабочем состоянии будет дороже из-за его большого объема.

Несмотря на принципиальную разницу, оба метода не являются взаимоисключающими. Их успешное сочетание можно видеть в проекте Библиотеки Конгресса США – MINERVA [11]. Проект осуществляется благодаря тесному сотрудничеству между библиотекой и некоммерческой организацией Internet Archive, которая хранит и обеспечивает доступ к мировым Интернет-ресурсам (html-файлам), общедоступным с 1996 г. Ядро архива составляют html-файлы, которые передает в Internet Archive компания Alexa Internet спустя 6 месяцев после автоматического сбора. Ежедневно архивируются около 100 гигабайт общедоступной сетевой информации. Объем накопленной информации к октябрю 2001 г. составил 100 терабайт (11 млрд страниц).

Для пилотного проекта из архива Internet Archive Библиотекой Конгресса США отобраны 35 сайтов, связанных с президентскими выборами 2000 г., 29 из них – архивированы и включены в электронный каталог библиотеки. Для создания "зеркал" веб-сайтов использовалась свободно доступная программа HTTrack [www.httrack.com]. Во время создания "зеркала" веб-сайта программа регистрировала обнаруженные ошибки. Большинство из них связаны со ссылками на несуществующие файлы. В настоящее время архивные Интернет-материалы доступны со страницы web.archive.org/collections/e2k.html.

Трагические события 11 сент. 2001 г. нашли свое отражение и в Интернет-документах. Чтобы сохранить эти материалы, Библиотека Конгресса США совместно с Alexa Internet, webAtchivist.org и Pew Internet & American Life приступила к созданию крупномасштабной коллекции веб-документов [12]. Коллекцию начали создавать спустя несколько часов после атаки. Поиск материалов в архиве возможен по ключевому слову, названию, URL или путем выбора одной из 12 тематических рубрик: пресса, правительство, религиозные организации и т.д.

Архив Интернет-ресурсов организуется как электронная библиотека. Наряду с файлами, образующими "зеркало" веб-сайта, в электронной библиотеке хранятся метаданные, связанные с объектами (файлами) архива, и метаданные, связанные с процессом архивирования. Как правило, файлы "зеркала" веб-сайта являются модифицированными файлами, в которых прямые гиперссылки заменены косвенными для удобства навигации в архиве. Под косвенной гиперссылкой понимается ссылка на файл архива. Прямая гиперссылка – гиперссылка на страницу сети, определенная html-оригиналом.

Способы организации архива могут быть разными. Так, в Национальной библиотеке Швеции документы одного сервера группируют в один каталог (папку). В качестве имени каталога используют имя сервера. Этот каталог имеет столько подкаталогов, сколько "снимков" сервера производилось. Имена подкаталогов – порядковые номера "снимков". В проекте NEDLIB – на верхнем уровне каталогов архива – каталоги с именами, соответствующими календарной дате создания "зеркала". Файлы группируются в папки согласно веб-сайтам, которым они принадлежат. Для доступа используется информация о месте нахождения файла из базы данных.

Для хранения накопленной информации чаще всего используют магнитные ленты. Технические проблемы, связанные с обслуживанием архива Интернет-документов, – такие же, как и при обслуживании любой другой электронной библиотеки: обеспечение сохранности носителя информации и неизменности самой информации на нем; обеспечение наличия программных и аппаратных средств, необходимых для прочтения информации с авторским "внешним видом" документа. Эти проблемы еще ждут своего решения.

Помимо создания и сохранения информации, важный вопрос – организация доступа к электронному архиву. Именно обеспечение доступа к информации – предоставление материалов архива в пользование – конечная цель всех работ. Ключом к документам архива является электронный каталог. Очевидно, что поисковая форма должна включать такие поля, как URL, дата архивирования, название, автор (индивидуальный, коллективный), систематическая и/или предметная рубрика, ключевые слова. Несомненно, что лишь на основе изучения запросов и потребностей пользователей архива будет возможно создать оптимальный интерфейс.

В заключение хочется еще раз подчеркнуть: сеть Интернета растет и изменяется быстрыми темпами. Дни ее становления уже миновали. Сегодня Интернет представляет собой зеркало нашего общества. Сохранение ресурсов сети для будущих поколений – безотлагательная и посильная задача для национальных библиотек.

Список литературы

Electronic Publications Pilot Project (EPPP). Summary of the Final Report. Prepared by Words That Matter Inc. for the National Library of Canada 7 May 1996.
URL: www.ncl-bnc.ca/e-coll-e/ereport.htm.
Law Cliff. PANDORA – Towards a National Collection of Selected Australian Online Publications // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000).
URL: http://www.ifla.org/IV/ifla66/papers/174-157e.htm.
Mannerheim Johan, Arvidson Allan, Persson Krister. The Kulturarw3 Project – The Royal Swedish Web Archiw3e – An example of "complete" collection of web // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000).
URL: http://www.ifla.org/IV/ifla66/papers/154-157e.htm.
Lounama Kirsti. EVA. The Acquisition and Archiving of Electronic Network Publications in Finland.
URL: www.ercim.org/publication/ws-proceedings/DELOS6/eva.rtf.
Arms William Y. A Report to the Library of Congress. Web Preservation Project: Interim Report. 2001.
URL: www.cs.cornell.edu/wya/LC-web/unterim.doc.
Metsar Silvi. Estonian Resources of the Internet: Cataloguing and Archiving: ERIC@ / National Library of Estonia.
URL: www.nlib.ee/inglise/textid/lilaest2001/silvi_metsar.doc.
Nordic Web Archive.
URL: www.lib.helsinki.fi/tietolinja/0100/nwa.pdf
Mannerheim Johan. The WWW and Our Digital Heritage – the New Preservation Tasks of the Library Community // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000).
URL: http://www.ifla.org/IV/ifla66/papers/158-157e.htm.
Arvidson Allan, Persson Krister. Kulturarw3: The Swedish. WWW-Archive. Or, to Preserve the Swedish World Wide Web. URL: kulturarw3.kb.se/files/svetlogorsk.ppt.
Guidelines for the Selection of Online Australian Publications Intended for Preservation by the National Library of Australia.
URL: http://pandora.nla.gov.au/selectionguidelines.html.
Arms William Y., Adkins Roger, Ammer Cassy, Hayes Allene. Collecting and Preserving the Web: The Minerva Prototype // RLG DigiNews. 2001. Vol. 5, N 2 (April).
URL: http://www.rlg.org/preserv/diginews/diginews5-2.html.
Library of Congress, Internet Archive, Webarchivist. org and the Pew Internet & American Life Project Announce Sept. 11 Web Archive // News Form of The Library of Congress. October 11, 2001.
URL: http://www.loc.gov/today/pr/2001/01-150.html

На главную