Секция 2.
Автоматизированные библиотечные системы и технологии
Маршак Б.И.
Современные проблемы разработки и
внедрения автоматизированных библиотечно-информационных
систем: системный подход и оценка программного
окружения
Бродовский
А.И. Система автоматизации библиотек
ИРБИС: от третьего поколения к четвертому
Ступкин В.В. ИРБИС
в библиотечных системах стран СНГ: типологический анализ и статистика
Секция 3.
Сетевые технологии, мультимедиа и Интернет в библиотеках
Гончаров М.В.
Особенности библиотечных Интернет-комплексов
Федоров Б.Ф.,
Фридман В.П. Развитие технической базы Интернет-комплекса ГПНТБ России в рамках
проектов Федеральной целевой программы "Электронная
Россия"
Нежурбеда Г.Г.
Создание архивов Интернет-документов как новая задача национальных библиотек
Секция 6.
Библиотечные кадры, профессия и
образование
Адамьянц А.О.
Новый взгляд на современные возможности обучения будущих библиотекарей: новые
образовательные технологии кафедры информационных
технологий и электронных библиотек МГУКИ
Кузнецова Т.Я.
Дополнительное профессиональное
библиотечное образование: концептуальные основы
Пилко И.С.
Технологизация как тенденция развития
библиотечного образования
Арзуханов А.С.
Организация работы Учебно-методического
центра ГПНТБ России
Очолла
Деннис Н.Информационно-коммуникационные
технологии в школах библиотековедения и
информатики некоторых стран Африки
Секция 7.
Информационно-лингвистическое обеспечение
библиотечно-информационных систем
Зайцева Е.М.
Универсальная десятичная классификация применительно к книжному делу: разработки и
результаты практического использования
ИФЛА–2002
Эшкрофт Л.
Цифровой разрыв и электронные технологии
Нежурбеда Г.Г. Национальная библиотека Украины
им. В.И. Вернадского, Киев
Создание архивов Интернет-документов
как новая задача национальных библиотек
Большинство стран мира
стремится собрать, описать, сохранить,
обеспечить доступ к культурному и
интеллектуальному наследию народа,
используя музеи, архивы и библиотеки. С
появлением Интернета стремительно растет
количество электронных документов. Не имея
печатных аналогов, большая их часть,
несомненно, обладает исторической,
культурной или научной ценностью. Однако в
связи с иной природой, свойствами и
характером этих документов к ним
невозможно применять традиционные приемы и
методы формирования и использования фондов.
Традиционный библиотечный фонд
состоит из документов, являющихся
собственностью библиотеки. Механизмы
поступления документов определены и
регламентированы. Вопросы, связанные с
обработкой фонда и предоставлением
документов в пользование решаются в
соответствии с имеющимися в распоряжении
библиотеки документами. Характеристики,
идентифицирующие печатный документ,
и правила размещения этих характеристик на
документе определены и закреплены
национальными и международными
стандартами.
Печатный документ всегда имеет
определенный физический объем и линейную
структуру, содержание его неизменно в
течение времени. В отличие от печатных
сетевые документы могут изменяться с
течением времени и иметь разные содержание
и объем. Документы World
Wide Web чаще всего являются гипертекстовыми
файлами и содержат ссылки на другие
документы. Гипертекстовый файл может
включать рисунки, звук, видео и ссылки на
другие текстовые файлы. Учитывая
международный характер сети и
множественность связей между документами,
сложно выделить признаки, определяющие
понятие сетевой
документ и национальную принадлежность
документа.
Другая группа проблем,
возникающая при решении задач сохранения
электронных документов, связана с
зависимостью электронных документов от
программных и аппаратных средств.
Магнитные и оптические носители информации,
на которых хранятся электронные документы,
в настоящее время имеют срок службы около 10
лет. Далее они либо морально устаревают,
либо приходят в негодность из-за физических
повреждений.
Десятилетний срок неумолимо мал
по сравнению со столетиями, в течение
которых могут сохраняться бумажные
документы. Однако процесс подготовки
электронного документа требует гораздо
меньше времени и значительно дешевле, чем
создание традиционного бумажного
документа.
Легкость копирования
электронной информации, простота и
исчерпывающая полнота поиска, быстрота
получения абонентом необходимой
информации в любое время суток независимо
от места ее хранения привели к
стремительному росту количества сетевых
документов во всем мире.
Неся моральную, а в ряде стран и
законодательно закрепленную
ответственность за то, чтобы любой изданный
документ, который стал доступен
общественности, был сохранен и доступен в
дальнейшем, национальные библиотеки начали
работу над созданием инструментов и
технологий для сбора, регистрации и
архивирования Интернет-ресурсов с целью их
долгосрочного хранения.
Первым проектом, предполагающим
создание постоянной электронной коллекции
веб-документов в библиотеке, вероятно, был
проект EPPP (Electronic Publication Pilot Project)
Национальной библиотеки Канады,
стартовавший в июне 1994 г. [1].
В июне 1996 г. Национальная библиотека
Австралии начала проект PANDORA
(Preserving and Accessing Networked Documentary Resourcesof
Australia) [2]. В
сентябре 1996 г. Национальная библиотека
Швеции представила проект Kulturarw3
[3]. В июне 1997 г. в
Финляндии стартовал проект EVA
[4]. В 2000 г. Библиотека
Конгресса США начала проект MINERVA
(Mapping the Internet Electronic Resources Virtual Archive) [5, 11],
Национальная библиотека Эстонии – проект ERIC@
(Estonian Resources on the Internet; Cataloguing and Archiving) [6].
Следует отметить также NEDLIB – совместный
проект восьми национальных библиотек
Европы (Нидерландов, Франции, Норвегии,
Финляндии, Германии, Португалии, Швеции и
Италии) [7] и проект
организации Internet Archive
(www.archive.org).
Проведенные исследования
показали, что рост количества Интернет-документов
происходит по экспоненциальному закону, а
среднее время жизни документа в сети по
разным оценкам колеблется от 30 дней до 4
месяцев. В связи с этим промедление с
началом осуществления сбора и накопления
Интернет-документов в библиотеках (или
других специализированных учреждениях)
приведет к невосполнимой потере части
культурного наследия человечества.
Почему создание архивов
Интернет-документов должно стать задачей
именно национальных библиотек? Очевидно,
что ответственность за долгосрочное
хранение и обеспечение доступа к собранным
документам должна быть возложена на
учреждение с устойчивым финансированием,
имеющее опыт работы с документами (их
обработкой и организацией пользования).
Национальные библиотеки большинства стран
накопили большой опыт работы, неся
ответственность за хранение национальных
печатных изданий и регистрацию их в
национальной библиографии.
В случае возложения
ответственности за создание архивов
Интернет-документов на отдельные
организации (например владельцев веб-сайтов)
гиперссылки в архиве, указывающие на
ресурсы другой организации, будут
разорваны (не будут функционировать). С этой
точки зрения лучшее решение – организация
международного архива, но вероятность
скорого создания организации с
долгосрочным, устойчивым финансированием,
имеющей твердую юридическую основу своей
деятельности на международном уровне,
очень мала. Гораздо реалистичнее начать
создание национальных архивов Интернет-документов
в национальных библиотеках, учитывая уже
существующие межбиблиотечные традиции по
обмену опытом и совместной выработке
международных стандартов, форматов и
протоколов обмена информацией.
С точки зрения традиционных
подходов к формированию библиотечных
фондов при создании архивов Интернет-документов
можно выделить следующие процессы:
комплектование, учет и обработка фонда,
размещение и доставка документов по
требованиям абонентов, обеспечение
сохранности фонда.
Опыт зарубежных коллег показал,
что в качестве единицы учета фонда Интернет-документов
(веб-ресурсов) удобно использовать веб-сайт.
Процесс комплектования фонда заключается в
создании в библиотеке копии ("зеркала")
веб-сайта. Поскольку информация на веб-сайте
изменяется в течение времени, библиотека
должна создавать "зеркала" одного и
того же сайта периодически.
Количество веб-сайтов в странах,
где развита сеть Интернет, значительно
больше количества издательств, выпускающих
печатную продукцию. Например, в Швеции –
около 60 тыс. веб-сайтов, это в 20 раз больше,
чем традиционных издателей [8].
Обязательный экземпляр печатных
документов в Национальной библиотеке
Швеции занимает 1,7 км полок в год, а архив
веб-документов занял бы приблизительно 25 км
полок [9]. В настоящее
время архив состоит из 138 млн файлов объемом
в 4 497 гигабайт. "Снимки" Интернета
производились 9 раз. Архив включает все веб-
и gopher- страницы доменов .se
и .nu; веб-сайты
доменов .com, .org, .edu, .net,
содержащие шведские адреса и/или
телефонные номера, а также иностранные
материалы, имеющие отношение к Швеции (так
называемые Suecana).
Для формирования архива
используется программа-робот, которая ищет
Интернет-документы, используя специальный
алгоритм, а затем сохраняет найденные
документы на компьютере библиотеки,
стремясь таким образом осуществить
исчерпывающее комплектование фонда
Интернет-документов.
Другой подход предложен в
Национальной библиотеке Австралии, где
отбор сохраняемых веб-ресурсов
производится не программой-роботом, а
персоналом библиотеки. При разработке
принципов отбора Интернет-документов для
хранения здесь учитывается как то, что
объем Интернет-публикаций очень велик, так
и то, что многие из них имеют очень низкую
ценность. Поэтому принципы отбора Интернет-документов
более строгие и не столь всесторонние, как
при отборе печатных изданий.
Документы в архив включаются
независимо от того, находятся они на
серверах в Австралии или за ее пределами.
Отбор производится на основе анализа
содержания и определения его ценности.
Следует отметить, что Интернет-документы
часто не содержат сведений, составляющих
библиографическое описание традиционных
документов и служащих основой отбора.
Документ включается в архив, если его
большая часть посвящена общественной,
политической, культурной, религиозной,
научной или экономической жизни Австралии
или автор документа – австралиец, внесший
вклад в познание мира [10].
После того как документ отобран
для включения в архив, библиотека
обращается к издателю с просьбой разрешить
включить публикацию в архив и, если
необходимо, получить помощь в создании
копии. Копии документа включаются в архив с
периодичностью, устанавливаемой
персоналом библиотеки.
И метод ручного отбора Интернет-документов,
и метод автоматического сбора имеют свои
недостатки и достоинства. При
использовании автоматического метода
объем одного "снимка" Интернета в
Швеции превышает 1 терабайт. Процедура
сбора полного "снимка" может занимать
несколько месяцев. При этом нет гарантии,
что документы, связанные гиперссылками,
будут соответствовать по содержанию именно
тем документам, которые предполагались
авторами, из-за изменчивости сети в течение
времени формирования "снимка".
Автоматический сбор html-документов,
являющихся результатом обращения к базе
данных, невозможен.
В связи с нерешенностью
юридических вопросов создания таких
архивов (копирование без согласия автора –
нарушение закона об авторском праве), а
также вопросов предоставления в
пользование документов архива, в Швеции
доступ к архиву закрыт. В Австралии –
разрешен, благодаря практике заключения
договоров между библиотекой и автором
Интернет-ресурса.
Периодичность изменения
Интернет-документов колеблется в широких
пределах: от одного дня до нескольких лет.
Благодаря гибкости австралийской политики
сбора Интернет-документов, в архив не
попадают "дублеты" и есть возможность
чаще сохранять ресурсы, имеющие
периодичность изменения меньше времени
создания одного "снимка"
автоматическим путем.
Сравнение затрат на создание
архивов показывает, что австралийский
проект во много раз дороже, чем шведский. В
Швеции в создании архива участвуют лишь 4
человека [9]; однако в
будущем, вероятно, обслуживание и
поддержание архива в рабочем состоянии
будет дороже из-за его большого объема.
Несмотря на принципиальную
разницу, оба метода не являются
взаимоисключающими. Их успешное сочетание
можно видеть в проекте Библиотеки
Конгресса США – MINERVA
[11]. Проект
осуществляется благодаря тесному
сотрудничеству между библиотекой и
некоммерческой организацией Internet
Archive, которая хранит и обеспечивает
доступ к мировым Интернет-ресурсам (html-файлам), общедоступным с 1996 г. Ядро
архива составляют html-файлы,
которые передает в Internet
Archive компания Alexa
Internet спустя 6 месяцев после
автоматического сбора. Ежедневно
архивируются около 100 гигабайт
общедоступной сетевой информации. Объем
накопленной информации к октябрю 2001 г.
составил 100 терабайт (11 млрд страниц).
Для пилотного проекта из архива Internet Archive Библиотекой Конгресса США
отобраны 35 сайтов, связанных с
президентскими выборами 2000 г., 29 из них –
архивированы и включены в электронный
каталог библиотеки. Для создания "зеркал"
веб-сайтов использовалась свободно
доступная программа HTTrack [www.httrack.com]. Во время создания "зеркала"
веб-сайта программа регистрировала
обнаруженные ошибки. Большинство из них
связаны со ссылками на несуществующие
файлы. В настоящее время архивные Интернет-материалы
доступны со страницы web.archive.org/collections/e2k.html.
Трагические события 11 сент. 2001 г.
нашли свое отражение и в Интернет-документах.
Чтобы сохранить эти материалы, Библиотека
Конгресса США совместно с Alexa Internet, webAtchivist.org и Pew
Internet & American Life приступила к созданию
крупномасштабной коллекции веб-документов
[12]. Коллекцию начали
создавать спустя несколько часов после
атаки. Поиск материалов в архиве возможен
по ключевому слову, названию, URL
или путем выбора одной из 12 тематических
рубрик: пресса, правительство, религиозные
организации и т.д.
Архив Интернет-ресурсов
организуется как электронная библиотека.
Наряду с файлами, образующими "зеркало"
веб-сайта, в электронной библиотеке
хранятся метаданные, связанные с объектами
(файлами) архива, и метаданные, связанные с
процессом архивирования. Как правило, файлы
"зеркала" веб-сайта являются
модифицированными файлами, в которых
прямые гиперссылки заменены косвенными для
удобства навигации в архиве. Под косвенной
гиперссылкой понимается ссылка на файл
архива. Прямая гиперссылка – гиперссылка
на страницу сети, определенная html-оригиналом.
Способы организации архива
могут быть разными. Так, в Национальной
библиотеке Швеции документы одного сервера
группируют в один каталог (папку). В
качестве имени каталога используют имя
сервера. Этот каталог имеет столько
подкаталогов, сколько "снимков"
сервера производилось. Имена подкаталогов
– порядковые номера "снимков". В
проекте NEDLIB – на
верхнем уровне каталогов архива – каталоги
с именами, соответствующими календарной
дате создания "зеркала". Файлы
группируются в папки согласно веб-сайтам,
которым они принадлежат. Для доступа
используется информация о месте нахождения
файла из базы данных.
Для хранения накопленной
информации чаще всего используют магнитные
ленты. Технические проблемы, связанные с
обслуживанием архива Интернет-документов,
– такие же, как и при обслуживании любой
другой электронной библиотеки: обеспечение
сохранности носителя информации и
неизменности самой информации на нем;
обеспечение наличия программных и
аппаратных средств, необходимых для
прочтения информации с авторским "внешним
видом" документа. Эти проблемы еще ждут
своего решения.
Помимо создания и сохранения
информации, важный вопрос – организация
доступа к электронному архиву. Именно
обеспечение доступа к информации –
предоставление материалов архива в
пользование – конечная цель всех работ.
Ключом к документам архива является
электронный каталог. Очевидно, что
поисковая форма должна включать такие поля,
как URL, дата архивирования, название, автор (индивидуальный,
коллективный), систематическая и/или
предметная рубрика, ключевые слова.
Несомненно, что лишь на основе изучения
запросов и потребностей пользователей
архива будет возможно создать оптимальный
интерфейс.
В заключение хочется еще раз
подчеркнуть: сеть Интернета растет и
изменяется быстрыми темпами. Дни ее
становления уже миновали. Сегодня Интернет
представляет собой зеркало нашего общества.
Сохранение ресурсов сети для будущих
поколений – безотлагательная и посильная
задача для национальных библиотек.
Список литературы
Electronic
Publications Pilot Project (EPPP). Summary of the Final Report. Prepared by
Words That Matter Inc. for the National Library of Canada 7 May 1996.
URL:
www.ncl-bnc.ca/e-coll-e/ereport.htm.
Law Cliff. PANDORA
– Towards a National Collection of Selected Australian Online Publications //
66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000).
URL: http://www.ifla.org/IV/ifla66/papers/174-157e.htm.
Mannerheim Johan,
Arvidson Allan, Persson Krister. The Kulturarw3 Project – The Royal
Swedish Web Archiw3e – An example of "complete" collection of web //
66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000).
URL: http://www.ifla.org/IV/ifla66/papers/154-157e.htm.
Mannerheim Johan.
The WWW and Our Digital Heritage – the New Preservation Tasks of the Library
Community // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August
2000).
URL: http://www.ifla.org/IV/ifla66/papers/158-157e.htm.
Arvidson Allan,
Persson Krister. Kulturarw3: The Swedish. WWW-Archive. Or, to Preserve the
Swedish World Wide Web. URL: kulturarw3.kb.se/files/svetlogorsk.ppt.
Arms William Y., Adkins
Roger, Ammer Cassy, Hayes Allene. Collecting and Preserving the Web: The
Minerva Prototype // RLG DigiNews. 2001. Vol. 5, N 2 (April).
URL: http://www.rlg.org/preserv/diginews/diginews5-2.html.
Library of
Congress, Internet Archive, Webarchivist. org and the Pew Internet &
American Life Project Announce Sept. 11 Web Archive // News Form of The Library
of Congress. October 11, 2001.
URL: http://www.loc.gov/today/pr/2001/01-150.html