Home page | Каталоги и базы данных

Научные и технические библиотеки

УДК 025:65.011.56

Меррей Р.

Компоненты цифровой библиотеки
и их взаимодействие

Доклад на конференции и выставке "Онлайн—99" (OnLine'99), Лондон, Великобритания, Зал Олимпия, 8 дек. 1999 г.

Основной проблемой, возникающей при создании цифровой библиотеки, является обеспечение высококачественного обслуживания, устойчивого к изменениям, возникающим при переходе от старой технологии к новой, а также механизмы доставки информации при условии формирования достаточно когерентной (согласованной) и понятной конечному пользователю рабочей среды. Это нелегкая задача.

Что же такое цифровая библиотека и на что она похожа?

Цифровая библиотека может быть определена следующим образом: это управляемая среда (система), обеспечивающая интегрированный доступ к расширенному набору информационных услуг независимо от местонахождения исходного материала, его формата и характера хранилища, в котором находится материал, и функционирующая в соответствующих сферах бизнеса (областях экономики) и четких правовых рамках.

Некоторые приведенные ниже дополнительные определения помогут объяснить нашу позицию.

Управляемая среда. Обычно библиотеки играют роль организатора доступа к информации и знаниям. Интеграция в единую систему распределенных массивов данных и новые виды информации в новом окружении требуют изменения традиционной технологии работы с информационными ресурсами.

Расширенный набор информационных услуг предполагает, что система должна обеспечить основанную на стандартах инфраструктуру, дающую прозрачный доступ как к традиционным, так и к новым видам информации. Система должна быть способной и к эволюции (изменениям) для того, чтобы работать с появляющимися новыми типами данных, которые также будут включаться в ресурсы цифровой библиотеки.

Независимость от места, формата и подчиненности означает, что нужен такой доступ, который обеспечивает доступность удаленных ресурсов и подходит для любого вида информации. Доступ не должен определяться традиционными границами подчиненности — неважно, библиотека это, музей или архив. Цифровая библиотека должна объединять на базе открытых стандартов отдельные элементы в сетевую, многоотраслевую среду (систему).

Четко определенные правовые рамки и области экономики (бизнеса). Интеграция цифровых ресурсов с традиционными представляет серьезную техническую проблему при осуществлении информационной поддержки бизнеса и выполнении требований закона. В частности, последовательный подход к корректному решению вопросов авторского права и копирайта совершенно необходим, ибо это — защита конечного пользователя, библиотеки и издателя.

Компоненты цифровой библиотеки

Многие из проблем, с которыми библиотеки встречаются в ходе эволюции, являются традиционными. В то же время необходимость предоставлять одновременно как современные, так и традиционные услуги ставит ряд новых технологических вопросов. С учетом такого смешения специфических и общих проблем ясно, что системные решения для цифровой и гибридной библиотеки, в которой сосуществуют традиционные и электронные технологии, должны базироваться на интеграции большого числа компонент открытой системы. Некоторые из этих компонент — типично библиотечные, другие относятся к сфере информационных технологий и нуждаются в грамотном переложении для библиотечных нужд.

Компоненты цифровой библиотеки

Структура цифровой библиотеки требует, чтобы специалисты по библиотечным системам использовали и интегрировали элементы как специфической, так и общей информационной технологии. Только таким образом можно создать когерентную интегрированную систему, а не случайный набор ресурсов.

Для того, чтобы понять, как эти компоненты работают совместно, нам важно более подробно разобраться в функциях каждой из компонент — как по отдельности, так и во взаимосвязи с остальными.

Порталы. В рамках привычной терминологии WWW-сетей порталом называют Web-сайт — отправную точку, позволяющую осуществлять тематический поиск ресурсов сети. В контексте цифровой библиотеки работа портала обеспечивается протоколом Z39.50, позволяющим проводить поиск по разным базам данных и по разным секторам (доменам).

Доставка документов. Этот термин означает доставку документа или любого документоподобного объекта (например книги, журнальной статьи, изображения, электронных публикаций) коллективному или индивидуальному пользователю. Механизм доставки может варьироваться от традиционной почтовой пересылки реального, физически существующего документа до сканирования по заказу и пересылки электронной версии журнальной статьи и до полностью онлайновой доставки электронного ресурса.

Аутентификация и безопасность. Существуют вполне отработанные промышленные технологии идентификации пользователей. В рамках цифровой библиотеки эти технологии потребуются

для гарантированной идентификации пользователя при решении вопросов авторского права и для обеспечения надежных платежей в открытой сети.

Автоматизация библиотеки. Система автоматизации цифровой библиотеки должна интегрироваться с системой автоматизации традиционной библиотеки как для внутрибиблиотечных технологий, так и для получения наибольших преимуществ методики распределенного ресурса при пользовании фондами и ресурсами удаленных библиотек.

Межбиблиотечный абонемент. Традиционные методы МБА распространяются и на цифровые ресурсы; при этом практически реализуется механизм распределения ресурсов и контроля за движением документа (как в целях четкости оплаты, так и для отслеживания вопросов, связанных с копирайтом). Система цифровой библиотеки создает интерфейсы для обмена документами между поставщиками информации и библиотеками, а также для доставки документов пользователю.

Сбор информации. Во все большей степени проявляется требование интеграции сетевых ресурсов в систему обслуживания, предоставляемую цифровой библиотекой. Внутри некоторых таких ресурсов могут находиться и метаданные, например в форме стандарта Даблин Кор (Dublin Core). Технологии автоматизированного подбора информации, например компьютеризованным роботом-подборщиком (crawler), позволяют просматривать сетевые ресурсы и создавать каталоги нужных материалов. Представляя эти каталоги в формате протокола Z39.50, можно обеспечить интеграцию вновь найденных ресурсов с традиционной библиотечной средой.

Контроль правовых аспектов. Библиотеки несут значительную ответственность по обеспечению контроля за правовыми вопросами и процессом обеспечения копирайт платежей (у нас бы сказали отчислений) авторам (издателям, владельцам информации). При переходе от традиционной доставки документов к цифровой могут возникнуть серьезные технические проблемы. Принятие закона о правомочности электронной подписи и развитие соответствующих технологий безусловно облегчат и упростят процесс доставки электронных документов. Цифровые метки ("водяные знаки") позволят действенно управлять процессом защиты авторских прав и обеспечат соблюдение необходимых ограничений при пользовании полученным электронным материалом.

Цифровые архивы и сохранность. Проблемы обеспечения долговременной сохранности формируют особый интерес некоторых библиотек к технологии оцифровки. Это прежде всего означает проявление максимальной осторожности при выборе форматов хранения и носителей записей. В профессиональной литературе приводится масса примеров недопонимания разницы в требованиях обеспечить немедленный онлайновый доступ и обеспечить долговременное хранение.

Оцифровка. Для обеспечения необходимого начального объема оцифрованного материала в электронной библиотеке могут понадобиться высокопроизводительные (фактически промышленного масштаба) системы оцифровки и обработки данных. Хотя имеются определенные специфические требования при проведении этого процесса в самой библиотеке, технология оцифровки в достаточной степени стандартна, отработана до промышленного уровня и хорошо понятна.

Сканирование по заказу. Сканирование печатного документа по заказу применяется для электронной доставки тех документов, которые имеются в библиотеке в традиционной печатной форме. В зависимости от действующего в конкретной стране закона об авторском праве и ограничений на место пользования, электронная копия может уничтожаться немедленно после пользования или храниться для повторного использования.

Четкость оплаты. Для обеспечения механизма платежей могут применяться приспособленные к библиотечной специфике стандартные способы (например электронные платежи, кредитные карты, чеки, предоплата).

Распространение информации. Традиционный метод дифференцированного распространения информации (принятый у нас вариант—ДОР—дифференцированное обеспечение руководства) может применяться в разнородной и пространственно распределенной среде, составляющей электронную библиотеку. Этот метод может использоваться и для создания системы целенаправленного продвижения информации.

Электронные журналы и издания. Все больше выпускается электронных журналов и других электронных изданий. Цифровая библиотека может либо получать эти материалы и предоставлять их пользователю, либо обеспечивать посреднические услуги по доступу к удаленному ресурсу. Вне зависимости от специфики доступа пользовательский интерфейс и условия доставки должны быть идентичными.

Криптографирование (шифровка). Для обеспечения аутентичности документа, четкости и надежности платежей при электронной разметке "водяными знаками" требуется стандартная промышленная технология (см. Контроль правовых аспектов).

Системы иерархического хранения. Если объемы оцифрованного материала, подлежащего хранению, станут чрезмерно большими, может потребоваться применение стандартной промышленной системы иерархического хранения. Эта система подразумевает содержание наиболее часто запрашиваемых материалов в легкодоступном (как правило недешевом) формате хранения; малоспрашиваемые материалы могут храниться в менее дорогостоящих форматах и на относительно недорогих носителях.

Серверы метаданных. Серверы метаданных обеспечивают доступ к структурированным наборам данных. Предоставление наборов данных в форме стандартного портала (отправная точка поиска по какой-либо конкретной тематике) обеспечивается применением стандарта Z39.50 для интерфейса поиска во всех хранилищах метаданных.

На что похожа цифровая библиотека?

Очевидно, что требования к цифровой библиотеке у пользователя, библиотекаря и сетевого (системного) администратора различные, поэтому и ответы на данный вопрос будут разными. Следовательно, создателям цифровой библиотеки необходимо понимать и учитывать все требования и найти способы решения поставленных разнородных задач.

Позиция пользователя — обеспечение интегрированного доступа

С точки зрения пользователя цифровая библиотека должна обеспечивать единство средств доступа и обслуживания. Хотя среда поиска материалов, необходимых пользователю, может быть совершенно неоднородной, состоящей из разрозненных источников информации и к тому же записанной в различных форматах, для пользователя все это неважно: ему должна предоставляться унифицированная и простая картинка. При создании такого рода системы необходимо решить ряд существенных вопросов.

1. Пользователю нужно создать возможность поиска в разных базах данных. Среда, в которой осуществляется поиск, может быть существенно неоднородной, но это не должно сказываться на процессе поиска, независимом от местоположения ресурсов — в данной библиотеке или в других учреждениях. Форма представления должна быть единой как для местных ресурсов, так и для импортированных. Разница в поисковых средствах различных баз данных и в различных выходных форматах не должна ощущаться. Поиск не должен зависеть от характера ресурса, будь то библиотечный каталог, архивы, электронные журналы или указатели, сетевые указатели.

2. Для пользователя должны создаваться персональные порталы (отправные точки), соответствующие их индивидуальным потребностям и предоставляющие достаточно широкие права по извлечению материала.

3. Пользователю должна предоставляться согласованная система просмотра — поиска — обнаружения ресурса — его заказа — доставки (с заранее предусмотренной возможностью различных способов доставки документа, например от традиционной асинхронной доставки документа до возможности онлайнового просмотра Web-страниц и т.п.).

4. Контроль за правовыми вопросами и аутентичностью подразумевает, что пользователь будет обращаться к совершенно различным ресурсам с разными условиями применения авторского права и удостоверения подлинности (аутентичности). По возможности подобные нюансы разности не должны беспокоить пользователя, хотя сделать это очень нелегко.

Позиция библиотеки — интегрированное управление

Взаимодействие различных организаций и использование распределенного ресурса всегда были типичны в работе библиотеки. В полной мере это относится и к цифровой библиотеке, поскольку универсальный и всеобъемлющий характер сетевого доступа создает новые возможности для использования распределенного ресурса. Для реализации сетевого функционирования библиотеке нужно заботиться не только о том, какой интерфейс она предоставляет своим читателям (пользователям, находящимся непосредственно в библиотеке), но и о том, как ей взаимодействовать с другими библиотеками, центрами информации и как выглядит ее интерфейс в этих учреждениях.

При создании устойчивой и управляемой системы обслуживания пользователей и системы взаимодействия с другими организациями возникает ряд серьезных проблем, связанных со структурой цифровой библиотеки.

1. Цифровая библиотека должна формировать единообразный интерфейс доступа к самым разнообразным видам ресурсов; также следует обеспечить доступ к ресурсам независимо от их местоположения. Это касается как пользовательского доступа, так и служебных задач, связанных с контролем движения документа и оплатой за посредничество при его доставке из другого места.

2. В зависимости от роли библиотеки в информационной сети нужно иметь в распоряжении пользовательский интерфейс, интерфейс работы с другими библиотеками или информационными центрами, входящими в сеть, т.е. системный интерфейс. Все проблемы, связанные с согласованностью и единообразием доступа, равно относятся как к пользовательскому, так и к системному интерфейсам.

3. Должен быть предусмотрен единый способ управления многообразными системами доставки документов (как уже отмечалось, имеется целый спектр способов доставки — от почтовых отправлений до автоматизированной системы доставки в режиме онлайн). Для создания системы устойчивого и надежного обслуживания нужно обеспечить независимость решения управленческих проблем от механизма доставки. Таким способом удастся сформировать единый центр управления вопросами авторского права, выписки и проверки счетов на оплату, контроля за движением документа и т.п.

4. Система должна устойчиво, надежно функционировать и при обращении пользователя к разнородным и распределенным по многим местам хранения ресурсам. Это разнообразие дополнительно усложняется существующим различием авторских прав и правил пользования материалами, которые зависят от вида применения (индивидуально или коллективно) и характера самого материала.

5. Система должна быть способной воспринимать любые методы оплаты как между библиотекой и ее пользователями, так и в расчетах с другими родственными учреждениями.

Позиция сетевого (системного) администратора — интегрированные стандарты

Ясно, что инфраструктура цифровой библиотеки включает в себя не только функции обеспечения взаимодействия отдельных компонент библиотечных технологий, но и взаимодействие с другими учреждениями. Отсутствие стандартизации системных интерфейсов и интерфейсов отдельных компонент непременно приведет к созданию необычайно сложной, неустойчивой и безумно дорогой системы. Обязательность применения стандартов на всех уровнях — от формата самих данных или метаданных до форматов доступа и протоколов обеспечения безопасности — единственный способ гарантировать долговременную, устойчивую и безопасную работу.

Ключевым моментом в создании фундамента эволюции библиотеки — от традиционной к цифровой — является система, формирующая пользовательскую среду, в том числе стандартные системные интерфейсы для управления работой в условиях распределенного ресурса и информационного посредничества. Основой пользовательской среды должны служить системы контроля за движением документов, улаживания правовых проблем и служба платежей/расчетов.

С течением времени цифровая библиотека должна сохранять устойчивое и надежное управление в условиях все возрастающего количества способов доставки документов (от традиционной почты до самых современных методов электронной доставки).

Отличительной особенностью новой среды будет функциональное единство разных методов доставки.

1. Асинхронная доставка физически существующих (реальных) документов — традиционная доставка печатных материалов по почте или факсом;

2. Асинхронная доставка отсканированных по заказу документов; при этом электронная доставка документа предваряется помощью сотрудника библиотека при сканировании материала, а сам процесс является асинхронным, т.е. разорванным во времени;

3. Асинхронная автоматизированная электронная доставка документов подразумевает автоматизированную обработку заказа пользователя, проверку наличия запрошенного материала в электронной форме, персонализированную доставку, проверку прав пользователя и оформление платежей до передачи документа пользователю;

4. Синхронная электронная доставка предполагает доставку документа единовременно с запросом в ходе одного сеанса. В отдельных случаях это может оказаться довольно простым делом (например, когда документ не занят или когда пользователь имеет специальную подписку — приоритетное право на данный вид ресурса); в более общем случае необходимо в режиме реального времени провести проверку правовой стороны и авторизацию платежей;

5. Синхронная поточная доставка представляет собой расширение системы синхронной доставки на непрерывные (поточные) данные, например звук или видео.

Применение стандартов

Трудно переоценить важность следования стандартам в работе цифровой библиотеки. Прежде всего нужно наладить дружную, согласованную работу отдельных элементов (имеется в виду система, состоящая из отдельных элементов цифровой библиотеки, подобная картинке-головоломке—puzzle).

В библиотечной истории было немало стандартов, и сегодня их великое множество. К сожалению, как поставщики информации, так и профессиональные библиотекари не смогли полностью воспользоваться потенциальными возможностями, заложенными в недавно введенном стандарте Z39.50.

В мире цифровых библиотек нужно обязательно пользоваться стандартами, указанными в таблице.

Сводный перечень стандартов, необходимых для работы цифровой библиотеки

Функция

Стандарт

Цель

Поиск/определение местонахождения. Стандартизованный поиск необходим для реализации концепции доступа к распределенным и неоднородным ресурсам.

Z39.50

Разработанный ANSI/NISO стандарт поиска информации включает определения и протокол спецификации, позволяет осуществлять с одного сервера запросы и поиск материалов, находящихся на другом сервере.

Запрос. Протокол контроля запроса создает согласованный интерфейс пользователя, который осуществляет запрос. Протокол может состоять как из простой команды "Доставить" (НТТР), так и сложнейших переговоров, допускаемых стандартом межбиблиотечного абонемента — ISO 1060/1061 Item Order

HTTP

 

ISO 1060/1061

Z39.50

Hyper Text Transport Protocol — гипертекстовый транспортный протокол.

Приложение к Стандарту взаимодействия открытых систем в рамках МБА.

Предусмотренное стандартом Z39.50 действие для запроса документов.

Доставка. Этот термин означает доставку любого документоподобного объекта пользователю.

 

 

Стандарты метаданных.

Принятие стандартов совершенно необходимо для обеспечения долговременной сохранности данных и межплатформенного взаимодействия.

GEDI

 

 

HTTP

 

Dublin Core

 

 

EAD

 

MARC

RDF

Group on Electronic Document Interchange — стандарт, разработанный группой по обмену электронными документами.

Hyper Text Transport Protocol — гипертекстовый транспортный протокол.

Это упрощенный стандарт для обмена метаданными между различными массивами; также применяется для поиска метаданных в сети.

Encoded Archival Description — это записанные в языке SGML DTD архивные метаданные.

Традиционный библиографический формат обмена данными.

Resource Description Format — формат описания ресурсов, выполненный на языке XML DTD.

Идентификатор документа. Уникальный (или почти уникальный) идентификатор имеет фундаментальное значение в библиотечной технологии для идентификации дублетных материалов. Схемы идентификации специфичны — зависят от типа материалов.

DOI

ISBN

 

ISSN

 

SNCI

 

 

 

 

 

URN/URI

Digital Object Identifier — идентификатор цифрового объекта.

International Standard Book Number — международный стандартный номер книги.

International Standard Serial Number — международный стандартный номер периодического издания.

Serial Number and Contribution Identifier — идентификатор номера периодического издания с указанием интеллектуальной ответственности определяемый как стандарт Z39.56 Американского института стандартов ANSI/NISO.

Uniform Resource Name/Identifiers — унифицированное наименование и идентификатор ресурса.

Стандарты записи данных. В цифровой библиотеке будут храниться записи, сделанные в различных форматах.

HTML

JPEG

 

 

 

MPEG

 

PDF

 

 

SGML

 

Unicode

 

 

XML

Hyper Text Markup Language — язык гипертекстовой разметки.

Joint Photographic Experts Group — стандарт сжатия данных изображения с многими уровнями серого цвета или цветного изображения; формат разработан рабочей группой ISO/IEC.

Motion Picture Expert Group — стандартизованный формат для видео- и звукозаписей.

Portable Document Format — этот формат широко применяется при публикации трудов конференций, журнальных статей и т.п.

Standard Generalised Markup Language (ISO 8879) — обобщенный язык со стандартной разметкой.

Международный обобщенный набор таблиц записи знаков различных алфавитов, необходимый при работе с многоязычными коллекциями.

Extensible Markup Language — язык с расширенными возможностями разметки, широко используется в сети.

Заключение

Ясно, что интеграция цифровой среды в библиотечное дело окажет существенное влияние на обслуживание и на внутрибиблиотечные технологии. В то время как отдельные отрасли экономики стремятся стать лидерами во внедрении цифровых технологий, библиотеки обязаны прежде всего убедиться в том, что выбранный метод обеспечивает устойчивое, надежное и удобное обслуживание с точки зрения пользователя. Само по себе это требование достаточно противоречиво, ибо отставать библиотекам тоже ни к чему, если они не хотят быть выброшенными на обочину.

Роль стандартов является определяющей при разработке устойчиво функционирующей системы. Интеграция соответствующих стандартов в модель внутрибиблиотечных технологий будет ключевым элементом разработки проекта цифровой библиотеки. Недостаточное внимание к проблеме стандартов вызовет лавинообразный рост количества интерфейсов и приведет к невозможности обеспечения качественного и надежного обслуживания из-за технических проблем.

Несмотря на сложнейшие проблемы, ясно, что уже сейчас вполне можно построить блоки цифровой библиотеки. Архитектором цифровой библиотеки будет тот, кто сможет на достаточно разумном уровне соединить в модели библиотечного дела специфические библиотечные технологии с промышленно принятыми информационными технологиями.


Copyright © 1995-2000 ГПНТБ России