Научные и технические библиотеки №7 2010 год
Содержание:

БИБЛИОТЕЧНО-ИНФОРМАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ: ТЕОРИЯ И ПРАКТИКА

Евстигнеева Г. А. Библиотеки в электронной среде – куда стремимся и обо что спотыкаемся

Панарина О. С., Сосипатрова В. И. База данных «Книгообеспеченность» – инструмент информационного обеспечения учебного процесса и система управления формированием фонда вузовской библиотеки

О книгообеспеченности и не только о ней. (Комментарии к статье О. С. Панариной и В. И. Сосипатровой)

Евдокименкова Ю. Б., Соболева Н. О. Библиотека Института органической химии им. Н. Д. Зелинского РАН

ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ И СИСТЕМЫ

Сукиасян Э. Р. Консультант, эксперт при индексировании

Халабия М. Л. Предпосылки создания универсального формата библиографических данных

НАША ПРОФЕССИЯ

Кузьмина А. Ю. Кодекс профессиональной этики: мнение библиотекарей

«РОССИЙСКИЙ "БИБЛИОБУС" В АМЕРИКЕ»: интервью, репортажи. (Научно-образовательная профессиональная программа «Библиотечное дело, информационные системы и образование в США – 2010»)

Вопросы и ответы: интервью с Я. Л. Шрайбергом

ОБЗОРЫ. РЕЦЕНЗИИ

Столяров Ю. Н. Мемуары легендарной В. А. Артисевич

Стрелкова И. Б. Образование на протяжении всей жизни. Аналитический обзор литературы последнего десятилетия

ИНФОРМАЦИОННЫЕ СООБЩЕНИЯ

«Online Information – 2009»

Бычкова Е. Ф. «Информационные ресурсы и проекты библиотек по экологии и окружающей среде Московской области» – семинар в ГПНТБ России


УДК 025. 32

М. Л. Халабия

Предпосылки создания универсального формата
библиографических данных

На современном этапе специалисты в области информатики, прикладной лингвистики, каталогизации документов высказывают различные точки зрения о минимальном наборе библиографических данных при описании документа. Каталогизаторы в своей практике предпочитают ориентироваться на преимущества более тщательно разработанных правил каталогизации и согласны на увеличение трудоемкости создания библиографической записи (БЗ) и повышения ее стоимости. Специалисты по прикладной лингвистике указывают на то, что  дополнительные структурные элементы позволяют добиться большей точности описания документа. Таким образом, разные подходы к представлению состава библиографических данных в машиночитаемом виде усложняют поиск адекватной модели представления библиографического описания.

С появлением форматов семейства MARC, а также результатов исследований, посвященных «функциональным требованиям к библиографическим записям» (Functional Requirements for Bibliographic Records – FRBR) и «функциональным требованиям к авторитетным данным» (Functional Requirements fo rAuthority Data – FRAD), появились идеи о том, что существующую библиографическую информацию, созданную с помощью форматов семейства MARC, можно конвертировать  в соответствии с требованиями модели FRBR. С развитием форматов изменилось наше представление о библиографическом универсуме, структурированном на библиографические и авторитетные элементы данных.

В России, как и во многих других странах, пытаются пересмотреть концепции отображения машиночитаемой БЗ. Так, в Российской государственной библиотеке  состоялся научно-исследовательский семинар, в котором приняли участие специалисты РГБ, РКП, ИНИОН РАН и других библиографирующих организаций.  На нем обсуждалась модель FRBR. Высказано мнение, что  FRBR несет в себе определенную теоретическую ценность. Участники семинара пришли к выводу, что в качестве принципа построения модели используются основы проектирования реляционных баз данных [1]. Кроме того, в работах Н. Н. Каспаровой [2] проанализированы состав и структура элементов данных в международных форматах семейства MARC.

В сложившейся ситуации основными факторами для пересмотра существующих теоретических положений БЗ являются:

1. Новые требования информационных технологий к структуре БЗ;

2. Возрастающие запросы пользователей, работающих в Интернете.

Форматы семейства MARC, созданные в конце 1960-х – начале
1970-х гг., которые библиотечное сообщество использует для каталогизации документов, также не лишены недостатков. Несовершенстваэтих форматов обусловлены исходным форматом USMARC. К ним можно отнести:

  • отсутствие концептуальной схемы при проектировании данных  для библиографических форматов;
  • сложность в идентификации функций некоторых полей форматов;
  • разный уровень стандартизации элементов данных в функциональных блоках форматов для библиографических данных;
  • избыточность данных.

Форматы семейства MARC используются для самых разных функций, включая ввод, отображение и обмен библиографическими записями. Однако они не имеют четко выраженной концептуальной схемы. Она частично отображена в документации, посвященной форматам, частично описана на страницах профессиональной печати и в какой-то мере представлена в национальных правилах каталогизации. На наш взгляд, правила каталогизации не могут содержать признаки концептуальной схемы, так как они основаны на национальных традициях каталогизации.

Применение Международного стандартного библиографического описания (ISBD) как фундамента для концептуальной схемы форматов семейства MARC может являться обоснованным решением. Форматы регламентируют элементы библиографических данных и определяют форму ввода для каждого элемента БЗ, включенного в машиночитаемую запись. Отсутствие концептуальной схемы выражается в избыточности элементов данных, содержащихся в машиночитаемой БЗ. Кроме того, недостаток документированной концепции элементов данных отрицательно сказывается на функциях полей переменной длины в форматах семейства MARC.

Следующим шагом в развитии теоретических представлений о БЗ являются положения концептуальной модели FRBR, которые разработаны под эгидой ИФЛА и призваны изменить ее структуру. Следует отметить, что предмет столь пристального изучения – только БЗ с ее внутренними и внешними связями, основанными на модели «сущность-связь» (ER-model).  Суть концепции заключается в разбиении БЗ на сущности, выделенные в три группы, состоящие из атрибутов и библиографических связей. Первую и самую важную группу объектов функциональных требований к библиографическим записям составляют сущности, которые тесно связаны с представлениями пользователя библиотеки о том, какой должна быть БЗ и какую информацию она должна представлять. Объекты БЗ в FRBR подразделяются на абстрактные (произведение, выражение) и физические (воплощение, физическая единица) составляющие. Существуют направления реализации модели FRBR на уровне программного обеспечения.

Основная проблема модели FRBR (на примере  каталога World Cat) заключается в том, как перевести примерно 50 млн записей, содержащихся в каталоге, в соответствие с принципами FRBR. WorldCat – крупнейшая библиографическая база данных OCLC, которая на сегодняшний день содержит примерно 1,4 млрд БЗ на разных языках мира и на любых носителях информации. В нем БЗ эквивалентны сущности модели FRBR «воплощение».

Для перевода записей, содержащих элементы данных формата семейства MARC, в соответствии с положениями концептуальной модели FRBR используется алгоритмический подход, который в большинстве случаев является довольно простым. Его суть заключается в генерировании записей, которые содержат одного автора и заглавие, в их сортировке и, как следствие, в определении ключей соответствия, подсказывающих, что записи находятся внутри одной и той же сущности «произведение».

С помощью описанного выше алгоритма в WorldCat идентифицировано 37 772 687 отдельных произведений. Большинство из них – 36 330 501 – являются произведениями, содержащими только одно воплощение. И только 32 произведения имеют более 1 500 воплощений.

Однако при анализе соответствий записей, содержащихся в WorldCat, были выявлены следующие недостатки в составлении БЗ.

Наличие орфографических ошибок. Как следствие,  предложенный алгоритм целый ряд записей считает введенными под разными авторами. Например, Smolett, Tobias George и Smollett Tobias George. Имеются ошибки и при вводе заглавия в библиографическую базу данных. Например, Humphry вместо Humphrey. Результат неверного написания – отсутствие перекрестной ссылки с Humphrey. Следовательно, каждое следующее заглавие будет обработано как оригинальное.

Приведенные примеры выявили недостатки при создании БЗ и в WorldCat. Таким образом, при использовании алгоритмического подхода для конвертирования элементов данных семейства MARC в FRBR могут появляться ошибочные цепочки, состоящие из сущностей произведения – выражения – воплощения. Кроме того, идентификация всех воплощений пересмотренных произведений, под которыми понимается интеллектуальное или художественное содержание, дополненное или как-то иначе пересмотренное, может быть  проблематичной. В некоторых случаях не всегда возможно установить унифицированное заглавие произведения. Возникают сложности в установлении границ множественных произведений, под которыми понимают любую комбинацию составных произведений. Чаще всего это коллекции произведений одного автора, но может быть и другое основание для собирания составных произведений, например тема (произведения).

Возвращаясь к алгоритмическому подходу по переводу записей, содержащихся в WorldCat OCLC в соответствии с моделью FRBR, кажется, что он не отражает действительность. Так как функциональные требования к БЗ – сложившаяся модель данных, которая показывает новый взгляд на каталогизационные данные и не может являться способом, позволяющим идентифицировать существующие БЗ отношениями, описанными в модели [3].

Другое направление в реализации модели FRBR – производство программных продуктов, базирующихся на основных положениях концептуальной модели FRBR. К таким системам относятся инструменты проявления модели FRBR [4] и  приложение, основанное на поисковом программном обеспечении ISIS [5], которое гарантирует выполнение концептуальной модели.

Департамент развития MARC-стандартов Библиотеки Конгресса США пересмотрел последние рекомендации к форматам семейства MARC с позиций положений о функциональных требованиях к БЗ. Примеры с иерархическими связями отображены в «DisplaysforMultipleVersionsformMARC21», которые и стали основой для развития инструментов отображения модели FRBR.

Инструмент отображения работает с «плоской» структурой БЗ, созданной в MARC-формате. В отличие от других программ он не генерирует отдельные записи на сущности произведения, выражения и т.д., а анализирует уже готовые MARC-записи на предмет сущностей концептуальной модели. Следовательно, БЗ, взятая из электронного каталога, генерируется в XML-документ с выборочным использованием элементов для создания метаданных MODS. Затем, отображая данные в HTML, превращает исходную БЗ в FRBR-документ посредством таблицы стилей XSL. Путь следования записи через инструмент проявления представлен на рис. 1:

Рис. 1. Процесс трансформации данных MARC21 в модель FRBR
на языке HTM

Следует отметить, что на этот программный продукт очень сильное влияние оказывает «плоская» структура элементов данных формата семейства MARC. Таким образом, последовательность библиографических данных воздействует на итоговое применение результатов инструмента отображения FRBR.  Кроме того, «Департамент развития MARC-стандартов» Библиотеки Конгресса США обнаружил, что БЗ, в которых последовательно использованы унифицированные заглавия, представляют наиболее качественные FRBR-проявления. Напрашивается вывод: не все БЗ, отраженные в современных электронных каталогах, подходят для конвертирования в соответствии с моделью FRBR. Следовательно, небольшой процент записей, содержащих унифицированные заглавия, можно конвертировать в FRBR-проявления при помощи специального программного обеспечения [4].

Таким образом, описанное программное обеспечение и направление по реализации модели FRBR может хорошо взаимодействовать только с MARC-записями, содержащими унифицированные заглавия.

Кроме описанного выше программного продукта, используется приложение прототипа ISIS. Это – FRBR-приложение, оно основано на программном обеспечении ISIS, которое поддерживается ЮНЕСКО и разработано Роберто Стерманом [5]. Приложение позволяет, с одной стороны, производить поиск, просматривать и осуществлять навигацию среди искомой библиографической информации, с другой – вставлять, редактировать и удалять сущности, теоретически разработанные в модели FRBR, а также устанавливать сложные отношения между сущностями. Однако это приложение не поддерживает любой импорт/экспорт записей, кроме построенных в соответствии с ISISISO 2709.

Программный продукт ISISFRBR, известный под аббревиатурой IFPA, состоит из трех интерфейсов. Первый спроектирован под DOS и является текстовым редактором, разработанным для управления функциями просмотра, поиска, навигации и редактирования. Он состоит из платформы CDS/ISIS, базирующейся на программном обеспечении, которое распространяет ЮНЕСКО, и интегрированного набора утилит BEx, развитых для управления реляционной структурой баз данных в среде ISIS. Два остальных интерфейса – графические, основаны на Microsoft Windows и Web.

В процессе работы приложение IFPA поддерживает все три типа БЗ модели FRBR: библиографические сущности первой группы; сущности ответственности/собственности (сущности второй группы); предметные сущности (сущности третьей группы).

Для описания записей в соответствии с моделью FRBR разработан специальный формат, который состоит из пяти функциональных блоков, подобных MARC-форматам, и включает в себя 67 полей. При этом ряд кодированной информации блока 0xx заимствован из формата MARC для библиографических данных.  На наш взгляд, этот факт указывает на некоторые недостатки формата:

1) его структура заимствована из формата MARC;

2) ряд обозначений кодированной информации также вошел в формат IFPA  из форматов семейства MARC для библиографических данных.

Таким образом, прослеживается тенденция показать «воплощение» модели FRBR элементами данных, заимствованных из MARC-форматов. Тем не менее, это программное обеспечение продолжает развиваться. На сегодняшний день доступно для использования приложение IFPA2, которое создано в 2008 г. [5, 6].

Третье направление – создание набора метаданных, основанных на модели FRBR. Здесь можно выделить схему для моделирования метаданных MARC, представляющую информацию об объектах и предметах, получившую название XOBIS (XMLOrganicBibliographicInformationSchema, структурная библиографическая информационная XML-схема) [7].

Концепция структуры метаданных, созданная Кевином Кларком [Там же], обеспечивает краткий обзор основной структуры XOBIS. Она показывает корневой элемент «RecordList» c намеченным набором для комбинирования данных из различных реализаций. Каждая запись имеет структуру, состоящую из трех частей: ControlData, любого из принципиальных элементов и отношений. Каждое отношение к другому принципиальному элементу может иметь наименование, длину и описание. Также представлены три атрибута, доступных для отношений:

  • степень – предусматривает силу связей, например «первоначальную» версию «вторичного» тематического концепта;
  • класс – имеет 10 элементов к каждому из принципиальных элементов по виду целевого вовлечения, т.е. «композиционное» произведение, «жизненное» для Being (персона) и т.д.;
  • тип – для категоризации родственного навигационного направления или типа вовлеченной ординаты (подчиненный, соподчиненный, предопределенные, ассоциативные, разобщающие).

Каждый принципиальный элемент имеет точку доступа, формирующую ядро записи. «Значение» определяет применение одного из  различных наименований элементов,  зависящих от случая. Это может быть заглавие, сегмент заглавия, имя, год и т.д. В большинстве случаев могут применяться квалификаторы. Четкая разграничительная линия определяет, что квалификаторы и отношения вместе представляют собой справки (ссылки) принципиального элемента, является он «установленным» или нет. Это привносит авторитетный контроль в квалификаторы. Различные заменители делают этот авторитетный контроль более гибким, записывая контролируемые альтернативные формы точки доступа, которые могут быть использованы в квалификаторах, где атрибуты устанавливают вид  значений замещения. Описание дополняет это ядро.

Функциональные версии отражены пунктирной линией. Каждая версия имеет свой ID (идентификатор) и свои отношения. Эта структура включена на начальной стадии для поддержки подхода «одной записи» для одинаковых версий сериальных изданий, реализованных на идее «замещаемости». Пользователю, знающему о различных форматах, следует искать общее допустимое содержание «замещения».  Несмотря на то, что оглавления различных переводов или деривативных произведений не могут автоматически удовлетворять одному и тому же  запросу. Это является еще одним примером структурного обоснования функциональности. Версии интегрированы в одинаковую запись, как в текущей структуре, так и в определенно отображенной связанной записи.  Что не мешает дублированию записей, разделенных на все версии, поскольку трудности поддержки одной записи хорошо известны.

Рис. 2. Основная структура XOBIS

В таблице представлены определения девяти рабочих принципиальных элементов структурной библиографической схемы XOBIS.

Существенный недостаток этого набора метаданных – отсутствие какой-либо поддержки данных форматов семейства MARC.

Рабочие определения принципиальных элементов XOBIS

Принципиальный элемент

Рабочее определение

Концепт – Concept

Тематическая и/или категориальная конструкция (осязаемая или неосязаемая), представленная иным способом

Последовательность – String

Отдельные или сознательно разделенные слова или фразы, включая числа, буквы и т.д.

Язык – Language

Система спецификаций коммуникаций: речевая, письменная или знаковая

Организация  – Organization

Организованная группа, включая подразделения юрисдикции

Событие – Event

Переименованное макрособытие, естественно совершающееся или управляющееся индивидами (людьми, животными и т.д.) или организациями.

Место – Place

Структуры, географическое местоположение и юрисдикции, включая внеземного происхождения.

Персона – Being

Особым образом идентифицированная  реальная или нереальная персона (существующая или умершая) и / или персонификация

Объект – Object

Заводские, ремесленные или естественным образом совершаемые вещи, исключая место, персону и произведение

Произведение – Work

Художественное или интеллектуальное творение, исключая те, что считаются местом или объектом.

Последним, четвертым, направлением в реализации модели FRBR можно считать создание электронных каталогов нового поколения с гибкой иерархией связей.  Этот подход – новый и совершенно не изученный специалистами в области библиотечного дела и каталогизации документов, так как требует создания соответствующего лингвистического обеспечения, которое бы отвечало новым требованиям.

Однако анализ концепции FRBR показал, что ее положения сложно использовать для составления БЗ. Итак, рассмотрев объекты FRBR с помощью положений семиотики (треугольника Фреге) [8], мы пришли к неоднозначным выводам, а именно:

  • сущности произведения и выражения – предметы изучения таких наук, как литературоведение и искусствоведение;
  • вследствие того, что объекты произведения и выражения являются объектами исследования литературоведческих и искусствоведческих дисциплин, они функционируют «сами по себе» и могут быть описаны иным метаязыком, который не согласуется с языком БЗ;
  • при составлении БЗ с помощью FRBR отсутствует переход от абстрактных сущностей (произведение, выражение) к конкретным (воплощение, физическая единица) [9].

Основу концепции FRBR составляет модель «сущность – связь» (ER-model). Следует отметить, что сегодня не существует единого общепринятого стандарта этой модели. Но вместе с тем имеется набор общей, представленной выше конструкции, которая лежит в основе большинства вариантов [10].

Примеры FRBR-представлений, данные такими специалистами, как Барбара Тиллетт и Патрик Ле Бёф,  являются точными и правильными описаниями с той лишь разницей, что в них по-разному расставлены акценты в понимании сущностей и отношений, отраженных в концепции.

Следовательно, разложение БЗ на сущности при помощи модели FRBR нельзя считать унифицированным, так как сложно добиться единообразия при их описании и моделировании. Таким образом, любая библиографирующая организация имеет право создавать свои собственные FRBR-представления, далекие от единства формы и стандартизации, исходя из представленного определения ER-модели.

Исходя из вышесказанного, можно сделать вывод: российской библиотечной общественности необходим новый набор библиографических элементов данных, который, с одной стороны, содержал бы требования к национальной каталогизации документов, с другой – отвечал бы ожиданиям пользователей библиотеки.

Список источников

1. Функции БЗ в электронной среде: Семинар Б. Семеновкера // Библиотековедение. – 1999. – № 2. – С. 88–89; ил.

2. Каспарова Н. Н. Особенности состава данных и структуры библиографической записи в электронной среде // Там же. – 2008. – № 2. – С. 51–56.

3. Hickey T., O’Neill Ed. FRBRizing OCLC’s WorldCat // Functional requirements for bibliographic records (FRBR): hype or cure-all?  /  ed. by Patrick Le Boeuf, – Binghamton, N.Y. : Haworth inform. press, 2007. – P. 239–252.

4. Radebaugh J., Keith C. FRBR Display Tool // Functional requirements for bibliografic records (FRBR): hype or cure-all?  /  ed. by Patrick Le Boeuf, – Binghamton, N.Y. : Haworth inform. press, 2007. – P. 271–284 [4].

5. Sturman R. Implementing the FRBR Approach in the ISIS Software Environment: IFPA (ISIS FRBR Prototype Application) // Functional requirements for bibliografic records (FRBR): hype or cure-all?  /  ed. by Patrick Le Boeuf, – Binghamton, N.Y. : Haworth inform. press, 2007. – P. 253–270.

6. IFPA2 (ISIS FRBR Prototype Application – ver.2) : [Загл. сэкрана]. – Режим доступа: http://pclib3.ts.infn.it:8080/ifpa2/main.html

7. Miller D. R. XOBIS – An Experimental Schema for Unifying Bibliographic and Authority Records // Functional requirements for bibliografic records (FRBR): hype or cure-all?  /  ed. by Patrick Le Boeuf, – Binghamton, N.Y. : Haworth inform. press, 2007. – P. 285–303.

8. Степанов Ю. С. Семиотика. – Москва, 1971. – 95 с.

9. Халабия М. Л. Знаковая природа «функциональных требований к библиографическим записям» // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса : материалы Пятнадцатой Юбилейной международной конференции «Крым 2008» : [Электронный ресурс]. – Режим доступа: http://www.gpntb.ru/win/inter-events/crimea2008/disk/51.pdf

10. Коннолли Томас. Базы данных: Проектирование, реализация и сопровождение. Теория и практика : [пер. с англ.] / Томас Коннолли, Каролин Бегг ; Ун-т Пейсли (Шотландия). – Москва и др. : Вильямс, 2003. – 1439 с. : ил.

  
На главную