Home page | Каталоги и базы данных

Научные и технические библиотеки

Лобанова Э.Ш.
ГПНТБ России, Москва


Форматы UNIMARC и USMARC: сходство и отличие

В современном информационном мире насчитывается примерно 50 форматов, в названии которых есть общее слово "MARC", которому, как правило, предшествует или аббревиатура страны - разработчика формата, например USMARC, UKMARC, SAMARC (Южно-африканская республика), или ее сокращенное название: CANMARC, DANMARC, AUSMARC, JAPMARC и др. Не всегда название формата говорит напрямую о его принадлежности к определенной стране. Например, ANNAMARC - формат Италии. Формат не обязательно является принадлежностью какой-либо страны. В качестве примеров можно привести формат Амстердамского университета UBVUMARC и OCLC-MARC. Среди форматов семейства MARC несколько особняком стоит INTERMARC, который разрабатывался Францией, Бельгией и франкоязычной частью Швейцарии. Однако он реально используется во Франции только в Национальной библиотеке.

Особое положение занимает формат UNIMARC, в названии которого уже отражен принцип его универсальности. Он существенно отличается от других MARC-подобных форматов тем, что его основная функция - быть форматом-посредником.

Вообще нужно отметить, что проблема конвертируемости форматов встала уже 30 лет назад, когда параллельно разрабатывались американский проект MARC и английский проект BNBMARC. Эти параллельные исследования послужили началом англо-американского сотрудничества по созданию проекта MARC-II, который должен был подтвердить возможность использования формата MARC в качестве коммуникативного.

Уже в начале 1970-х гг. семейство MARC увеличилось более чем на 20 форматов. Для преодоления их несовместимости принято решение разработать международный коммуникативный формат UNIMARC, который позволил бы каждой национальной службе составлять только две программы (одну для конвертирования в UNIMARC, другую из формата UNIMARC) вместо специальных программ конвертирования в каждый из форматов MARC.

В связи с дальнейшим увеличением числа MARC-форматов возникла идея создания единого базового конвертора, который позволил бы конвертировать любой MARC-формат через посредник (т. е. UNIMARC) в другой формат семейства MARC.

Для реализации такой сложной проблемы создан европейский проект, получивший название UseMARCON (User Controlled Generic Converter). Координатором проекта является Королевская библиотека Голландии. Участники проекта - Национальная библиотека Португалии, Британская библиотека, Немецкая библиотека. Ответственной за программное обеспечение является YAUVE (Франция).

Обозначены три фазы разработки проекта. Первая определена как исследовательская (1994 г.), вторая отведена разработке основной версии конвертора (1995 г.), третья предусмотрена для длительного тестирования и оформления документации (конец 1996 г.). Судя по всему, завершение проекта задерживается. Но это и не удивительно, так как задача поставлена глобальная, требующая тщательного изучения форматов, их анализа, определения степени их совместимости. В качестве базовых форматов для проведения эксперимента выбраны форматы USMARC, UKMARC, INTERMARC и, естественно, UNIMARC.

Еще не ведая о создании проекта UseMARCON, ГПНТБ России начала разработку конвертора OCLC-UNIMARC, чтобы ускорить доступ к базам данных OCLC. В 1995 г. OCLC еще не распространяла свою информационную продукцию в формате UNIMARC. Поскольку формат OCLC практически является форматом USMARC, конвертор в дальнейшем будем называть USMARC-UNIMARC.

Следует сказать, что OCLC и Чехия заключили договор, в соответствии с которым записи OCLC должны передаваться в формате UNIMARC. В июне 1996 г. OCLC направила файл записей в формате UNIMARC в Национальную библиотеку Чехии для экспертизы.

ГПНТБ России разработала конвертор USMARC-UNIMARC в кратчайшие сроки. В 1996 г. мы уже получили реальные массивы информации из OCLC в формате UNIMARC. О результатах этой разработки доложено на Конференции "Крым-96". Сейчас пойдет речь об обратном конверторе UNIMARC-USMARC. Хотелось бы остановиться на основных критериях, по которым можно сравнивать один формат с другим.

Как ни странно, принципиальных отличий одного формата от другого очень мало. Я бы выделила только два критерия - возможность получения основной и добавочных библиографических записей и механизм организации вертикальных связей между записями, описывающими целое и его часть. Это многотомное или продолжающееся издание и отдельный его том или выпуск, статья из журнала, глава из книги.

Теперь конкретно о совместимости форматов UNIMARC и USMARC. Сразу надо отметить, что формат UNIMARC описывает издание вообще, а USMARC - конкретный экземпляр, и поэтому в нем предусмотрены поля для шифров хранения документов, сведений о количестве экземпляров, инвентарных номерах и т. д.

Несмотря на то, что формат USMARC ориентирован на библиотечные нужды, а формат UNIMARC является информационным, последний позволяет так же, как и USMARC, получать основное библиографическое описание и целый ряд добавочных описаний, т. е. точки доступа формата UNIMARC находят себе соответствие в формате USMARC. На первый взгляд, при знакомстве с форматом UNIMARC создается впечатление, что он не обеспечивает получения традиционнной библиографической записи, включающей заголовки описаний. В формате USMARC поля заголовков описания так и называются - "Заголовок основной библиографической записи - имя лица", "Заголовок добавочной библиографической записи - наименование организации" и т. д.

В формате UNIMARC аналогичные поля называются "Имя лица - первичная интеллектуальная ответственность", "Наимено-вание организации - вторичная интеллектуальная ответствен-ность". Это те же поля заголовков описания, так как содержимое поля записывается в форме точки доступа, т. е. по правилам формирования заголовков описания. В USMARC полей заголовков добавочных описаний значительно больше, чем в UNIMARC. Так что при конвертировании информации из UNIMARC в USMARC все поля заголовков описания нашли себе соответствие в формате USMARC.

Сложнее всего обстоит дело с описаниями многотомных изданий.

Оба формата предлагают несколько альтернатив по описанию многотомных изданий. Однако в формате USMARC чаще всего применяется описание, когда сведения о томах даются в поле примечания. При таком способе заглавие тома не является поисковым и информация практически пропадает. UNIMARC позволяет с помощью полей связи описать многотомное издание в двух записях - на многотомное издание в целом и отдельный его том. В этом случае мы две записи конвертируем в одну с использованием области серии.

При сравнении двух форматов бросается в глаза детальная проработка индикаторов в формате USMARC. Максимальное количество их в UNIMARC - 3, в USMARC - 9. Но дело не в количестве, а в том, что в формате USMARC они часто несут нагрузку, равную по значимости отдельному полю формата UNIMARC. В таких случаях появляется нестандартный тип соответствия, когда несколько полей формата UNIMARC конвертируются в одно поле формата USMARC. Нужно отметить особую роль, которую играют индикаторы при конвертировании. Например, метки двух форматов соответствуют по смыслу, а их индикаторы абсолютно не стыкуются. Приходится в таких случаях конвертировать информацию во избежание ее потери. Иногда возникает дилемма - потеря всей информации или не совсем корректное ее конвертирование. В некоторых, правда, очень редких случаях конвертирование теряет смысл. Думается, с подобной проблемой непременно столкнутся разработчики базового конвертора UseMARCON.

Теперь о полях связи. Оба формата предусматривают хронологические, горизонтальные и вертикальные взаимосвязи. Однако вертикальные связи в USMARC не учитывают связь многотомного или продолжающегося издания с отдельным томом. В формате UNIMARC все виды связей реализуются с применением встроенных полей, хотя есть возможность в качестве альтернативы использовать подполя, как в USMARC.

Несмотря на то, что USMARC значительно превосходит UNIMARC по количеству полей (в первом примерно 200 полей, во втором 150), а количество подполей в некоторых полях USMARC достигает 25, мы не нашли в нем соответствия некоторым подполям формата UNIMARC. Это говорит о недостаточности при явной, на наш взгляд, избыточности подполей. Кроме того, мы считаем, нет необходимости записывать под одним идентификатором два элемента, как это имеет место в подполе #b поля 245 (здесь совмещены параллельное заглавие и сведения, относящиеся к заглавию). Не нашли аналогичных подполей в формате USMARC подполя поля 200 формата UNIMARC, содержащие заглавия других работ одного автора, опубликованные в сборнике без общего заглавия, а также заглавия работ других авторов, когда в одном издании опубликованы самостоятельные работы разных авторов. Мы попытались тем не менее избежать в данном случае потери информации, но алгоритм решения был весьма непростым.

В заключение можно сказать, что степень совместимости формата UNIMARC с форматом USMARC составляет 80%. Но это при конвертировании информации из UNIMARC в USMARC. При обратном конвертировании процент совместимости более низкий. Следует подчеркнуть, что практически полностью конвертируются блоки интеллектуальной совместимости, описательной информации и взаимосвязанных заглавий. 20% неконвертируемых полей - это поля примечаний и определения тематики. Есть, конечно, некоторая потеря информации, связанная с несовместимостью индикаторов. Тем не менее результаты конвертирования UNIMARC - USMARC весьма обнадеживающие.

Разработанный конвертор касался только книг и сериальных изданий. В дальнейшем планируется расширить его видовой охват, включив микроформы, компьютерные файлы и пр.

Copyright © 1995-97 ГПНТБ России