Научные и технические библиотеки №6 2004 год
Содержание:

Земсков А.И. Методика оценки эффективности работы библиотеки – бенчмаркинг

Хургин В.М. Использование информационных технологий для обеспечения доступности правовой информации

Вершинин М.И., Гроздилова Л.П., Немчинова А.Л. Создание электронного каталога иностранных журналов библиотеки Зоологического института РАН: подходы и реализация

Авгуль Л.А, Хренова Г.С., Невский Б.Б. Международный книгообмен Центральной научной библиотеки НАН Беларуси: история и современность

Стришенец Н.В. Президентские библиотеки США


НАША ПРОФЕССИЯ

Сукиасян Э.Р. Новые подходы, иные решения. (Современная кадровая ситуация. Пути выхода из назревающего кризиса)


ЭКОЛОГИЧЕСКОЕ ПРОСВЕЩЕНИЕ

Обзор зарубежных веб-сайтов по проблемам экологии. Часть II

Куликова О.Ю. Библиографические исследования в области экологии

Танчик В.И. Экологопросветительская деятельность Херсонской ЦБС


ОБЗОРЫ. РЕЦЕНЗИИ. АНОНСЫ

Первая библиотечная энциклопедия России

Гедримович Г.В. Информационный подарок Городу и Ученым


НАШИ
АВТОРЫ


УДК 025.3:65.011.56

Вершинин М.И., Гроздилова Л.П.,
Немчинова А.Л.

Создание электронного каталога иностранных журналов
библиотеки Зоологического института РАН:
подходы и реализация

Библиотека Зоологического института РАН (ЗИН) – отдел Библиотеки Российской Академии наук (БАН) – обладает крупнейшим в нашей стране собранием отраслевой литературы. Датой основания библиотеки ЗИН можно считать 24 авг. 1831 г. В тот день директор Зоологического музея академик Федор Федорович Брандт выступил на Конференции Академии наук с отчетом о состоянии зоологических коллекций [1].

Основу фонда библиотеки ЗИН составляет фонд иностранных периодических изданий. В настоящее время он насчитывает около 6 тыс. названий и более 300 тыс. ед. хранения.


Предыстория вопроса

Идея создания электронной базы данных иностранной периодики (БД ИП) ЗИН возникла с получением первого ПК 386SX. В силу ряда причин (техническое обеспечение, доступное программное обеспечение) создание БД ИП началось на основе СУБД FoxPro2. Использовать БД предполагалось только для нужд библиотеки, поэтому формат записи был разработан самостоятельно, без учета требований каких-либо международных форматов машиночитаемой записи и неоднократно изменялся в процессе работы, если это казалось необходимым.

В ходе работы мы столкнулись со многими трудностями. Некоторые издания имели почти двухвековую историю, в течение которой они разделялись на несколько серий, вновь сливались, меняли названия, издающие организации, язык публикации, город и даже страну. Часть изданий представлена в библиотеке разрозненными томами, так что самостоятельно проследить ход развития издания не представлялось возможным, приходилось обращаться к справочникам, информация в которых также бывала недостаточно полной и точной. Особую сложность представляли издания, выходившие одновременно «в двух лицах», т. е. один том имеет одновременно два названия, две издающие организации и два номера, а также издания, имеющие трех-уровневую и более систему спецификации.


Создание БД ИП ЗИН

В 2000 г. библиотека ЗИН получила грант РФФИ (проект 01–07–90287в «Создание базы данных по иностранным периодическим изданиям Библиотеки Зоологического института РАН», руководитель Гроздилова Л.П.), что позволило продолжить работу на качественно новой основе. Однако первый вариант БД оказался неудовлетворительным, что и заставило нас тщательнее продумать как структуру БД, так и систему регистрации отдельных томов и номеров.

Международный библиографический формат UNIMARC имеет сложную многоуровневую структуру полей и подполей, и сотрудникам библиотеки ЗИН потребовались значительные усилия, время и помощь специалистов отдела информатики и автоматизации БАН, чтобы увязать структуру БД иностранной периодики, сделанную в FoxPro2, с требованиями международного стандарта.

Было решено сохранить накопленные записи, для чего потребовалось разработать в  рамках программного комплекса VerISIS модуль конверсии записей из физического формата СУБД FoxPro2 и собственного формата машиночитаемой записи в физический формат ППП CDS/ISIS и формат UNIMARC. При этом пришлось решать такие сложные задачи, как автоматическое разнесение информации из одного поля по разным полям и подполям формата UNIMARC и, наоборот, объединение данных нескольких полей в одно. Последняя операция потребовалась из-за того, что предельная длина полей СУБД FoxPro2 составляет 256 символов, а этого было недостаточно для описания последовательных наименований изданий и их издателей.

В ходе этой работы пришлось отказаться от прежней схемы «один шифр – одна запись» и перейти на схему «одно название – одна запись», а затем и на «один ISSN – одна запись», что вызвало необходимость существенного редактирования уже введенной части основного файла.

К июню 2003 г. основной файл периодических изданий насчитывал 5200 записей. (После окончания работы по редактированию и разделению некоторых «старых» записей объем файла будет предположительно около 6000–6500 записей.)

Запись насчитывает 26 полей, в которых отражаются название, переименования, ответственные и издающие организации (с вариантами написания на разных языках и разной графикой), частные издатели и основатели, город, страна, временной диапазон выхода издания и временной диапазон наличия в  библиотеке ЗИН, ISSN и библиотечный шифр.

Индексирование файла происходит именно по ISSN, поэтому мы обращали особое внимание на точность его воспроизведения в записи. Журналам, существовавшим до «эпохи ISSN», программа автоматически формировала ISSN «искусственный», составленный на основе шифра журнала. Здесь мы столкнулись с тем, что ISSN некоторых изданий мог быть изменен в середине издательского года и, что называется, «без достаточных на то оснований»; при этом название, ответственная организация, издательство, место издания оставались неизменными. Или наоборот, при смене названия ISSN не менялся либо менялся с существенной задержкой, так что приходилось его «корректировать», добавляя к «законному» номеру дополнительные знаки (_1, _2 и т. д.).

Фиксация в БД ИП имен частных лиц – основателей изданий особенно важна для журналов XVII–XIX вв., когда один и тот же человек был и редактором, и издателем, и «спонсором». Часто одно и то же имя на разных титульных листах приводилось в разных вариантах – то с расшифровкой всех имен, то только одного, то с диакритическими знаками, то без них.


Ретроспективный ввод спецификаций

Параллельно с завершением ввода записей в основной файл с помощью программы VerISIS мы начали работу по ретроспективному вводу спецификаций в программе SpecInt. Технология этой работы достаточно подробно описана в статье М.И. Вершинина и А.Ц. Масевича [2].

На этапе работы, связанном с вводом спецификаций, мы обнаружили, что принятая  в 1950–1960-е гг. система регистрации томов и номеров, когда за основу брался переплетенный том, не годится для наших целей. При такой регистрации часто нельзя установить год публикации конкретного номера, поэтому значительную часть старых изданий приходилось вводить de visu, что позволяло соблюсти максимальную точность представления информации, но очень замедляло работу.

Хочется обратить внимание на то, что с самого начала мы предполагали и неукоснительно выполняли (и выполняем) принцип максимальной глубины ретроспекции, что, как показывает практика, редкость для подобных БД, помещенных в Интернете (обычная глубина ретроспекции – 10–15 лет).

На июнь 2003 г. БД спецификаций содержат 30 200 записей, охватывая  чуть больше трети всех названий из основного файла. Естественно, параллельно с ретроспективным вводом, проводится и текущий (правда, только тех изданий, ретроспективный ввод которых уже завершен).

В настоящее время принято решение о вводе текущей спецификации на все современные издания с 2003 г. – это около 1500 наименований.


Текущий ввод данных и локальный доступ к БД ИП

Для организации текущего ввода, т. е. ввода записей на издания по мере их поступления, используется программа JournInt. Она предназначена для обслуживания журнального каталога (актуализация данных о наличии выпусков периодических изданий и получение справок о наличии изданий и выпусков) с использованием файла спецификаций (базы данных). Использовать ее могут и администраторы БД, и рядовые пользователи электронного каталога.

Интерфейс программы выполнен в виде совокупности информационных окон и окон ввода данных. Программа работает в пользовательском режиме и режиме администратора БД. Первоначально (после загрузки) программа находится в пользовательском режиме, в котором отсутствуют возможности корректировки данных и доступна только одна функция функционального меню (сортировка). Режим администратора БД предоставляет возможность ввода новых и корректировки существующих данных.

Для работы программы необходим файл спецификаций, который используется для создания инвертированных файлов (файлов точек входа терминов). Файл спецификаций представляет собой библиографическую БД в формате ППП CDS/ISIS. Инвертированные файлы создаются автоматически на основе заданных параметров инвертирования. Поисковые возможности могут быть улучшены удалением неинформативной лексики, индексированием и рубрикацией изданий.

Программа настраивается на работу с разными каталогами (иностранных, русскоязычных изданий и т.п.) путем задания параметров командной строки (условного наименования каталога). Часть элементов интерфейса (кнопки выбора списков, список инвертируемых полей, таблица спецификаций) настраивается администратором БД.

Пользовательский интерфейс выполнен в виде системы информационных окон и окон параметров (частично приведен на рисунке).

В левой верхней части окна программы находятся кнопки переключения списка точек входа. Под ними – список точек входа, состоящий из терминов – точек входа в каталог. В правой части экрана – таблица спецификаций, которая и содержит искомую информацию. Таблица спецификаций обновляется при перемещении по списку точек входа с помощью клавиатуры и/или мыши. Под таблицей спецификаций – информационное окно, где представлено текущее состояние таблицы спецификаций (количество шифров, томов, выпусков, строк). Часть колонок таблицы скрыта для лучшего отображения экрана. Над таблицей спецификаций располагается описание текущего издания. Если в таблице спецификаций отражены несколько изданий, то при перемещении по таблице изменяется и эта информация.

В случае работы с неинформативной лексикой, индексировании и рубрикации изданий, между списком точек входа и таблицей спецификаций появляется дополнительное окно для работы с файлом НИЛ, индексным файлом или файлом рубрик соответственно.

Кнопки переключения (например, Заглавие, Шифр, ISSN, Термины, Место издания) позволяют выбрать соответствующий инвертированный файл, который выводится в список точек входа. В качестве точек входа могут фигурировать как строки, состоящие из нескольких терминов, например заглавия и подзаголовков, так и одиночные термины, например слова из заглавий.

Максимальная длина строки – 64 символа. Это ограничение чисто техническое; по желанию длина строки может быть доведена до 250 символов. Длина строки влияет на скорость инвертирования и объем инвертированных файлов.


Рис. Пользовательский интерфейс программы.

При перемещении по списку точек входа в таблице спецификаций немедленно отображаются записи, соответствующие текущей точке входа. Функция Сортировка позволяет определить порядок, в котором записи выводятся в таблице спецификаций: Год–Том–Шифр, Шифр–Год–Том, Год–Шифр–Том или Том–Год–Шифр. По умолчанию записи отсортированы в следующем порядке: Год–Том–Шифр.

Окно инкрементального (последовательного) доступа позволяет переместиться к точке входа, содержащей нужную последовательность символов. Последовательность символов может быть введена с левым (произвольное положение в строке) усечением, обозначаемым символом $. Например, термин optic в виде $optic будет искаться в любом месте строки, а без знака $ только в начале строки.

В таблице может быть отражено несколько изданий (например соответствующих одному ключевому слову-термину) с разными шифрами. В этом случае может быть полезна сортировка по шифрам.

Администратору БД доступны также функции:

Новый – создать новую запись;

Индексный – указатель – отдельный том: vol заменяется на ind;

Приложение – имеется приложение: к номеру выпуска добавляется литера s;

Запоздавший – к номеру выпуска добавляется год поступления;

Сохранить – изменения сохраняются в журнальном каталоге.

Номер выпуска вводится в первую свободную ячейку соответствующей записи. Если выпуски имеют последовательную нумерацию, то ввести новый номер можно просто щелчком мыши в первой незанятой ячейке таблицы после номера выпуска. Таким образом, в каждой строчке вручную можно вводить только одно число.

Описания изданий могут со временем меняться, например, изменился редакторский коллектив или организация-издатель и т.п. В этом случае необходимо измененное описание издания внести в каталог. Для этого используется функция Изменить издание.

Изменение или добавление названий рубрик в соответствующие окна позволяет усилить поисковые возможности каталога. В этом случае появляется дополнительная информация об издании, не связанная с его библиографическим описанием. Рубрики можно вводить вручную или выбирать из списка, если таковой создан.

Среди точек входа могут встречаться слова, не несущие конкретной информации, такие, как служебные слова (предлоги, артикли и др.) или общие (например, development, world, discipline, acta, journal и т. п.). Желательно исключить их из списка точек входа.

Для этой цели журнальный каталог использует файл неинформативной лексики (НИЛ), содержащий термины (мультитермы), не несущие полезной информации в контексте каталога. В диалоговом окне соответствующего режима, используя только мышь, можно включать или исключать термины из файла НИЛ. Таким образом, при следующем инвертировании точек входа, включенных в НИЛ, в списке не будет. Благодаря использованию файла НИЛ, число точек входа (например для ключевых слов, извлеченных из заглавий) можно сократить на 40–50%.

Программа позволяет также применять индексирование. Под индексированием в данном случае понимается замена и/или объединение точек входа под одним из существующих или новым именем. Например, {phys, Physica и physics} можно заменить на термин физика. Аналогично, {biol и biology} можно заменить на {биология} и т. д. Таким образом можно получить следующие преимущества:

  • сократить число точек входа, т. е. облегчить поиск;

  • исправить обнаруженные ошибки или разночтения в названиях точек входа;

  • перевести с одного языка на другой названия точек входа.

Программа позволяет создать разные списки точек входа, но с учетом предпочтений пользователей для формирования списков выбраны заглавия изданий, ISSN, шифр издания, место издания и ключевые слова, извлеченные из заглавий.

Поскольку программа JournInt обеспечивает доступ к БД ИП только в локальном режиме, а основной целью полученного гранта была организация доступа через Интернет, то возник вопрос о выборе способа организации доступа к БД.


Представление БД ИП в Интернет

Для представления баз данных на веб-страницах используются два основных  способа: статическая и динамическая публикация веб-страниц, содержащих информацию из БД.

При статической публикации БД веб-страницы создаются и хранятся на веб-сервере до поступления запроса на их получение. Этот способ используется при публикации информации, содержащейся в достаточно редко актуализируемой БД. Такая организация публикации БД обладает преимуществами: быстрый доступ к информации, уменьшение нагрузки на сервер при обработке запроса.

Динамическая публикация используется тогда, когда необходимо публиковать информацию из БД в реальном масштабе времени, например в системах электронной коммерции и бизнес-информации. В этом случае веб-страницы создаются после поступления запроса на веб-сервер, который передает запрос на генерацию этих страниц программе, формирующей требуемый документ. Затем готовый документ отсылается обратно браузеру.

Библиографические БД (ББД) можно отнести к статическим, поскольку период их актуализации измеряется днями, неделями, а то и месяцами. При их преобразовании в веб-страницы следует решить несколько задач: минимизировать ручной труд при преобразовании ББД; выбрать структуру веб-представления ББД; сократить время отклика за счет минимизации трафика. Очевидно, что эти задачи следует решать программными средствами.

В Библиотеке РАН накоплен значительный массив записей в ББД в формате ППП CDS/ISIS. Для представления в Интернет этих ББД разработан программный комплекс VerWeb [3]. Он позволяет автоматически сформировать веб-страницы в виде сложной структуры, имеющей от одного до трех ссылочных уровней и нижний, информационный уровень. Таким образом, ББД преобразуется в систему многоуровневых указателей различного вида, например:


алфавит`авторы`библиографические записи;

учреждения`алфавит`авторы`библиографические описания;

алфавит`термины из заглавий`заглавия`библиографические записи и т.п.

Указатели на каждом уровне могут быть одного из четырех типов:

  • текст (любая текстовая информация из полей ББД);

  • алфавит (точки входа в виде цифр от 0 до 9 и букв латинского и русского алфавитов);

  • алфавит-2 (точки входа в виде двухсимвольных сочетаний), который должен присутствовать только после алфавита;

  • дата (точки входа в виде цифр и/или диапазонов дат).

На информационном уровне описание изданий присутствует в одном из пяти видов: библиографическое описание, библиографическая запись, аналитическое описание (для сборников), спецификации (для периодики), описание журнала.

Выбор той или иной системы указателей определяется составом и размером ББД, а также прогнозируемыми потребностями поиска. На физическом уровне веб-представление ББД может быть в одном из трех видов:

  • отдельные файлы (для каждой ссылки – свой отдельный файл);

  • якоря в файлах (семейство ссылок последнего уровня имеет общий файл с якорем для каждой ссылки);

  • якоря в одном файле (один файл для всей ББД с якорями в нем для каждой ссылки) – для небольших ББД.

Структура ссылок веб-представления ББД визуализируется системой фреймов (кадров), как горизонтальных (алфавит), так и вертикальных (текст, дата, алфавит–2), которая выбирается программой автоматически.

В диалоговом режиме настраиваются основные элементы веб-страницы (шрифт и цвет). Кроме того используется технология каскадных таблиц стилей (CSS), что позволяет управлять оформлением всех страниц, изменяя параметры одной таблицы. Особо отметим, что в описания изданий легко интегрируются изображения и текстовые файлы, например, обложки журналов, оглавления и т.п., если ссылки на соответствующие файлы изображений или тексты имеются в БД.

Для сокращения числа точек входа используется технология файлов неинформативной лексики, причем средства создания и корректировки этих файлов встроены в программу VerWEB. Так, применение НИЛ при построении точек входа по ключевым словам БД ИП позволяет сократить число точек входа примерно с 9 тыс. до 5 тыс. Следует отметить, что многоязычная служебная лексика (артикли, союзы, предлоги и т.п.) удаляется автоматически на основе встроенных в программу таблиц и в статистике не учитывается.

В БАН накоплен опыт по представлению в виде системы html-страниц ББД «Издания Российской Академии наук», «Издания академической типографии XVIII века» и др. Поэтому выбран именно этот подход: автоматическая генерация HTML-страниц с помощью программы VerWEB.

С результатом работы можно ознакомиться на сайте ЗИН (http://www.zin.ru/library/catfj/index.html), в этой статье мы опишем основные этапы процесса.

Учитывая то, что число журналов относительно невелико, можно ограничиться алфавитным списком первого уровня. На первом и втором уровнях как источник данных укажем поле 200 подполе a – заглавие издания. Элементы списка включают заглавия целиком, без сегментации на отдельные термы. Это простейший набор параметров. Создание HTML-структуры с использованием 5200 записей потребовало меньше двух минут (ПЭВМ Athlon-700, ОЗУ 128Mb).

Созданные html-страницы представлены на сайте ЗИН (http://www.zin.ru/library/catfj/besCHTML/main.html).

Аналогично, через алфавитный список журналов организован доступ к спецификациям журналов.

Поскольку в БД спецификаций используются встроенные поля [2], то в указании ссылок они присутствуют в виде NNN(MMM), где в скобках указан тег встроенного поля. Для данного представления также выбрана двухуровневая структура: алфавит - описание.  На первом уровне данные берутся из заглавия, на втором – формируются из нескольких полей. Например, выражение ""461(200)^a""+","461(210)^a""+", ISSN "461(11)^a"" позволяет создать строку, включающую заглавие, место издания и ISSN журнала.

Сгенерированные html-страницы представлены на сайте ЗИН (http://www.zin.ru/library/catfj/SPECHTML/main.html).

Аналогично созданы указатели частных лиц – основателей изданий (http://www.zin.ru/library/catfj/FOUNDERS/main.html), мест изданий (http://www.zin.ru/library/catfj/PLACE/main.html) и издающих организаций (http://www.zin.ru/library/catfj/INSTPUBLHTML/main.html).

Примерно раз в месяц мы обновляем html-файлы, которые затем перекачиваются на сервер ЗИН. Процесс формирования всех указателей занимает около 10 минут (PC c процессором Athlon-700 и 128Mb оперативной памяти), что не исключает ежедневного обновления в случае необходимости.


Заключение

На наш взгляд, предложенная технология имеет следующие преимущества:

  • не требуется веб-сервер ISIS для организации доступа к БД и, следовательно, БД может быть в одном и том же виде представлена как в Интернете, так и на CD–ROM;

  • пользователю нет необходимости вводить какие-либо поисковые термы, так как структурированная БД удовлетворяет основные потребности в поиске;

  • использование этой технологии возможно с любыми БД,  экспортирующими записи в формате стандарта ISO 2709 (VerWEB предоставляет возможность импорта в этом формате);

  • время на преобразование БД в систему html-страниц измеряется минутами (например, преобразование в виде эксперимента ЭК Фундаментальной библиотеки РГПУ им. Герцена объемом примерно 150 тыс. записей в авторский указатель потребовало 15 минут на РС Celeron 1100 с 128 Mb оперативной памяти).


Список литературы

  1. Гроздилова Л.П. Библиотека Зоологического института РАН// Науч. и техн. б-ки. 2000. № 6. С. 89–96.

  2. Вершинин М.И., Масевич А.Ц. Создание электронного каталога иностранных журналов БАН: концепция, состояние дела, планы и перспективы.// Там же. 2002. № 11. С. 74–90.

  3. Вершинин М.И.VerWEB – HTML-генератор для библиографических баз данных. № Гос. ФАП 50200200498. 2002. - Зарегистр. в Информ.-библ. фонде РФ в 2002 г.

  
На главную