Home page | Каталоги и базы данных

Научные и технические библиотеки
Балакерская С.Б.

ВГБИЛ им. М.И. Рудомино, Москва

Организационно-технические особенности
технологического процесса ретроконверсии во ВГБИЛ

Конверсия карточных каталогов в электронные стала целью проекта РЕТРО, развернутого во ВГБИЛ в середине 1998 г. Основные особенности этого проекта изложены в документе "Концепция ретроконверсии Генерального алфавитного каталога книг ВГБИЛ". В нем, в частности, говорится:

1. Основой ретроконверсии является сканирование каталожных карточек, последующее их распознавание и создание записей в электронном виде. Каждая запись создается для ее использования в двуязычном библиотечном комплексе ТИНЛИБ и последующего хранения в многоязычной базе данных ВГБИЛ-ИНТЕР с целью доступа к ней через Интернет. Отсканированные каталожные карточки в графическом виде записываются и хранятся в виде архива на CD—ROM.

2. Ретроконверсия предусматривает поэтапное, эволюционное наращивание массива электронных записей с доступом к ним сначала лишь сотрудников библиотеки для проверки правильности текста и сверки наличия книг в хранении, а в дальнейшем и читателей. Этапность предусматривает постепенное, порционное, модульное сканирование и распознавание каталожных карточек в процессе обработки.

3. Ретроконверсия должна выполняться так, чтобы в результате появились два массива электронных записей: один — для использования в программном комплексе ТИНЛИБ (стандарт кодирования КОИ-8), а другой — для установки на сервере ВГБИЛ в сети Интернет (стандарт кодирования UNICODE). Третий массив этих же электронных записей — графический — используется для архивного хранения.

Таким образом, основной целью данного проекта является перевод всего массива каталожных карточек ГАК в электронную форму и предоставление удаленного доступа к полному электронному каталогу через Интернет.

Первый этап проведения ретроконверсии во ВГБИЛ, завершившийся в 1999 г., прошел вполне успешно: разработан, отлажен и откорректирован первый вариант технологического процесса сканирования и распознавания каталожных карточек. В соответствии с ним отсканированы более 1 млн каталожных карточек, распознаны и загружены в автоматизированный библиотечный комплекс ТИНЛИБ 15 тыс. записей. Бросается в глаза большая разница между числом отсканированных записей и числом записей, готовых к использованию в ТИНЛИБ. Это произошло потому, что из-за плохого качества старых каталожных карточек результаты распознавания достаточно неудовлетворительны — слишком много пропусков, искажений и появления ложных символов. К тому же, конверсируемый каталог оказался засорен карточками, не отражающими реальный фонд; сохранились карточки списанных ранее книг, размещены добавочные карточки, а также карточки книг, поступивших в библиотеку после 1997 г. и уже введенных в электронный каталог. Такие карточки составляют 20% от общего числа отсканированных карточек. Имеется большое количество карточек с нечеткими записями и содержащими часть текста на обороте. Это требовало повторного сканирования и повторного распознавания. Число таких карточек составляет около 5%.

Сложные вопросы возникали при обнаружении каталожных карточек на несуществующие (списанные или утраченные) книги. Для их решения привлекались сотрудники отделов комплектования, систематизации, ведения карточного каталога, учета, хранения.

За прошедший год в наших работах по ретроконверсии достигнут значительный прогресс. Например, в начале 1999 г. в технологическом процессе ретроконверсии мы выполняли всего лишь 10 операций, как автоматических, так и ручных; а в технологическом процессе, который мы разработали, утвердили и внедрили с января 2000 г., описаны три процедуры и 27 операций. Увеличение числа операций говорит о более тщательной проработке проблемных ситуаций и решении почти всех упомянутых выше проблем.

Рассмотрим подробнее технологический процесс проведения ретроконверсии каталожных карточек (КК) Генерального алфавитного каталога ВГБИЛ. Прежде всего мы разбили весь техпроцесс на три процедуры: создание архива файлов графических образов КК, определение видов каталожных карточек по графическим образам, распознавание и занесение библиографической записи с КК в программный комплекс ТИНЛИБ.

Каждая процедура состоит из операций, на рисунке обозначенных цифрой в прямоугольнике (рис.). Нумерация операций сквозная. Результат выполнения операции может быть однозначным и тогда из прямоугольника, ее обозначающего, выходит одна стрелка. Если результат операции неоднозначен, то он обозначается символами + и -, от каждого из которых выходит по стрелке. Прямоугольник начальной операции в каждой процедуре не имеет входящей стрелки, а прямоугольник конечной операции не имеет выходящей стрелки. В большинстве операций предусматривается создание рабочих документов, необходимых для увязки процедур и контроля за выполнением каждого действия, а также определяется ответственный исполнитель.

Первая процедура состоит из трех операций.

 

Операция 1. Подготовка КК к сканированию сектором карточных каталогов. Операция не автоматизированная; она заключается в визуальном просмотре КК с целью обнаружения на их обратной стороне каких-либо записей, требующих распознавания, и нанесении на лицевую сторону специального символа "Внимание" для редактора, производящего проверку распознанного текста. Эта операция минимизирует время обработки КК и позволяет обойтись без двустороннего сканирования, а значит, уменьшает стоимость всего проекта.

 

Операция 2. Сканирование и запись отсканированных КК на CD-ROM. Записи производятся в графическом формате без распознавания. Записи карточек, размещенных в одном каталожном ящике, для удобства дальнейшей обработки должны быть скомпонованы в один раздел с соответствующим названием на ящике. Каждая КК должна быть записана на двух CD. Все заполненные CD, в двух экземплярах каждый, передаются по акту в отдел автоматизации. Информация записывается в служебную базу данных "Реестр". Создается документ "Приложение к акту приема-сдачи информации (по номерам ящиков и номерам CD)".

 

Операция 3. В отделе автоматизации из первых экземпляров CD создается и ведется страховой архив графических образов КК Генерального алфавитного каталога по состоянию на 1999—2000 гг., а вторые экземпляры CD используются в дальнейшей работе.

Вторая процедура является подготовительной и состоит из двух операций.

 

Операция 4. Цель операции — устранить из процесса ретроконверсии КК, не подлежащие дальнейшей обработке. Работа заключается в визуальном просмотре на экране компьютера всех графических образов КК, определении вида каждого документа и ручном занесении признака вида в служебную таблицу БД "Реестр" (выбор названия из поля "вид" в программе "Графический редактор"). Различают 12 видов КК, объединяемых в 4 группы:

  • группа А (добавочные КК; КК без обработки; КК, содержащие роспись; КК, имеющие записи, уже введенные в электронный каталог). Эта группа не требует дальнейшей обработки;

  • группа В (ссылочные КК). Эта группа требует завершающей обработки операцией 5;

  • группа С (КК на основные издания, КК на аллигаты, КК на аллигаты-многотомники, КК на многотомники, КК на продолжающиеся издания, КК на редкие книги). Эта группа требует распознавания и полной обработки по процедуре 3;

  • группа D (КК, бракованные человеком-оператором). Эта группа требует повторной обработки по процедуре 1, т.е. сканирования и записи на добавочный CD-ROM.

В этой операции предусматривается создание документа "Статистика по обработанному CD ...(номер)" и создание заготовки (шаблона) "План работ по CD ...(номер)" с указанием составляющих блоков записей и пустыми клетками по операциям.

 

Операция 5. На основе информации ссылочной КК ручная корректировка авторитетных файлов в программном комплексе ТИНЛИБ-ретро. По каждому обработанному CD создается документ "Акт о проделанной работе".

Наиболее сложной составляющей технологического процесса является третья процедура, которая состоит из 21 операции. На рисунке показан алгоритм последовательности выполнения этих операций.

 

Операция 6. Распознавание символов текста с графического образа КК программой МАЭСТРО с пятью эталонами шрифтов, выбор наилучшего текста. Исполнитель — ГИПЕР.

 

Операция 7. В связи с многоязычием фондов эта операция производится для каждого языка заново. Готовится описание вида карточек, правила формирования полей, списки служебных слов, определяющих поля библиографического описания. Для каждого языка создается документ "Список служебных слов" и исходные справочники по языкам "Авторы, издательства, серии".

 

Операция 8. Обработка распознанной информации, разнесение по полям промежуточной базы данных и компоновка записей обрабатываемого CD в блоки (не более 1000 записей в каждом). Блок должен содержать КК одинакового вида и с одного номера диска CD.

 

Операция 9. Ручное редактирование многоязычных записей одного блока в среде "Универсального редактора" и окончательная отбраковка КК по видам (+ карточки данного вида отправляются на дальнейшую обработку операцией 10), (- карточки другого вида возвращаются на повтор операции 8). Создается документ "Месячный отчет о проделанной работе по редактированию ретрозаписей".

 

Операция 11. Автоматическое определение по распознанному классификационному индексу (КИ) и по таблице "КИ-ВГБИЛ-УДК" предметной рубрики и статистической дисциплины, так как они не указаны на бумажных КК. Добавление их в соответствующие поля записи. Передача записей на обработку операцией 12 независимо от успешности определения.

 

Операции 12, 14 и 16 выполняются автоматически программой, разработанной фирмой ГИПЕР, и имеют цели: определить повторы заглавий книг; проверить, не списана ли обрабатываемая книга; определить повторы инвентарного номера.

Первая цель объясняется желанием защититься от свойства системы ТИНЛИБ объединять в одну запись одноименные книги, приобретенные и изданные в разные годы либо разными издательствами. Вторая цель объясняется тем, что в генеральном каталоге по ошибке могли оказаться КК на уже списанные книги. Третья цель объясняется стремлением ликвидировать систему параллельной инвентаризации книг из коллекций на разных языках, существовавшую в старые годы.

 

Операции 13, 15, 17 выполняются сотрудниками ВГБИЛ и направлены на устранение обнаруженных некорректностей.

 

Операции 18 и 19 обеспечивают создание двух вариантов кодирования распознанных записей: с диакритами и без них. Первые нужны для многоязычия и Интернета, а вторые — для сегодняшнего ТИНЛИБ.

 

Операции 20 и 21 обеспечивают загрузку распознанных записей в наш библиотечный двуязычный программный комплекс ТИНЛИБ, причем сначала в технологический ТИНЛИБ, где производится выявление и устранение ошибок в записях. При этом составляется перечень ошибок для того, чтобы аналогично исправить многоязычные записи. После устранения ошибок производится копирование записей в ТИНЛИБ-ретро, предназначенный для эксплуатации пользователями. В рамках операции 21 создаются распечатки записей, предназначенные для промежуточной сверки фондов (операция 24) и введения отсутствующих предметных рубрик (операция 23).

Завершающие операции обеспечивают поддержание идентичности двух массивов записей: многоязычных и двуязычных, как мы их называем.

В заключение отмечу, что новый вариант технологического процесса дал нам возможность значительно сократить число КК, отложенных до лучших времен, и ускорить работу в целом.


Copyright © 1995-2001 ГПНТБ России