Home page | Каталоги и базы данных

Научные и технические библиотеки
Маршак Б.И., Зайцева Е.М., Фуралев О.П., Тужилкова Т.В., Караджи О.В.

ГПНТБ России

Компьютеризация УДК в ГПНТБ России

Многоаспектное развитие автоматизированных технологий в библиотеках, безусловно, ведет к разработке, казалось бы, не традиционных баз данных. Всем известно, что одним из самых трудоемких процессов при составлении библиографического описания изданий является его описание на принятом в библиотеке классификационном языке. Естественным кажется создание базы данных с описанием принятой схемы классификации и передача ее в соответственную службу библиотеки для использования при автоматизированном индексировании, тем более что мировой опыт создания подобных баз данных существует — многим известны базы данных ДКД (OCLC), UDC (Консорциум УДК).

Естественным следствием развития автоматизированных технологий является частичный вначале и полный впоследствии отказ от ведения традиционных карточных каталогов. В этом случае происходит отказ от ведения и систематических каталогов, которые заменить электронной формой значительно сложнее, чем другие традиционные каталоги, тем более что их использование так или иначе невозможно без помощи грамотного библиографа-консультанта. Трудно представить, что возле каждого компьютера, за которым работает читатель библиотеки, придется поставить консультанта для обеспечения правильного поиска с использованием той или иной схемы классификации. Следовательно, читатель должен обладать такой базой данных и таким поисковым аппаратом к ней, которые бы практически исключили необходимость постоянного присутствия консультанта-библиографа, но позволили не только обеспечить удовлетворительный поиск, заменяющий поиск с использованием систематического каталога, но и расширили возможности поисковой части автоматизированной системы библиотеки.

Разработка компьютерной версии УДК в ГПНТБ России значительно активизировалась после принятия Ученым советом Библиотеки в мае 1997 г. решения о прекращении ведения карточных каталогов по новым поступлениям и изданиям, прошедшим этап ретроспективной конверсии. Такое решение явилось следствием быстрого продвижения фронта работ по автоматизации библиотечно-информационных процессов в ГПНТБ России.

Под компьютеризацией УДК мы понимаем перенос всей библиотечно- функциональной "жизни" УДК из бумажной "обители" традиционных таблиц, рабочих схем (РС) и систематических каталогов в электронную среду современных вычислительных машин с базовым пакетом прикладных программ. Это означает создание предельно автоматизированной технологии актуализации Таблиц УДК, поиска индексов для индексирования документов и запросов, а также поиска в документальных БД по предписаниям, представляемым на языке УДК.

Отметим следующие факты:

  • индексирование документов по УДК в ГПНТБ России ведется с 1959 г., многие документы фонда — периодические издания, многотомные серии, авторефераты диссертаций и препринты — заиндексированы только на этом языке;

  • с 1963 г. и по настоящее время УДК является обязательным языком индексирования документов для всех НТБ и ЦНТИ России;

  • для электронного каталога язык УДК в его традиционном виде не может применяться в роли ИПЯ из-за крайне низкой эффективности машинного поиска на этом языке;

  • последний поступивший в ГПНТБ России и реализованный в ее СК выпуск "E&C" датирован 1990-м г.;

  • выпуск томов нового издания русскоязычных Таблиц УДК идет с большим запаздыванием;

  • методическое централизованное руководство сетью НТБ в области УДК, которое осуществлялось силами ГПНТБ с 1963 г., практически прекращено в 1994 г.

На этом фоне ликвидация систематического каталога без соответствующей компенсации в электронном каталоге привела бы к ликвидации в ГПНТБ России УДК как информационного языка вообще. Действительно, зачем индексировать на этом языке документы, если систематического каталога не существует, а поиск на традиционном языке УДК в электронном каталоге не эффективен?

Очевидная недопустимость ликвидации УДК в ГПНТБ России привела к постановке и решению задачи компьютеризации этого языка.

Общее решение задачи имеет две части:

  • создание базы данных в среде CDS/ISIS, физическими единицами которой являются записи словарных статей нового издания русскоязычных Таблиц УДК;

  • создание машинного информационно-поискового языка УДК (ИПЯ/УДК) и транслятора традиционных индексов УДК на машинный ИПЯ/УДК.

Для создания базы данных УДК в качестве исходного материала использованы текстовые файлы разделов УДК, приобретенные у НТЦ "Ректор" вместе с программой разметки элементов данных табличных словарных статей. Далее определен состав элементов данных записи максимально развернутой словарной статьи УДК:

  • индекс заглавной рубрики,
  • наименование заглавной рубрики,
  • расширение наименования заглавной рубрики,
  • надрубрика,
  • условие отсылки и отсылочный индекс,
  • ссылочный индекс,
  • обратно-отсылочный индекс,
  • локальные методические указания и примеры,
  • общие методические указания,
  • область применения,
  • основные деления,
  • дата и основание исключения словарной статьи,
  • заменяющие индексы исключенной словарной статьи,
  • заглавный индекс на ИПЯ/УДК,
  • поисковый образ заглавной рубрики на языке ГРНТИ,
  • поисковый образ заглавной рубрики на языке ББК,
  • поисковый образ заглавной рубрики на языке ДКД,
  • служебные данные.

Следует обратить внимание на присутствие среди полей БД таких, как поисковый образ заглавной рубрики на языке ГРНТИ, поисковый образ заглавной рубрики на языке ББК, поисковый образ заглавной рубрики на языке ДКД. Их наличие показывает, что еще одной целью баз данных по классификационным системам является создание предпосылок и аппарата для перехода от одной классификационной системы к другой. При этом, конечно, ясно, что точное представление поисковых образов заглавных рубрик обеспечит точный переход от одной системы к другой, но процесс их создания потребует значительного времени. Поэтому на первом этапе можно предложить схему такого поискового аппарата, который обеспечит перенос поискового предписания из одной базы данных в другую.

Проблема создания поискового предписания, при помощи которого с достаточной точностью можно "попасть" на необходимую пользователю статью, должна решаться как качеством баз данных, так и точностью программирования. Идеальным вариантом при этом является наличие баз данных систем классификации в одной и той же среде. Такие предпосылки существуют: в ГПНТБ России уже действует база данных ГРНТИ в среде ППП CDS/ISIS, ведется работа по переводу 21-го издания ДКД на русский язык и параллельно — создание БД так же в среде CDS/ISIS. Остается только договориться с коллегами из РГБ и перевести базу данных ББК в эту же среду. (База данных, созданная в Консорциуме УДК, функционирует так же в среде CDS/ISIS.)

Вернемся к базе данных УДК, разрабатываемой в ГПНТБ России. Чтобы дать индексаторам возможность скорейшего доступа к актуальным словарным статьям УДК, решено сначала создать малую БД УДК, словарные статьи которой ограничены первыми шестью элементами из вышеперечисленных. Такая БД была сформирована к концу 1997 г. после редактирования и программной разметки исходных файлов.

Создание обеих БД производится в рамках Автоматизированной системы словарного и лингвопроцессорного обеспечения документальных БД АС ГПНТБ России.

Для формирования БД разработаны программы: преобразования файла в соответствующий фрагмент БД; обнаружения и исправления ошибок использования в русских словоформах графически сходных букв латинского алфавита.

Заключительным этапом формирования малой БД явился контроль — корректура заглавных и ссылочно-отсылочных индексов; данные контроля использованы также для исправления индексов в файловых словарных статьях.

Для полноэлементной БД разработаны две аналогичные, но гораздо более сложные программы. Вся технология формирования полноэлементной БД с начала 1998 г. проводится в интерфейсе системы автоматизации библиотек ИРБИС, переработанной для автоматизированной системы словарного обеспечения (АССО), что дало большую экономию трудозатрат. Полная готовность этой БД с наполнением записей только табличными элементами данных ожидается к концу 1998 г.

Вторая часть решения, как уже говорилось, имеет вид программы трансляции традиционных индексов УДК в индексы машинного ИПЯ/УДК, которая разрабатывается на основе формальных описаний грамматик традиционного и машинного УДК. В настоящее время незавершенными остались только построения, соответствующие общим определителям, кроме .00, -03 и -05. По мере завершения этой работы записи полноэлементной БД будут пополнены заглавными индексами на машинном ИПЯ/УДК и можно будет приступить к формированию индексов на машинном ИПЯ/УДК в записях документов электронного каталога и других документных БД АС ГПНТБ России.

В заключение отметим, что разработчики лингвистического обеспечения автоматизированных систем ГПНТБ России вполне реальными результатами компьютеризации УДК считают не только достижение высококачественного машинного поиска на языке УДК, но и возможность возобновления методической работы по УДК с сетью НТБ России с использованием средств удаленного доступа, возможность установления информационного взаимодействия в сфере УДК по сети Интернет с Консорциумом УДК, с российским дилером УДК (НТЦ "Ректор") и с ВИНИТИ, а также возможность автоматизированного установления соответствий между индексами УДК и индексами других информационных классификаций.


Copyright © 1995-98 ГПНТБ России