Home page | Каталоги и базы данных

Научные и технические библиотеки

УДК 025.4.03

Оранская Л.И.


Некоторые особенности использования
дескрипторного поискового языка
в библиографической ИПС универсальной библиотеки

Дескрипторные языки, проверенные многолетней практикой отечественной и зарубежной научной информации, - мощное средство автоматизированного информационного поиска. Многие зарубежные и отечественные специалисты отмечают близость дескрипторных и предметных информационно-поисковых языков (ИПЯ). Более того, дескрипторный язык является как бы итогом развития предметного языка для компьютерных информационно-поисковых систем (ИПС) [1; 2].

С внедрением компьютерной технологии дескрипторные ИПЯ стали применяться в некоторых крупных универсальных библиотеках для монотематических баз данных (БД) и для электронных каталогов с автоматическим индексированием документов, относящихся к одной отрасли (как в ГПНТБ России).

Возникает вопрос: возможно ли использование дескрипторного ИПЯ в массовых универсальных библиотеках, где преобладает общественно-политическая тематика, а информационный массив имеет политематический, фрагментарный, даже случайный характер. Терминология гуманитарных наук не столь унифицирована, как например технических или медицинских. Нередко встречаются документы (статьи), которые плохо поддаются формальному индексированию в силу использования в тексте описательных оборотов речи или терминов, только что изобретенных авторами. Следовательно, применение автоматического индексирования вряд ли принесет хорошие результаты, потребуется ИПЯ, предназначенный для ручного индексирования документов.

При "классическом" подходе к формированию монотематического информационно-поискового тезауруса (ИПТ) вначале производится отбор необходимой терминологической лексики из так называемого представительного массива документов, а затем из этой лексики формируется ИПТ, который периодически обновляется каждые 3-5 лет. Любая новая редакция ИПТ в таком случае обслуживает последующие новые библиографические записи. При этом БД неизбежно фрагментируется на отдельные блоки, каждому из которых соответствует своя редакция тезауруса.

Хотя приостановка ведения монотематических тезаурусов всегда условна (поскольку терминология любой области подвержена частым изменениям), она избавляет от корректировки поисковых образов документов (ПОД), уже введенных в БД для поддержания соответствия БД и ИПТ.

Описанный выше подход невозможен при создании ИПС политематического характера в универсальной массовой библиотеке, так как: во-первых, не удается сформировать набор представительных документов; во-вторых, в условиях библиотеки удобнее иметь одну большую БД, чем несколько мелких. Следовательно, требуется непрерывное ведение тезауруса, которое влечет за собой такую же непрерывную кооректировку поисковых образов документов (процесс, напоминающий постоянную редакцию традиционных карточных каталогов и картотек).

По-видимому, никем еще не проверено на практике, с какой скоростью растет такой тезаурус, какие трудности возникнут при коррекции БД, включающей сотни тысяч документов, и наконец какие трудозатраты необходимы при построении дескрипторной ИПС в условиях библиотеки.

В информационно-библиографическом отделе Центральной городской публичной библиотеки им. Маяковского (С.-Петербург) при создании ИПС с дескрипторным ИПЯ, предназначенным как для поиска, так и для ручного индексирования документов, мы исходили из предположения, что использование максимальной автоматизации рутинных операций, связанных с непрерывным ведением ИПТ и соответствующей корректировкой ПОД, позволит достичь высокой эффективности при вполне приемлемых трудозатратах.

ИПС состоит из библиографической базы аналитических описаний (БД) и трех лексикографических БД ИПТ: алфавитно-семантического указателя, систематического указателя, указателя единичных терминов.

Предполагается, что ИПС со временем заменит традиционную главную картотеку статей, став равной ей по объему и содержанию, а также ряд вспомогательных картотек. В настоящее время записи библиографической БД дублируются в традиционной ручной картотеке статей. Работа начата в 1994 г.

Тематика библиографической базы данных. Библиографическая БД ИБО включает материалы самой разнообразной тематики и содержательности - от научных работ до заметок в популярных массовых изданиях. При этом в отличие от научных библиотек ни одна тематическая область не может быть представлена в ней с исчерпывающей полнотой. Более основательно освещены литературоведение, искусствознание, краеведение, общественно-политическая тематика и экономика. Но и они даны фрагментарно.

Непрерывное ведение тезауруса. Лексикографическая обработка ключевых слов началась сразу с введением в ИПС первых библиографических записей, еще до накопления терминологического массива. Принято решение, что никакие дескрипторные статьи не могут включаться в ИПТ заранее, т. е. ИПТ не должен содержать дескрипторы, отсутствующие в библиографической БД.

Изменения в ИПТ ИБО вносятся примерно раз в 2-3 недели. Одновременно корректируется и библиографическая БД.

Программное обеспечение. Библиографическая БД и базы тезауруса ведутся с помощью пакета прикладных программ CDS/ISIS/M версия 3.0 (далее - ISIS) [3], текстового процессора Лексикон 1.3 [4], а также специальных программ, написанных по заказу ИБО.

Поисковые возможности ISIS позволяют отбирать и сортировать лексические единицы (ЛЕ) по любым признакам и их комбинациям, а также находить заполненные и незаполненные поля записей - элементов словарных статей ИПТ. Однако другие операции с лексикой удобнее и быстрее выполняются с текстовыми файлами, чем непосредственно в БД. Поэтому текстовые файлы выводятся из БД в служебном формате с указаниями меток полей записей и после обработки конвертируются в коммуникативный формат ISIS, затем они заменяют в БД прежние варианты записей.

Текстовый процессор Лексикон 1.3 используется для составления дескрипторных статей ИПТ, индексирования библиографических записей дескрипторами путем копирования их из тезауруса (используются окна и система макрокоманд), внесения глобальных изменений в библиографическую БД при изменениях в ИПТ, а также для проверки опечаток в библиографических записях.

Кроме конвертирования текстовых файлов в коммуникативный формат ISIS специальные программы для ведения ИПТ выполняют следующие операции: отбор из библиографических записей новых ЛЕ, запись обратных ссылок в дескрипторных статьях, обнаружение ошибок в поисковом словаре библиографической БД, формирование систематического указателя ИПТ, формирование ANY-файла (см. далее).

В результате все рутинные процессы составления словаря выполняются автоматически.

Классификационная схема тезауруса. Наиболее рациональным оказалось использование классификационной схемы фасетно-категориального типа.

Основные фасеты схемы:

  1. Субъекты
  2. Нематериальные объекты, интеллектуальная продукция
  3. Материальные объекты
  4. Действия, способы, технологии
  5. Явления, состояния, процессы, проблемы
  6. Качественные характеристики, свойства
  7. Количественные характеристики
  8. Место действия
  9. Время действия
  10. Языковая принадлежность, системы письма и т. п.
  11. Области деятельности

Фасеты 1-10 содержат абстрактные категории понятий. В фасете 11 перечислены тематические области независимо от их значимости или объема, так как иерархия их в данном случае не имеет значения.

Каждая ЛЕ, независимо от ее статуса в тезаурусе (дескриптор или аскриптор), получает не менее двух индексов - основной из фасета 11 и дополнительный категориальный из фасетов 1-10.

Индивидуальные индексы терминам не присваиваются, так как в нашем случае они не имеют практического значения. Более того, в противном случае при каждом изменении ИПТ пришлось бы заново индексировать лексику.

В отличие от монотематических фасетных классификаций, описанных А.В. Соколовым [5], основные и дополнительные индексы не объединяются заранее в фасетные формулы. Такое объединение производится посткоординацией в процессе разработки словарных статей: комбинируя основные и дополнительные индексы в поисковой формуле ISIS, используя поиск по "И" и по "ИЛИ", можно выделить из лексики ИПТ фрагменты более или менее узкой тематики. В них легко просматриваются синонимия и логические отношения - иерархические или ассоциативные - между ЛЕ. (Например, можно отобрать все виды профессий в какой-то области деятельности, все виды учреждений или организаций одной отрасли и т. п.)

Классификационная схема ИПТ остается небольшой по объему (4,5 страницы) и почти не меняется с изменениями размеров и содержания тезауруса.

Алфавитно-семантический указатель - основная часть ИПТ, строится в соответствии с ГОСТ 7.25-80 [6].

Вся лексика ИПТ связана логическими отношениями. Любые ссылки и указания на логические отношения (иерархические или ассоциативные) в тезаурусе взаимны.

Критерии включения терминов в ИПТ. Дескрипторы ИПТ - главным образом общеупотребительные термины (существительные или словосочетания), включенные в терминологические, энциклопедические словари, тезаурусы и терминологические стандарты.

Вследствие политематического характера ИПТ особое значение в формулировках дескрипторов имеют уточняющие пометки-реляторы и примечания, предусмотренные стандартом.

Примечания в некоторых случаях выглядят кратким определением дескриптора. В отличие от реляторов они не являются частью дескриптора, поэтому в БД ИПТ вводятся в отдельное поле записи, а в рабочем варианте тезауруса выглядят так:

    БАНКОВСКИЕ СИСТЕМЫ

    (Совокупность национальных банков и других кредитных учреждений страны)

    КИНЕМАТОГРАФИЯ

    (производство фильмов)

    КОНТАКТНЫЕ ЛИНЗЫ

    (для коррекции зрения)

    НАУЧНАЯ ИНФОРМАЦИЯ

    (область деятельности)

Систематический указатель тезауруса, как и алфавитно-семантический, представляет собой БД ISIS. Он формируется автоматически - по классификационным индексам дескрипторов - из каждой новой версии алфавитно-семантического указателя. В нем три иерархических уровня. Первый (верхний) - перечень тематических областей. Второй - перечень относящихся к этим областям дескрипторов. Дескрипторы приводятся вместе со списками нижестоящих дескрипторов (третий уровень), если они есть. Аскрипторы в систематический указатель не входят.

В БД систематического указателя возможен поиск как по названию тематическоой области (какие дескрипторы в нее входят), так и по отдельному дескриптору (к какой тематической области он относится). Индексы ЛЕ не используются для поиска: пользователю в них нет необходимости, поскольку нужный тематический раздел можно найти по его названию.

Единичные термины в тезаурусе. Библиографическая БД универсальной массовой библиотеки содержит чрезвычайно большое количество имен и названий. Такого рода дескрипторы выделены в дополнительный указатель единичных терминов. Он строится аналогично алфавитно-семантическому: со ссылками на синонимы, вышестоящие и ассоциативные дескрипторы, которые входят не только в основную - алфавитную часть ИПТ, но и в данный указатель. Нижестоящих дескрипторов здесь не может быть, так как единичные термины представляют самый нижний иерархический уровень понятий.

Учитывая поисковые возможности ISIS, в дескрипторные статьи указателя (в отступление от стандарта) включаются ссылки только на ближайшие вышестоящие дескрипторы. Например:

    МАЛЛАРМЕ С.

    (1842-1898)

    в1 ПОЭТЫ

    а СИМВОЛИЗМ

    ФРАНЦУЗСКАЯ ЛИТЕРАТУРА

Вышестоящий дескриптор более высокого уровня - в приведенном примере им мог бы быть дескриптор "ЛИТЕРАТОРЫ" - не указывается, поскольку в ISIS возможно индексирование библиографических записей одними адекватными дескрипторами с тем, что при поиске используется так называемый ANY-файл [3], содержащий ссылки на нижестоящие дескрипторы от всех дескрипторов более высокого уровня. Таким образом сокращаются размеры указателя при сохранении всех его справочных функций.

В ИПС ИБО ANY-файл, который автоматически формируется из алфавитного указателя ИПТ, используется как в библиографической БД, так и в лексикографических базах ИПТ. Такой прием поиска позволяет обеспечить его полноту вместо трудоемкого избыточного индексирования документов вышестоящими дескрипторами при вводе данных.

В указатель входят только такие имена и названия, по которым вероятны частые читательские запросы. Если все-таки поступит запрос на имя (название), не вошедшее в ИПТ, поиск может проводиться в два этапа: сначала по какому-либо обобщающему дескриптору, а затем "по свободному тексту" в полученной выборке [3]. Например, запрос об архитекторе Никонове, работавшем в Петербурге:

    1-й этап поиска: АРХИТЕКТОРЫ и С.-ПЕТЕРБУРГ

    2-й этап поиска: "по свободному тексту" заглавий, аннотаций,

    подзаголовочных данных - фамилия "Никонов"

Особое значение имеет поле примечаний. Оно расширено за счет кратких справочных сведений, которые иногда невозможно отразить в ссылках на вышестоящие и ассоциативные дескрипторы: годы жизни, расшифровка псевдонимов, адреса и др. Например:

    АПРАКСИН ДВОР

    (Апраксин рынок. С.-Петербург, Садовая ул., 28-30)

    БОССЕ Г.Э.

      (1812-1894. Боссе (Гаральд-Юлиус) Гаральд Эрнестович (Андреевич). Пригороды СПб: усадьбы Михайловка, Знаменка. СПб: особняки Бутурлиной, Кочубея, дом Департамента уделов (Литейный пр., 39), с которым связ. "Размышления у парадного подъезда" Некрасова)

    СЕЙ Ж.Б.

    (Сэ Ж.-Б. 1767-1832. Франция)

    СМОЛЬНЫЙ СОБОР

    (Воскресенский собор Смольного монастыря. 1748-1769. СПб)

    СМУТНОЕ ВРЕМЯ

    (конец XVI - начало XVII в. Россия)

    ТОМОН Жан Тома Де

    (1760-1813. С 1799 - в России. С.-Петербург. Одесса. Россия)

Предлагаемый ISIS метод индексирования используется, когда слова, выделенные угловыми скобками в каком-либо поле рабочего листа ввода (в нашем случае - в поле примечаний), становятся поисковыми терминами. В итоге при поиске, например по формуле:

    САНКТ-ПЕТЕРБУРГ и ДРАМАТИЧЕСКИЕ ТЕАТРЫ

получим перечень драматических театров С.-Петербурга, несмотря на то, что в статью "САНКТ-ПЕТЕРБУРГ" список театров не включен, но в примечаниях к каждой статье на название петербургского театра (в рабочем листе ввода данных) стоит: "С.-Петербург". Такой же прием используется для псевдонимов, их раскрытия, транскрипций имен, а также для адресов. Все варианты названий, псевдонимы, адреса попадают в поисковый словарь ISIS, в то время как необходимость включать их в ИПТ отпадает.

Потребность в хронологических ссылках вызвана читательскими запросами такого рода, как "Памятники архитектуры начала XVIII века" или "Композиторы, работавшие в России во времена императрицы Елизаветы Петровны" и т. п. Наиболее рациональным оказалось использование отдельного поля записи для хронологического периода (с точностью до десятилетия каждого века). В результате такая ссылка также становится поисковым термином ISIS, но не дескриптором.

Указатель единичных терминов может служить не только для библиографического поиска, но и для получения некоторых фактографических справок.

Рост объема тезауруса. Наблюдение проводилось в отношении изменений количества дескрипторов алфавитно-семантического указателя.

Считается, что монотематические ИПТ набирают около 90% лексики на двухтысячном массиве документов. ИПТ ИБО набирает основное ядро лексического состава значительно медленнее (см. таблицу).
РОСТ КОЛИЧЕСТВА ДЕСКРИПТОРОВ В ТЕЗАУРУСЕ
В ЗАВИСИМОСТИ ОТ РОСТА БИБЛИОГРАФИЧЕСКОЙ
БАЗЫ ДАННЫХ

Количество
библиогр. записей (документов)

Количество
дескрипторов
в тезаурусе

Скорость роста
тезаурусов

500

773

1.546

1000

1046

0.546

1500

1361

0.630

2000

1647

0.572

2500

1862

0.430

3000

2015

0.306

3500

2196

0.362

4000

2330

0.268

4500

2444

0.228

5000

2571

0.254

5500

2666

0.190

6000

2739

0.146

6500

2856

0.234

7000

2916

0.120

7500

2996

0.160

8000

3057

0.122

8500

3132

0.150

9000

3201

0.138

9500

3259

0.116

10000

3302

0.086


В таблице показана зависимость количества дескрипторов и скорости роста количества дескрипторов от количества библиографических записей в БД: скорость роста объема политематического ИПТ непрерывно снижается с увеличением объема библиографической БД.

Необходимо учесть также, что окончательную "обкатку" тезаурус проходит при обслуживании читателей. В процессе развития ИПТ дескрипторы могут не только добавляться, но и заменяться ссылками на другие дескрипторы или их комбинации. Этим в основном объясняются колебания нижней кривой.

Коррекция библиографической БД в связи с изменениями статуса ЛЕ в ИПТ. Возможны следующие причины изменений статуса ЛЕ: неудачная формулировка, которая вызывает ложную координацию при поиске, - дескриптор должен быть заменен на другой, а прежняя его форма остается в качестве аскриптора; появление нового термина, который может заменить два или три прежних дескриптора; излишняя детализация дескриптора - его можно заменить комбинацией других дескрипторов; дескриптор слишком обобщенный, при поиске возможен шум.

В первых трех случаях изменения вносятся автоматически операцией глобальной замены. В последнем возникает необходимость просмотреть каждую библиографическую запись, где был использован данный дескриптор, и заменить его на другой (другие), более детальный. В таких случаях в дальнейшем, при сотнях тысяч библиографических записей могут возникать затруднения. Однако чрезмерно обобщенные дескрипторы - весьма редкий вариент для информационного массива, состоящего из статей.

Качество информационного поиска. Степень полноты и точности ответов ИПС зависит от разных факторов: найденного составителем баланса обобщенности и детальности ЛЕ, входящих в ИПЯ; квалификации вводящего информацию в ИПС; точности представления пользователя о предмете поиска и грамотности проведения поиска.

Ежедневная практика обслуживания читателей показывает высокую точность ответов ИПС. Среди найденных документов не бывает нерелевантных, и если какой-то документ отвергается читателем, то лишь по причине непертинентности.

Полнота поиска всегда может быть достигнута с помощью вышестоящих дескрипторов, ANY-файла или включением в поисковую формулу ассоциативных дескрипторов, выбираемых из ИПТ.

Качественный вод информации достигается использованием аспектных сеток для анализа содержания документов разной тематики и жанров.

Трудозатраты. Ввод библиографических данных входит в круг обязанностей библиографов ИБО (12 человек). Автор данной статьи является менеджером БД. В его функции входит контроль ИПТ, его постоянное обновление, коррекция библиографической БД, контроль индексирования документов, а также методическая помощь сотрудникам.

Наибольшие затраты рабочего времени пришлись на первые полтора года создания тезауруса и освоения библиографами компьютерной грамоты и методики работы. Ручное индексирование требует определенной подготовки персонала, однако именно внимательный анализ текстов при вводе информации обеспечивает качественный, несложный и быстрый поиск, доступный и читателям, знакомым с компьютером.

В настоящее время, когда основное ядро ИПТ определилось и изменения его незначительны, а ошибок индексирования все меньше, оперативность пополнения БД приближается к оперативности включения новой информации в ручную картотеку, а в ближайшем будущем должна превысить ее, так как в компьютерной ИПС не требуется времени на расстановку карточек. Кроме того, по мере накопления библиографами опыта и навыков работы контроль индексирования документов сведется к рассмотрению предлагаемых новых ЛЕ для ИПТ.

Выводы.

  1. Дескрипторные языки могут успешно применяться не только для монотематических ИПС, но и для универсальных по содержанию библиотечно-библиографических систем.
  2. Наиболее подходящей для политематического ИПТ является фасетная классификационная схема, которая с ростом тезауруса почти не подвержена изменениям.
  3. В отличие от монотематических ИПТ для построения политематического ИПТ можно использовать упрощенную классификационную схему, не присваивая дескрипторам индивидуальных индексов.
  4. Политематический тезаурус в условиях библиотеки целесообразно вести непрерывно, постоянно корректируя библиографическую БД. При соответствующем программном обеспечении и продуманной методике трудоемкость такой работы вполне приемлема.

Список литературы

  1. Мидоу Ч. Анализ информационных систем: Сокр. пер. с англ. М.: Прогресс, 1977. 400 с.
  2. Сукиасян Э.Р. Компьютеризация библиотеки: с чего начать и чем закончить? // Науч. и техн. б-ки. 1993. № 12. С. 19-30.
  3. Пакет прикладных программ CDS/ISIS/M версия 2.3 / МЦНТИ. Метод. материалы и документация по пакетам прикладных программ. Вып. 70. М., 1991. 256 с.
  4. Фигурнов В.Э. IBM PC для пользователя / НПО "Информатика и компьютеры". 6-е изд., перераб. и доп. М.: Инфра-М., 1995. 432 с.; ил.
  5. Соколов А.В. Методические материалы по разработке информационно-поисковых тезаурусов / Ленингр. гос. ин-т культуры им. Н.К. Крупской. Л., 1975. 68 с.
  6. ГОСТ 7.25-80. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. М.: Изд-во стандартов, 1988.
Copyright © 1995-97 ГПНТБ России