Home page | Каталоги и базы данных

Научные и технические библиотеки


УДК 025.7/9:65.011.56

Пименов Е.Н.

Индексирование информации
в БД по обеспечению сохранности документов

Опыт Библиотеки Российской Академии наук.

В настоящее время в БАН действуют шесть проблемно-ориентированных документальных систем, работающих под управлением пакета прикладных программ CDS/ISIS. Локальные базы данных в основном предназначены для компьютерной подготовки библиографических указателей по естественнонаучной тематике, такой, как «химия силикатов», «загрязняющие вещества в окружающей среде», «эволюция органического мира», «отечественная библиография библиографий (сводный каталог) по естественным наукам». В большинстве локальных систем применяются не очень сложные языковые средства обработки и поиска информации, например, внутрисистемные рубрикаторы документов, свободное или «слабо нормированное» индексирование [1, 2].

В системе по обеспечению сохранности документов (далее БД ОСД) вопросам анализа и индексирования информации отводится более важное место. По состоянию на апрель 2001 г. эта система содержит около 12 тыс. библиографических записей и имеет семантически сильный информационно-поисковый тезаурус (ИПТ) по вопросам сохранности документов, включающий в настоящее время около 5 тыс. английских и русских ключевых слов и 1 562 дескриптора; схему предметной области, представленную в виде тематического рубрикатора информации; детальную и хорошо апробированную методику индексирования документов; программу автоматизированного индексирования информации (АИ), разработанную в БАН для программной среды ППП CDS/ISIS.

В данной работе представлены основные особенности индексирования информации в БД ОСД и проблемы, решавшиеся (и решаемые в настоящее время) в ходе создания и совершенствования лингвистических средств базы данных.

Одной их особенностей лингвистических средств рассматриваемой системы является индексация информации БД ОСД английскими ключевыми словами (КС), как и в некоторых других базах данных, имеющихся в БАН. Выбор английского языка как рабочего обоснован главным образом прагматическими установками, в частности соображениями простоты и удобства (технологичности) работы с лексическим материалом системы, основу которого составляют английские документы и ключевые слова. В процессе автоматического индексирования документов в БД ОСД используются три словаря, построенные на основе тезауруса и методики индексирования информации: словарь неинформативных лексических единиц (СНЛ); слова, входящие в СНЛ, программными средствами удаляются из поисковых образов документов; словарь замены синонимов на дескрипторы (СЗС), фрагмент которого приводится ниже; словарь словосочетаний (ССЛ), куда входят КС, терминологически неразложимые на составляющие элементы.

С применением названных трех словарей в системе программным путем реализуется большая часть правил и рекомендаций, имеющихся в методике индексирования информации.

В процессе программной замены синонимов на дескрипторы с использованием СЗС ключевые слова, выделяемые из текстов заглавий и аннотаций библиографических записей, переводятся на английский язык. Проводится нормализация терминов в поисковых образах документов (ПОДах), которая состоит, как известно, в приведении индексов к определенному нормальному виду (единое написание, единая морфологическая форма и др.) [3, с. 63].

Операции по переводу КС на английский язык, удалению из ПОДов неинформативных слов, замене синонимов на дескрипторы и нормализация индексов проводятся одновременно за один цикл работы программы – для русского и английского языков – на основе тезауруса. Словарные статьи и ИПТ по обеспечению сохранности документов имеют структуру, соответствующую требованиям ГОСТ 7.25 — 80 («с» обозначает синонимы, «н» – нижестоящие и «в» – вышестоящие по содержанию дескрипторы, «а» – ассоциативные связи дескрипторов):

  CLEANING

c Clean
Removing of stains
Stains removing
Очистка
Чистка
b
н
RESTORATION
CHEMICAL CLEANING
DRY CLEANING
ENZYME CLEANING
WET CLEANING
a DIRT
SPOTS
STAINS

Кроме данного представления (текстовый файл), тезаурус реализован в системе еще как особая база данных в формате ППП CDS/ISIS, т.е. он совместим с основной базой данных на уровне внутримашинных форматов, что обеспечивает многие преимущества, в том числе – возможность автоматической генерации файла замены одних лексических единиц на другие. Программными средствами и отчасти вручную из тезауруса выводится следующий файл СЗС:

3-ОКСАЗИН$  FUNGICIDES
AAN  AMERICAN ASSOCIATION
 OF MUSEUMS, USA
AASLH  AMERICAN ASSOCIATION OF
 STATE AND LOCAL HISTORY, USA
ABC$  MANUALS
ABRI  MARBLT PAPER
ABSORB$  ABSORPTION
ACCELERAT$  ARTIFICIAL AGEING
ACCESS$  ACCESS
ACCIDEN$  ACCIDENT CONTROL
ACCOUNT$  REPORTS
ACETAT$  ACETATE
ACETON$  ACETONE
ACID$  ACIDITY
ACQUISIT$  ACQUISITION
ACQUOS$  ACQUEOUS
ACRYL  ACRYLITC RESIN
ACS  AMERICAN CHEMICAL SOCIETY, USA
ACTION$  IMPACT
ADDITIV$  ADDITIVES
ADESI$  ADHESIVES
ADHESI$  ADHESIVES
ADMINIST$  ADMINISTRATION
ADORNMENT$  DECORATION
AEROSOL$  AEROSOLS
AFFECT$  IMPACT
AFRICA$  AFRICA
AGED  AGEING
AGELESS  AGEIN
 
ХИЩ$   THEFT
ХЛОП$   COTTON
ХЛОРAМИН$   CHLORAMINE
ХЛОРИТ$   SODIUM CHLORITE
ХОЛОДИЛЬНИК$   FREEZE DRYING
ХРAНE$   STORAGE
ХРAНИЛИЩ$   REPOSITORIES
ХРAНИМ$   STORAGE
ХРAНИТ$   STORAGE
ХРAНИЩ$   STORAGE
ХРОМAТОГР$   CHROMATOGRAPHY, METHODS
ХРУПК$   BRITTLE
ХУДОЖEСТB$   ARTISTIC
ХУДОЖНИ$   ARTISTS
ЦBEТНОФОТОГР$   COLORED PROTOGRAPHS

В приведенном фрагменте словаря СЗС символом $ обозначено правовое усечение синонимов (заменяемых слов), а в качестве заменяющих выступают одиночные нормализованные ключевые слова, словосочетания и для отдельных лексем – комбинации дескрипторов, иногда состоящие из трех и более элементов. Нормализация терминов производится в соответствии с требованиями ГОСТ 7.25 — 80.

При помощи вышеназванных словарей для АИ более или менее хорошо обрабатываются (около 80% лексического материала) русские и английские документы. Информация на других языках (немецком, французском, чешском, финском, венгерском и др.) обрабатывается вручную. Завершающей и обязательной стадией индексирования информации в БД ОСД является визуальный контроль и постредактирование поисковых образов документов, полученных в результате АИ.

Ориентация на английский язык как на главный рабочий язык базы данных имеет свои преимущества и недостатки, заключающиеся, в частности, в следующем.

Процесс составления и перевод поисковых образов документов с русского на английский язык осуществляются программными средствами, поэтому индексирование информации (точнее постредактирование результатов АИ) английскими ключевыми словами не усложняет, а чаще всего упрощает индексирование документов. При автоматическом индексировании информации при помощи словаря СНЛ из поля КС удаляются неинформативные ключевые слова; в нем остаются лишь термины, называющие тему (или главное, о чем идет речь в документе).

Программными средствами (в основном) производится также техническая и трудоемкая в исполнении работа по нормализации терминов, состоящая, в частности, в выборе формы числа и падежа существительных, словосочетания или отдельных КС для выражения определенных понятий и в выполнении некоторых других операций. Преимущество вышеописанной технологии индексирования документов заключается еще и в том, что при выдаче информации пользователям русские библиографические записи выводятся на просмотр и печать вместе с английскими ключевыми словами, например:

Базы данных биологических повреждений рукописного фонда Библиотеки Российской Академии наук / О.В. Скворцова // Тез. докл. и сообщ. междунар. науч. конф. «Библиотечное дело на пороге XXI века», Москва, 15-16 апр. 1998 г. М., 1998. Ч.1. С<>.152 — 154. KEY WORDS: Databases, Biodamage; Manuscripts; Stock; Library of Russian Academy of Sciencies, Russia.

Планирование мероприятий по обеспечению готовности к бедствиям и природным катастрофам и ликвидации их последствий в библиотеках и архивах / С.А. Бьюкенен; Пер. с англ. Т.Н. Чесноковой. М.: Рудомино , 1997. 71 с. KEY WORDS: Disaster planning; Disaster recovery; Libraries; Archives.

При указанном способе вывода информации английские ключевые слова приобретают такую же роль, как переводы (подстрочные переводы) русских заглавий и аннотаций БЗ на английский язык, что обеспечивает доступ к системе специалистам, не говорящим по-русски и не знакомым с российскими публикациями по ОСД. Таким образом появляется перспектива избежать трудоемкой и сложной работы по переводу русских заглавий и аннотаций на английский язык и обслуживать зарубежных специалистов по обеспечению сохранности документов, используя Интернет.

При постредактировании результатов АИ индексаторы могут использовать как русские, так и английские термины, что существенным образом упрощает процесс выполнения индексационных работ. Недостатки и некоторые сложности, возникающие из-за вышеописанной «ориентации» лингвистических средств базы данных на английский язык, обусловлены главным образом несовершенством программного обеспечения БД ОСД (ППП CDS/ISIS).

В настоящее время при проведении поисков в поисковые выражения запросов можно включать только английские термины и только дескрипторы, но не синонимы (русские и английские).Данное обстоятельство создает известные неудобства при работе с системой. Для устранения указанного недостатка планируется разработка специального поискового интерфейса, применение которого позволит описывать содержание запросов как английскими, так и русскими ключевыми словами, и не только дескрипторами, но и синонимами.

Некоторые трудности с разработкой тезауруса и других лингвистических средств описываемой системы были связаны с тем, что при обилии информации о проектировании, разработке и промышленной эксплуатации автоматизированных библиотечно-информационных систем (АБИС), мало работ посвящено детальному описанию вербальных, т.е. дескрипторных и предметизационных языков индексирования информации, применяемых в этих системах [1, 2, 4, 5]. Особенно ощущается недостаток в описаниях опыта и конкретных решений проблем индексирования ключевыми словами, поскольку это сравнительно новая работа в библиотечных БД [1]. При этом ранее бывшие авторитетными руководства по индексированию информации и стандарты на разработку тезаурусов (например [6- 8] в какой-то степени уже устарели, а новые стандарты в системе СИБИД, информация о которых имеется в публикации [9], пока еще труднодоступны или вообще не доступны разработчиками документальных БД.

По мнению некоторых специалистов [10-11], проблема анализа и индексирования информации ключевыми словами в настоящее время не столь актуальны, как это имело место в 1970 — 1980-х гг. Эти вопросы вместе с проблемой создания и применения ИПТ в последние годы как бы ушли в периферийную область исследований. Это мнение справедливо постольку, поскольку крупные российские документальные системы, функционировавшие ранее в составе ГАСНТИ, активно вели эти работы в течение 10 — 15 лет и в основном уже завершили исследование проблем индексирования. Что касается малых документальных баз данных, то в этих БД такие исследования и разработки ведутся, как правило, без особой рекламы и развернутых публикаций полученных результатов.

На фоне общеизвестного свертывания подсистем ГАСНТИ число публикаций по индексированию в значительной степени сократилось, но объемы фактически выполняемых индексационных работ постоянно растут, а области применения индексирования расширяются, особенно в связи с появлением и бурным развитием Интернета. При поисках информации в Интернете ключевые слова с разной степенью нормализации или без таковой [12] становятся все более и более обиходным лингвистическим средством документального поиска для очень широкого круга пользователей, не обученных сложной технике индексирования.

Индексирование ключевыми словами становится также обязательным элементом технологии общедоступных библиотечно-информационных систем и интегрированных библиотечных сетей. Недостаточность методических материалов приводит к тому, что в библиотечных системах, по оценке Ф.С. Воройского, «индексирование является ахиллесовой пятой, практически низводящей ценность наработанных массивов данных для электронного каталога до самого низкого уровня». И далее: положение усугубляется тем, что все недостатки индексирования выявляются лишь при активном использовании ЭК преимущественно при обслуживании пользователей. Когда та или иная библиотека создаст ЭК, ее сотрудники могут сделать весьма неприятное для себя открытие о его низком качестве и малой пригодности при тематическом (особенно многоаспектном) поиске. Анализ результатов индексирования документов ключевыми словами в наиболее успешно занимающихся автоматизацией массовых библиотеках Москвы, Перми и других городов России показал, что выбор КС и форма их представления в ПОДах определяются сотрудниками отделов обработки преимущественно по наитию и не связаны ни с какими правилами. Одна и та же книга, проиндексированная разными сотрудниками даже одного и того же отдела, содержит совершенно несопоставимые ПОДы [1, с. 42 — 43].

В качестве иллюстрации того, каким образом в документальных системах вырабатываются правила индексирования и обеспечивается единообразие результатов индексационных работ, рассмотрим несколько таких правил, используемых главным образом в БД ОСД. При этом следует обратить внимание не столько на конкретное содержание и методическую сторону правил, регламентирующих индексирование информации, сколько на более общий и, как представляется, более важный вопрос – о факторах, в большой мере влияющих на процесс индексирования. Ниже показано, что рассматриваемые правила устанавливаются (или должны вырабатываться) с учетом взаимосвязи информации [15], т.е. степень раскрытия такой информации прямо зависит от эрудиции индексатора в общих вопросах и его компетентности в специальной области знания. Основное различие заключается в том, что избыточная тривиальная сторона информации, например «Нюрнберг» => NURENBERG => GERMANY => WESTERN EUROPE => EUROPE => FOREIGN COUNTRIES, имеет как правило регулярный характер, и данная информация может учитываться и раскрываться, как в БД ОСД, в тезаурусных связях дескрипторов или избыточным индексированием информации вручную и при проведении АИ. Скрытая информация обычно имеет более иррегулярный характер.

Избыточное индексирование информации применяется при известных условиях и для решения разных задач, помимо общей и главной задачи – увеличения информативности ПОДов и повышения таким образом полноты результатов информационного поиска. Ситуации, создающие потребность в рассматриваемом способе индексирования документов, могут быть следующими.

Работающие базы данных находятся в постоянном развитии и совершенствовании. По этой причине имеющиеся в них словари, методики индексирования, рубрикаторы и другие возможные языковые средства почти во всех случаях предстают как нечто неполное, недоработанное или не в полной мере описанное в документации по работе с системой. «Лакуны» в словарном обеспечении баз данных и в том числе возможная неполнота синонимических и родовидовых отношений в классах условной эквивалентности языковых единиц, могут быть хорошо компенсированы избыточным индексированием документов. Так, на каком-то этапе работы в БД ОСД при индексировании информации типа «Ethylene oxide fumigation» в ПОДы избыточным образом выписывались также дескрипторы DISINFECTION и FUMIGATIONS AGENTS, поскольку в то время в тезаурусе еще не были установлены связи FUMIGATION в. DISINFECTION и ETHYLENE OXIDE в. DISINFECTION AGENTS. При проведении поисков по словам DISINFECTION DISINFECTION AGENTS без избыточного индексирования документов имели бы место потери отвечающих на вопрос документов.

Избыточное индексирование может использоваться для сбора лексического материала при составлении словарных ИПТ. Поскольку слова, называющие фумиганты (газообразные дезинфицирующие вещества), как показано выше, индексировались избыточным образом, приведение поиска информации по дескриптору FUMIGATION AGENTS дало лингвистический материал, а именно — ключевые слова ETHYLENE OXIDE, PROPYLENE OXIDE, CARBON DIOXIDE и др. для составления основы нижестоящих понятий у дескриптора FUMIGATION AGENTS. Аналогичным путем устанавливались также нижестоящие термины для дескрипторов EQUIPMENT, METHODS и PROPERTIES. В начальный период работы системы в ПОДы. Помимо конкретных названий каких-либо методов, свойств и устройств, выписывались также дескрипторы METHODS, EQUIPMENT и PROPERTIES, например таким образом: «хроматография» – CHROMAGOGRAPHY, METHODS; «ва­куумные фумигаторы» — VACUUM FUMIGATORS, EQUIPMENT; «грибостойкость» — FUNGIPROFNESS, PROPERTIES. Далее путем поиска информации по указанным вышестоящим дескрипторам устанавливались логически подчиненные им нижестоящие термины. Избыточное индексирование информации применяется также, когда в программном обеспечении документальной системы имеются определенные ограничения, недоработки и недостатки. Так, длина терминов в инвертированном, т.е. поисковом файле в ППП CDS/ISIS не может быть более 30 символов (букв), а при превышении этой длины ключевые слова «укорачиваются» и предстают в следующем виде:

0--------------10--------------20------------30
CANADIAN CONSERVATION INSTITUT
CANADIAN INSTITUTE OF CONSERVA
CANADIAN NATIONAL LIBRARIES
CANADIAN NATIONAL LIBRARY IN T
CANCEROGENIC SUBSTANCES
CANNABIC
CANNABIS
CANTERBURY SCHOOL OF ILLUMINAT
CANVAS
CAPACITY INTRUSION DETECTORS
CAPACITY SECURITY ALARMS
CARBON DIOXIDE

В приведенном фрагменте инвертированного (поискового) файла отмечены «усеченные» ISIS ключевые слова. Из-за такого несовершенства ППП CDS/ISIS для тезауруса по вопросам сохранности документов отбираются по возможности термины, длина которых не превышает 30 символов, или байт. В некоторых случаях «минимизация» линейных размеров КС осуществляется с помощью операции избыточного индексирования информации.

Как выше указывалось, ключевые слова, называющие университетские библиотеки, при их индексировании в БД ОСД разделяются на два элемента – дескриптор UNIVERSITY LIBRARIES и наименование университета. При этом избыточным образом индексируется также месторасположение библиотеки в таком виде, как UNIVERSITY LIBRARIES, ST.-PETERSBURG STATE UNIVERSITY, ST.-PETERBURG, RUSSIA; UNIVERSITY LIBRARIES, JEWISH UNIVERSITY, ISRAEL, JERUSALEM. Избыточное индексирование информации в данном случае не только дает сокращение линейных размеров лексических единиц ИПТ, но и способствует уменьшению объема и упрощению понятийной структуры тезауруса. При указанном способе индексирования документов отпадает необходимость в создании широкого по содержанию дескриптора UNIVERSITY LIBRARIES, где в качестве нижестоящих понятий имелось бы очень большое число наименований университетских библиотек. Отпадает необходимость в «увязке» при помощи связи род — вид рассматриваемых нами названий с наименованиями регионов и стран, что также способствует упрощению понятийной структуры тезауруса.

В некоторых ППП ограничены максимальные размеры дескрипторов в пересчете на байты или количество терминов в классах эквивалентности единиц ИПТ. В ранее широко применявшемся в ГАСНТИ программном обеспечении ПЕГАС объем словарной статьи в машинной форме тезауруса не мог быть более 3600 символов, или байт, и последнее не давало возможности (например в базе данных по огнеупорам [16]) иметь в компьютерном представлении ИПТ такие широкие по содержанию дескрипторы, какими в системе являлись дескрипторы ОГНЕУПОРЫ, КЕРАМИКА, СВОЙСТВА, ТЕХНОЛОГИЧЕСКИЕ ОПЕРАЦИИ, ЗАРУБЕЖНЫЕ СТРАНЫ, МЕТОДЫ и некоторые другие. Указанный недостаток в программном обеспечении ПЕГАС «обходился» избыточным индексированием, проводившимся таким образом, как ОГНЕУПОР ИЗВЕСТКОВЫЙ, ОГНЕУПОР; ПОРИСТОСТЬ, СВОЙСТВА; ПРЕССОВАНИЕ ИЗОСТАТИЧЕСКОЕ, ПОЛУЧЕНИЕ; МЕТОД СИДЯЧЕЙ КАПЛИ, МЕТОДЫ, ИЗУЧЕНИЕ; ЯПОНИЯ, СТРАНЫ ЗАРУБЕЖНЫЕ и т.п.

Близкое к вышеуказанному ограничение имеется также в ППП CDS/ISIS, где предельный объем ANY-классов (аналогов дескрипторов в ISIS) в настоящее время превышает один, самый крупный в системе дескриптор PRESERVATION [обеспечение сохранности], включающий 1011 КС, из которых 326 составляют дескрипторы и 685 – синонимы. С дальнейшим развитием лингвистических средств базы данных и лексическим наполнением тезауруса число таких терминов будет расти и потребуются языковые средства, применение которых компенсирует указанную особенность ППП ISIS. Данными средствами может являться не только избыточное индексирование отдельных понятий и категорий лексических единиц ИПТ, но и словарная декомпозиция содержания определенных понятий. Для сокращения размеров компьютерных представлений крупных словарных статей ИПТ иногда широкие по содержанию понятия искусственным образом расчленяют на два или более дескриптора, сложение значений которых (логической операцией ИЛИ) дает содержание более общего, семантически разделяемого термина. Так, в упомянутой выше системе по огнеупорным изделиям и материалам имеющий очень развернутую иерархию понятий дескриптор ПЕЧИ ОБЖИГОВЫЕ был искусственно разделен на три части и представлен в тезаурусе как ПЕЧИ ОБЖИГОВЫЕ н.ПЕЧИ1, ПЕЧИ2, ПЕЧИ3, и у данных нижестоящих дескрипторов, в свою очередь, имелось большое количество нижестоящих.

При рассматриваемой декомпозиции широких понятий избыточным образом индексировались не документы, а содержание информационных запросов при составлении поисковых предписаний, где рассматриваемый концепт индексировался в таком виде, как ПЕЧИ ОБЖИГОВЫЕ + ПЕЧИ1 + ПЕЧИ2 +ПЕЧИ3. Такое решение, являвшееся правомерным в определенный период (1980-е гг.), когда поиски информации велись не непосредственно пользователями, а при помощи специалистов-посредников в области документального поиска, в настоящее время являлось бы необоснованным или просто ошибочным. «Искусственные» декомпозиции понятий не могут учитываться и эффективно использоваться как элемент лингвистического обеспечения БД при проведении поисков пользователями, так как требуют от проводящего поиск хорошего знания ИПТ базы данных. А это, как правило, невозможно при проведении поисков в общедоступных библиотечно-информационных системах при удаленном доступе к информации через Интернет.

Минимизация компьютерных форм представления дескрипторов может быть обеспечена также путем некоторых общетехнологических решений по разработке документальных баз данных. Так, выбор английского языка в качестве основного, рабочего языка индексирования и то, что синонимы в ПОДах и в инвертированном файле системы при проведении АИ заменяются на дескрипторы, сокращает объем инвертированного файла и, соответственно, ANY-файла БД ОСД приблизительно в 3,5 раза. Такое решение позволяет работать в программной среде ППП CDS/ISIS с довольно широкими по их содержанию и «лексическому наполнению» дескрипторами.

Связь технологии с индексированием, в том числе с избыточным индексированием информации, проявляется еще в двух особенностях (технологии) рассматриваемой нами системы.

В БД ОСД этот вид индексирования используется весьма широко. Правил, которые регламентируют избыточное индексирование (особенно – не лексических категорий, а отдельных ЛЕ), имеется слишком большое количество для ручной обработки такой информации. Широкое применение избыточного индексирования в том виде, как это ведется в БД ОСД, возможно и эффективно постольку, поскольку в системе имеется автоматическое индексирование документов.

Неочевидную скрытую информацию по понятным причинам могут выявить и проиндексировать главным образом специалисты в какой-либо области – она недоступна или плохо доступна для лиц, не имеющих специального образования или в деталях не знающих предметную область системы. Последним, наверное, и объясняется известная точка зрения, что информацию должны индексировать только специалисты-предметники. Конечно, участие специалистов в индексировании информации очень желательно, но на практике во многих БД информацию индексируют люди, не имеющие специального образования в соответствующей области. Как показывает опыт работы БД по вопросам сохранности документов:

  • скрытая и неочевидная для индексаторов информация в текстах научно-технических публикаций встречается относительно редко. Вероятно, что скрытая информация представляет собой такую же редкость в содержании индексируемых документов, как идиомы или близкие к ним выражения в языке научно-технической информации;

  • для некоторых областей и систем важнее профессиональные навыки индексаторов, чем профессиональные знания специалистов;

  • понятия и контексты, в которых в БД регулярно представлена скрытая информация, должны собираться (и эта работа ведется в БД ОСД), систематизироваться и детально описываться в руководствах по индексированию документов. На основе анализа языкового материала, индексируемого избыточным образом, должны пополняться и совершенствоваться словарные средства АИ с тем, чтобы работа по выявлению и избыточному индексированию информации велась в основном с применением АИ и без участия (или при минимальном участии) специалистов-предметников;

  • специалистов целесообразней задействовать на конечном этапе работ, связанных с индексированием информации, а именно – при редактировании результатов автоматизированного индексирования информации. Силами специалистов-предметников должно обеспечиваться также комплектование, т.е. отбор вводимых в БД документов. Эта работа является, может быть, самой квалифицированной и ответственной в технологии документальных систем, поскольку при комплектовании оценивается не только одно соответствие/несоответствие документов информационному профилю базы данных (а данное соответствие может быть большим и меньшим, и оценки его могут быть субъективными), но и потенциальная ценность вводимой в БД информации для специалистов по обеспечению сохранности документов.

Описанная организация и распределение работы между персоналом документальных баз данных, имеющим разное образование и квалификацию, должны быть особенно эффективны в условиях эксплуатации специализированных информационных систем, небольших по объему документального ввода.

Выше было показано, что в БД ОСД правила индексирования информации хорошо согласованы между собой и обеспечивают тесную взаимосвязь многих технологических и лингвистических решений, принимаемых при построении и использовании основных элементов системы в ряду комплектование – программное обеспечение – индексирование информации – составление тезауруса – процесс проведения поисков. Так, правила, применяемые при избыточном индексировании, обеспечивают: уменьшение объема тезауруса; упрощение его понятийной структуры; устранение «лакун» в ИПТ; удобства при сборе лексического материала при составлении крупных словарных статей ИПТ; сокращение объемов рутинных индексационных работ, выполняемых специалистами-предметниками; компенсацию некоторых недоработок, имеющихся в программном обеспечении системы; удобство работы с системой для пользователей, не знакомых с тезаурусом и сложной техникой индексирования информации, используемой в БД ОСД.

Такой же характер имеют и другие правила индексирования, в том числе критерии установления устойчивых тезаурусных языковых единиц, т.е. терминологически неразложимых на составляющие элементы. В базе данных по ОСД установлены и используются 18 критериев терминологической разложимости/неразложимости единиц ИПТ. Например, словосочетание является неразложимым, если оно:

  • часто используется или может использоваться для выражения наиболее массовых, типовых информационных потребностей пользователей или читателей библиотеки. Как правило, такие ЛЕ представлены в терминологических словарях, стандартах, энциклопедиях, учебниках или другой авторитетной справочной литературе;

  • имеет синонимы, аббревиатуры, ниже- и вышестоящие термины;

  • не приводит к малооправданному и при этом существенному увеличению объема тезауруса;

  • является общепринятым термином и не имеет характера искусственно созданных языковых конструктов;

  • является идиоматическим выражением в широком значении, содержание которого не выводится полностью из значений составляющих словосочетание слов.

Из сказанного выше вытекает, что практическое индексирование информации регламентируется не небольшим количеством правил, простых и понятных любому носителю русского языка с известным уровнем общего образования (как описано во многих методиках индексирования документов). Индексаторы и составители ИПТ руководствуются неопределенно большим (и очень большим) их числом. В полном объеме эти правила не описаны ни в одном руководстве по индексированию информации, хотя бы из-за большой трудоемкости и сложности выполнения таких описаний.

Учитывать многие факторы и параметры документальных систем, на основе или с учетом которых разрабатываются правила индексирования, можно, наверное, только в условиях работы специализированных документальных баз данных, где информационные потребности пользователей часто являются очевидными, имеются специалисты-предметники, а терминология стандартизована иногда даже на уровне государственного стандарта. В массовых универсальных библиотеках такие условия обычно отсутствуют. Поскольку учет всех условий, влияющих на процесс индексирования информации в универсальных АБИС, является в полном объеме заведомо невыполнимой задачей, в этих системах при разработке их лингвистических средств должны применяться какие-то более простые решения и до известного уровня «усредненная», небольшая глубина индексирования информации. Ф.С. Воройский точно определил эти правила как «мягкое нормирование» языковых единиц в базах данных массового назначения [1, 2].

Представляется, что на первоначальном этапе работы по индексированию информации в этих БД могут использоваться авторитетные подручные справочные материалы, где часть вопросов, касающихся индексирования информации, часто решается при рассмотрении определений и словарной подачи терминологических единиц. Последняя технология применяется, в частности, в эффективно работающей универсальной БД Центральной городской библиотеки им. В.В. Маяковского в С.-Петербурге. [4].

По накоплении в универсальных системах достаточно представленного лингвистического материала должна быть централизованно проведена его лингвистическая обработка, унификация и составление списка КС, рекомендованных для индексирования информации в массовых библиотеках России. Вопрос заключается в том, какая организация (или несколько кооперирующихся библиотек) возьмет на себя методическую постановку, организацию и выполнение этой сложной, ответственной и трудоемкой работы.

 

Список литературы

1.Воройский Ф. Индексирование документов в АБИС//Библиотека. 1996. № 9. С.42 — 44.

2.Воройский Ф.С. Некоторые пути повышения качества поисковых характеристик электронных каталогов // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы конф., 1 – 9 июня 1996 г. М., 1996. С.286 — 289.

3.Черный А.И. Введение в теорию информационного поиска. М.: Наука, 1975. 238 с.

4.Оранская Л.И. Некоторые особенности использования дескрипторного поискового языка в библиографической ИПС универсального типа // Науч. и техн. б-ки. 1997. № 9. С. 13 — 22.

5.Щербинина Т.С. Философия координатного индексирования // Там же. 2000. № 9. С.68 — 78.

6.Соколов А.В. Методические материалы по разработке информационно-поисковых тезаурусов: Учеб.-метод. пособие. Л.: ЛГИК, 1975. 68 с.

7.Воройский Ф.С. Аналитико-синтетическая обработка и переработка информации в автоматизированных системах НТИ: Основы организации и технологии (Учеб. пособие). М.: ИПКИР. 1991. 289 с.

8.ГОСТ 7.25-80. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. Введен. 01.01.82. Изм.1. Вед.01.07.87.

9.Сукиасян Э.Р. Стандарты системы СИБИД // Науч. и техн. б-ки. 2000. ¹ 6. С.78 — 82.

10.Cleverdon C. The significance of Cranfield test on index languages; [Pap.] 14th Annu. Int. ACM/SIGIR Conf. Res. and Dev. Inf. Retriev., Chicago, 1991 // SIGIR Forum. Spec. issue. 1991. Spec. issue. C. 3 — 13.

11.Ханжин А.Г. Разработка методики координатного индексирования информации. Часть 2 // НТИ. Сер. 2. 1995. № 9. С.14 — 17.

12.Захаров В.П. Языковые средства современных информационно-поисковых систем: Автореф. дис. …канд. филол. наук. СПб: СПбГУ, 1997. 22 с.

13.Першиков В.И., Савинков В.М. Толковый словарь по информатике. М.: Финансы и статистика, 1991. С.123.

14.Методика индексирования документов по «Тезаурусу по атомной науке и технике» для системы автоматизированного распределения информации / Сост. Н.В. Залежская, Т.В. Стрельцова; ЦНИИатоминформ. М.: ЦНИИатоминформ, 1977. 49 с.

15.Farrow J. A cognitive process model of document indexing // J. Doc. Vol. 46, N 2 1991. C.149 — 166.

16.Соловушкова Г.Э., Пименов Е.Н., Амхир И.К. Опыт работы автоматизированной информационно-поисковой системы по огнеупорам // Огнеупоры. 1989. № 3. С.43 — 48.

 

От редакции: предлагаем вашему вниманию материал, подготовленный главным редактором сборника А.И. Земсковым на основе интервью, опубликованного в журнале «Информация сегодня» ( Information Today, Vol. 18, Is. 3, March 2001), который получили участники конференции и выставки «Компьютеры в библиотеках» ( Computers in Libraries – 2001), Вашингтон, США, 13 – 14 марта 2001 г.

В данном интервью свои идеи высказали Роберт Кутер (Robert Cooter) – профессор права Университета Беркли (США, Калифорния), член Американской академии наук и искусств, директор издательства Беркли Электроник Пресс (CEO, The Berkley Electronic Press, bepress. com) и Паула Хейн (Paula J. Hane), редактор журнала «Информация сегодня»; г-жа Хейн работала библиотекарем справочного отдела, затем специалистом по поиску в Интернете, а сейчас совместно с Барбарой Квинт (Barbara Quint) издает журнал «Информация сегодня».

Мы надеемся, что идеи и решения калифорнийских специалистов заинтересуют и наших читателей.


Copyright © 1995-2001 ГПНТБ России