Home page | Каталоги и базы данных

Научные и технические библиотеки

УДК 025.4:65.011.56

Щербинина Г.С.

Философия координатного индексирования

Составление тезаурусов информационных библиотечных систем требует определенных знаний и немалых профессиональных усилий со стороны библиотечных специалистов. Проблемы отбора ключевых слов и их грамматической формы сегодня актуальны для всех библиотек, занимающихся вводом в электронный каталог (ЭК) библиографических записей (БЗ). При этом библиотекам нужно учитывать возможность дальнейшего вливания их БД в библиотечные информационные ресурсы города, страны и т.д., для чего кроме совместимого аппаратного и программного обеспечения необходимы одинаковые подходы к заполнению полей ЭК.

Сегодня у библиотек нет какой-либо регламентирующей документации, определяющей основные принципы и этапы этой работы, поэтому, наверное, любой опыт в данном направлении будет интересен для всех.

В статье использован опыт работы отдела научной обработки литературы библиотеки Уральского государственного технического университета (УГТУ). (Библиотека УГТУ работает в программе "Библиотека 4.02", сетевой вариант, под DOS). Некоторые проблемы координатного индексирования и варианты их решений уже рассматривались на семинарах специалистов вузовских библиотек и находили живой отклик. Они затрагивали в основном проблемы грамматической формы написания ключевых слов. Например, применение формы числа, падежа ключевых слов, применение и написание словосочетаний, отражение и написание в ключевых словах географических понятий, временных рамок, имен собственных и многое другое. По отзывам, в основном положительным, чувствуется, что поднимаемые вопросы актуальны и востребованы теми библиотеками, где активно внедряются передовые технологии. В статье рассмотрим другие аспекты этой сложной темы: принципы и методику отбора ключевых слов, подход индексатора к этому вопросу. Будем благодарны всем отзывам, деловым замечаниям и предложениям коллег из других библиотек.

 

Идея координатного индексирования широко обсуждалась в библиотечной прессе еще в 1960-е гг. Тогда сравнивали возможности индексирования по таблицам УДК и координатного индексирования. Например, статья Н.Н. Дмитриевского [1], научного сотрудника Института информации судостроительной промышленности (Ленинград) была напечатана сразу в двух журналах — "Научно-техническая информация" и "Технические библиотеки СССР" по причине особой актуальности темы. Автор ратовал за создание механизированной поисковой системы, так как считал, что индексирование документов по УДК не позволяет осуществлять их качественный многоаспектный поиск. В статье говорилось о том, что еще в 1950-е гг. американский библиотекарь Мортимер Таубе предложил отражать содержание документов с помощью совокупности унитермов — слов, несущих смысловую нагрузку и взятых из текста документа, так называемых ключевых. На каждое слово заводится отдельная карточка с номером документа. Требуемая информация выдается после составления (координации) ключевых слов запроса и документа, поэтому такой метод назван координатным. Однако вскоре стало ясно, что индексирование ключевыми словами, взятыми из текста, еще не позволяет выдавать все отвечающие запросу документы, имеющиеся в картотеке. Необходимо было создать формализованный язык ключевых слов с учетом синонимов, омонимов и некоторых связей иерархического типа. Подобные формализованные языки получили наименование информационно-поисковых, а особым образом организованные списки ключевых слов — тезаурусов.

Существовавшие тогда карточные картотеки состояли из перфорированных карт с номером документа. В систематической картотеке расставлялись карточки с перечнем простых индексов УДК и их словесным выражением; велись также и вспомогательные картотеки: алфавитная, в которой понятия стояли по алфавиту, и нумерационная, в которой по порядковым номерам стояли описания самих документов. Из поисковой систематической картотеки извлекались карточки с соответствующими индексами. Затем просматривались колонки, на которых отмечены номера документов (или просмативались на свет и отыскивались совпадающие). Карточки потом расставлялись обратно. Поиск можно было организовать и с помощью счетно-перфорационных машин.

Современная техника шагнула далеко вперед. Сегодня у нас есть электронные каталоги и машинный поиск. А вот к разговору о ключевых словах придется вернуться.

 

В отделах научной обработки литературы до применения компьютерных технологий систематизаторы раскрывали содержание источников посредством индексов УДК и ББК, а также предметных рубрик (ПР).

Сегодня к перечисленным видам аналитической обработки документа добавился еще один вид предмашинной обработки — раскрытие содержания документа посредством координатного индексирования, т.е. выявлением и перечислением ключевых слов. По определению ГОСТ 7.74—96 "Ключевое слово — это информативное слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования". Ключевое слово — это наиболее значимое слово из текста. По определению того же стандарта "Координатное индексирование — это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов". Совокупность ключевых слов составляет поисковый образ документа (ПОД). Создание ПОД требует высокой квалификации индексатора.

Преимущество метода координатного индексирования проявляется при необходимости многоаспектного поиска информации на определенную тему. При этом важнейшие критерии оптимальной работы — полнота выдачи документов и их релевантность запросу. Этим определяется значимость вдумчивого координатного индексирования документов. Следует отметить, что, если по ошибке индексатора какое-то понятие или аспект его рассмотрения не получат должного отражения в ПОД, найти документ и выдать его читателю будет невозможно, информация для читателя может быть безвозвратно утеряна. С другой стороны, опасность чрезмерного количества ключевых слов тоже приводит к перекосам координатного индексирования. Нельзя перечислять в качестве ключевых понятия, не имеющие весомого значения. В таком случае читатель получит неадекватный запросу ответ из огромного количества не совсем подходящих документов.

Существует такое понятие, как качество информационно-поисковой системы [2]. В данном случае такой системой являются ЭК в библиотеках. Качество нашей информационно-поисковой системы складывается из качества работы индексатора и качества информационно-поискового языка, используемого в системе. Качественные показатели индексирования определяются тремя категориями: глубиной (или полнотой), точностью и нормализованным языком понятий (или унифицированным, стандартизованным).

 

Нормализованный язык координатного индексирования — это слова или словосочетания, написанные по определенным правилам или инструкциям, принятым в библиотеке, т.е. так называемые лексические единицы информационно-поискового языка — дескрипторы [лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов. Дескрипторы используются для координатного индексирования документов и информационных запросов с целью последующего поиска (ГОСТ 7.74—96)] и аскрипторы [лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими заменяющими ее дескрипторами (ГОСТ 7.74—96)]. В ряде случаев для более точного описания содержания документа используются дополнительные ключевые слова, которые превращаются в элементы так называемого предметного входа в ЭК. Таким образом, в машиночитаемых таблицах фиксируются отношения иерархии, ассоциативные связи, синонимия.

Весь этот сложный аппарат может быть использован не только для внутренней работы в библиотеке, но и для читательского поиска.

Например, в РГБ предметный вход для поиска обеспечивает отыскание каждого деления ББК по возможно большему количеству вариантов "понятий" при соблюдении принципов целесообразности. В качестве элементов предметного входа выступают сами наименования делений, а также специально отобранные лексические единицы. Слова и словосочетания для предметного ввода составляются по закрепленным в инструкциях правилам. Надо заметить, что правила эти почти полностью совпадают с правилами, применяемыми в наших вузовских библиотеках.

Итак, ключевые слова представляют собой: преимущественно существительные; много прилагательных с одним существительным разбиваются на несколько пар; применяется форма множественного числа; именительный падеж; ввод со строчной буквы, если использование прописной буквы не обусловлено правилами грамматики; не вводятся словосочетания с союзом и; второе и третье слова в словосочетании должны быть представлены предметным входом, если разумно представить поиск деления по таким ключам; вводятся синонимы; имена собственные (например, не только словосочетание закон ОМА, но и Ом); географические названия; аббревиатуры; варианты написания понятия; при необходимости — другая форма числа; обыденное наименование; распространенная формулировка читательского запроса; не применяется инверсия и т.д.

Повторяю, что библиотеки в большинстве своем уже определились с грамматическим выражением вводимых ключевых слов. А вот глубина и точность координатного индексирования — это качественная характеристика работы индексатора. Поговорим теперь о смысловом выражении ключевых слов, в котором отражается глубина координатного индексирования.

Основополагающим в процессе индексирования является логика размышлений индексатора, выдержанная в едином духе. Недостаточно понимать, что ключевое слово — это наиболее значимое слово из текста. Можно выбрать несколько значимых, на взгляд индексатора, слов из текста — и в этом не будет выражен весь ПОД. Недостаточно будет, если мы просто отберем ключевые слова из текста, реферата, аннотации, оглавления, заглавия. Вспомним статью Н.Н. Дмитриевского[1], опыт РГБ или наши городские семинары. Мы пришли к этому выводу порознь (что лишний раз убеждает в его правильности): необходимы еще слова, выражающие ассоциативные связи, синонимы, аббревиатуры и т.д. Существенными для поиска являются также деления классификации, выраженные словами и словосочетаниями. Должно быть выдержано отражение документа сверху вниз или снизу вверх, от общего к частному или наоборот, от основного дескриптора к нижестоящему дескриптору, затем к ассоциативному дескриптору и т.д. Для машинного поиска не имеет значения, в каком порядке отражены понятия. Важно во всей полноте и глубине отразить содержание документа.

При этом нельзя не учитывать обратную связь с читателями. Библиотека УГТУ первой в городе открыла свой ЭК для читателей. Внимательному индексатору это может о многом сказать. При недостаточном отражении ПОД по недогляду или ошибке возникает ситуация, когда документы на востребованную тему, по мнению индексатора, имеются, а почему-то не вышли в окне поиска. Или появилось новое понятие в какой-либо отрасли знания, о чем просигналил запрос читателя. Значит, надо это учесть в дальнейшей работе по вводу новых документов и редактированию существующих записей. Может также появиться новое написание или синоним ранее известного термина, о чем читатель, сам не ведая, сообщил нам. И об элементарной, чего греха таить, опечатке. Получается, что читатели учат нас подбирать ключевые слова точнее.

Автор, заглавие произведения, тема, серия, издательство, год издания — наиболее важные поисковые элементы БЗ. По всем элементам поиск однозначен, кроме поиска по теме. Для тематического поиска можно воспользоваться ПР, ключевыми словами, индексами УДК и ББК, с некоторой натяжкой даже поиском по издательству или серии, контекстному поиску по заглавию.

 

Предметные рубрики (ПР), мне кажется, в силу специфики их составления не годятся для глубокого, достоверного поиска по теме в машиночитаемых библиографических БД. Нельзя по ПР найти какой-то аспект темы, невозможно перечислить в ПР, например, все те международные экономические организации, о которых рассказано в книге. ПР, сохранившиеся в перечне полей ЭК, остались исключительно в угоду традиционному карточному каталогу, чтобы одна из выходящих форм — каталожная карточка — была напечатана с ПР, как и положено. Косвенным подтверждением этому стало и то, что некоторые библиотеки сегодня не заполняют поле "Предметная рубрика".

Можно вспомнить, чему учила нас библиотечная наука при составлении ПР — это наличие подрубрик, т.е. некоторая соподчиненность, иерархия, многословность, инверсия, применение скобок, предлогов, запятой. Употребление скобок связано с устранением полисемии в ПР. Обычно полисемия и омонимия устраняются с помощью разных помет, даваемых чаще всего в скобках. Иногда помета означает название отрасли знания, иногда — название определенного понятия внутри одной отрасли. Многовариантность и полисемия — неподходящие характеристики для поиска. Информационный язык должен быть нормализован, стандартизован. Это делает его более логичным, единообразным, а значит, и более понятным для потребителя.

Следует заметить, что при необходимости в краткие сроки сделать поиск по теме унифицированным, библиотеке следует воспользоваться ПР (а не ключевыми словами) в силу их меньшей численности в сравнении с огромным массивом ключевых слов. В таких случаях для унификации ПР берут из таблиц ББК, УДК или других рубрикаторов. Думается, что унификация предметного входа требуется там, где в свое время библиотека не уделяла должного внимания полю "Ключевые слова".

Для поиска по теме нужно нормализовать язык ключевых слов еще и потому, что индексами УДК и ББК читатели, как правило, самостоятельно пользоваться не умеют, да, наверное, и не должны разбираться в иерархии наших классификационных таблиц. Особенно догадливые из читателей сначала находят хотя бы одну из книг по заинтересовавшей их теме, выискивают на ней индекс (или бегут к карточному каталогу), а затем набирают его в поисковом окне. Возможность такого поиска есть только в ЭК, не выставленных в Интернет. В Интернете поиск по теме чаще всего сужен до поля "Ключевые слова". А это еще раз подтверждает мысль о том, что ключевым словам должно уделяться много внимания со стороны систематизаторов для создания полного ПОД.

В ключевые слова должны быть включены понятия, встречающиеся в ПР, пусть повторно. При этом не надо считаться с затратами рабочего времени. Также должен быть отражен вид издания по характеру информации — диссертация, автореферат диссертации, препринт, тезисы докладов, энциклопедия, учебное пособие и т.д. Например, с самого начала у нас в библиотеке выделялись посредством ключевых слов записи с учебными пособиями. И когда читателям нужны, например, сведения об учебниках по какой-либо дисциплине, для нас не составляет труда нажатием нехитрого сочетания клавиш выдать их. Потребовалось нам выделить фонд диссертаций из общей базы или возникла работа с блоком методических пособий — пожалуйста.

Существует еще несколько принципов унификации информационно-поискового языка ключевых слов. В поле "Ключевые слова" должны быть вставлены понятия, называющие отрасль знания, отраженную в документе, или (что примерно то же самое) понятия, характеризующие верхний индекс УДК или ББК. Поясню на примерах. Не столь важно, посвящена ли книга общим вопросам развития экономики или, к примеру, только развитию рынка ценных бумаг, но если она имеет индекс ББК — "У" (В библиотеке УГТУ социально-экономическая и гуманитарная литература индексируется по таблицам ББК для научных библиотек), то в ключевых словах должно быть слово экономика, независимо от того, насколько широко или узко трактуется материал по экономике в книге. Не столь важно, что книга — по математике в целом или только по начертательной геометрии в частности, если индекс УДК — 51 (В библиотеке УГТУ литература по естественным наукам и технике индексируется по таблицам УДК), то должно присутствовать ключевое слово математика. Если в книге рассматривается материал, характеризующий несколько отраслей знания и обязательно проставляются соответствующие классификационные индексы, то, соответственно, в ключевых словах они тоже должны быть отражены, например англо-русский словарь по информатике. Ключевые слова — информатика, английский язык.

Еще пример: книга о психологических методах управления получает один индекс таблиц ББК — "Ю9", но в ключевых словах должны быть обязательно слова психология, экономика, так как в данной книге рассматривается не только и не столько психология, Без слова экономика книга не будет найдена читателем, ищущим документы на экономическую тему.

Только при таких условиях на запрос читателя выйдут все источники, содержащиеся в БД. А такие запросы бывают не так уж редко. Сегодня преподаватели вузов озабочены сведениями о книгообеспеченности своих дисциплин. Особенно часто в последнее время запрашивается список книг по экономике в целом, по мировой экономике и т.п. Причем все источники можно легко найти самостоятельно, воспользовавшись ЭК, выставленным в Интернет.

Таким образом, понятие, называющее отрасль знания, будет соответствовать термину дескриптор в информационно-поисковом языке. Существуют еще нижестоящие дескрипторы, ассоциативные дескрипторы. Нижестоящие дескрипторы характеризуют родовидовые связи. Отношение "род-вид" связывает два дескриптора, если объем понятия, соответствующий одному из дескрипторов, включается в объем понятия другого дескриптора.

Интересными, на мой взгляд, и соответствующими предлагаемой нами общей направленности на унификацию формирования ключевых слов, являются предложения РГБ [3]: в ключевые слова вводить термины, обозначающие процессы и основные группы предметов, сопутствующие процессы, явления, характеристики, условия. Все процессы и предметы как основные элементы системы знаний имеют характеристики (свойства, параметры); с ними происходят определенные естественные процессы (движение, увеличение, развитие и т.д.), в том числе "отрицательные" (износ, старение, нарушения и т.д.); они существуют в определенных условиях (время года, климат, ландшафт и т.д.). Все эти элементы необходимо учитывать при описании содержания документов.

Говоря о глубине координатного индексирования, рассмотрим особенности отражения в ключевых словах вида деятельности. Характеризующий его термин — это нижестоящий дескриптор. И хотя не рекомендуется без особой надобности сохранять многословные словосочетания, но при больших базах данных имеется одна важная особенность, которую требуется рассмотреть подробнее. Поясню на примере. Существует такой термин в экономике, как оценка. Могут быть разные виды оценки: оценка недвижимости, оценка бизнеса, оценка инвестиционного проекта, оценка финансового риска при инвестировании и т.д. При небольшой БД технического вуза (20—30 тыс. записей) еще можно было вводить просто термин оценка, и если в книге рассмотрены перечисленные виды оценки, то термины — виды оценки, недвижимость, бизнес, инвестиционные проекты, финансовые риски и т.д. Можно было ввести для поиска термин недвижимость, через уточнение — оценка — и оценка недвижимости была бы найдена. Но, во-первых, читатели набирают для поиска сразу целиком понятие оценка недвижимости; во-вторых, на термин оценка и на термин недвижимость сегодня выйдет очень много источников. Поэтому становится нецелесообразным вводить в ключевые слова виды оценки односложными терминами.

Думаю, что вид какой-либо деятельности требуется вводить полным наименованием, например, оценка недвижимости, учет нематериальных активов (а не просто бухгалтерский учет, нематериальные активы) или страхование личного имущества (а не просто страхование, личное имущество). Добавлю, что при этом термины недвижимость, нематериальные активы, личное имущество вводить для поиска все равно необходимо. Так как при этом на термин недвижимость выйдут все аспекты деятельности, связанные с недвижимостью: оценка недвижимости, аренда недвижимости, износ недвижимости, купля недвижимости, продажа недвижимости, дарение недвижимости, залог недвижимости, ипотека недвижимости, страхование недвижимости и т.д. Таким образом, библиотекари для себя усложняют работу и увеличивают ее объем, а для читателя — упрощают, делают поиск более доступным, логичным и как следствие — комфортным.

 

Синонимы — следующая структурная лексическая единица языка ключевых слов, имеющая большое значение для полного отражения ПОД. О применении синонимии можно и нужно еще много говорить. Думается, что это тема для отдельного разговора. К сожалению, сегодня библиотекарям не всегда хочется отражать синонимы теми понятиями, которые уже введены в перечень ключевых слов. Такое часто случается, когда к одному изданию много ключевых слов, и повторяются они из книги в книгу. Но в этом случае надо помнить о читателе, который может пострадать от нашего невнимания, и о своей репутации квалифицированного индексатора.

Еще один немаловажный аспект при отражении ключевых слов — персоналии. Отображение не работ автора, а литературы о нем является смыслом этой лексической единицы. В программе "Библиотека" это решается довольно просто. В поле "Автор" фамилия персоны вводится для поиска по автору. И с этим не возникает никаких проблем. Но как всегда есть свои нюансы, ведь конкретное лицо может выступать не только как первый автор, но и соавтор, составитель, редактор, автор вступительной статьи и т.д. Несмотря на многообразие таких "авторских перевоплощений", все издания должны быть найдены. В поле "Ключевые слова" фамилия персоны вводится для поиска по теме, т.е. в этом поле можно найти и подобрать литературу о персоне.

Еще один аспект поля "Ключевые слова". При ретроспективной конверсии карточных каталогов в электронную форму есть тоже немало особенностей. Во-первых, в зависимости от способа ретроконверсии: ввод с каталожной карточки или с документа de visu. Во-вторых, различные подходы возникают в зависимости от того, какой конкретно блок литературы вводится: какая отрасль или какая тема и за какой хронологический отрезок времени.

Рассмотрим ввод литературы по экономике. Невозможно представить себе точное и глубокое отражение ПОД подобных документов с карточки каталога. Довольно часто бывают книги со сходными и даже одинаковыми заглавиями, но по содержанию отличными друг от друга. В таком случае индексатор сумеет отразить только отрасль знания, взять ключевые слова из библиографического описания, из детального классификационного индекса и ПР. Список ключевых слов будет поверхностным. Полноты и глубины отражения содержания документа не будет.

Однако крупные московские библиотеки ежедневно конвертируют сотни и тысячи каталожных карточек. Ведь зачем-то они это делают, какой-то смысл видят в этом. Скорее всего при таком темпе глубина тематического поиска остается на втором плане. Тут можно призадуматься, стоит ли вузовским библиотекам торопиться с ретровводом.

Специфика нашей библиотеки, библиотеки крупнейшего технического вуза, заключается в наличии объемного фонда по технике, в частности по металлургии. Запросы студентов и преподавателей УГТУ, а также читателей всего города, уникальность фонда по металлургии— вот причины, которые подвигли нас на ретроввод. Причем ретроввод осуществляется с карточки систематического каталога. Особенностью составления ключевых слов при этом стало то, что: во-первых, это не блок социально-экономической литературы, требующий наличия самой книги; во-вторых, книги по металлургии рассматривают чаще всего какой-то один узкий процесс, поэтому с выбором ключевых слов несколько проще; и наконец в-третьих, квалификация специалистов, не один год проработавших систематизаторами, довольно высокая.

* * *

Выше рассмотрены некоторые аспекты наполнения и формирования ключевых слов. Хотелось бы, чтобы из совокупности частных примеров была видна общая философия построения системы информационно-поискового языка ЭК. Конечно, рассматриваемый вопрос сложный, попытка сформулировать какие-то общие правила проявляется во многих библиотеках. Крупные московские библиотеки пытаются задавать тон в этом деле. Обладая более мощными ресурсами, они во многих вопросах продвигаются вперед быстрее и качественнее. Что остается делать нам? Покупать их словари? Создавать их самим? А каков будет общий стандарт в будущем? Как нам, вузовским библиотекам, определить золотую середину в сегодняшних условиях?

Для меня в первую очередь представляют интерес общие правила, идеология, философия составления ключевых слов в разных библиотеках. Сделаю краткий обзор некоторых уже готовых словарей информационно-поисковых систем.

Некоторые библиотеки создают словари на базе используемых ими классификационных таблиц. Российская национальная библиотека создала нормативный файл ПР (около 1 млн 300 тыс. записей); ЦНСХБ — ПР по сельскому хозяйству; ИНИОН РАН — список ключевых слов по общественным наукам; ГПНТБ России — тезаурус по науке и технике. ГЦНМБ составила ПР по медицине и здравоохранению (40 тыс. записей), совместимые с предметными рубриками Национальной медицинской библиотеки США (MeSH). Благодаря этой работе стал возможен поиск на русском языке медицинской литературы в БД Medline.

Одновременно с этим почти все федеральные библиотеки в соответствии со своей специализацией создают свои ПР (ВГБИЛ им. М.И. Рудомино, ГПИБ, РГБИ, РГЮБ, РГБС, РГДБ). Эти рубрикаторы, разработанные в целях более глубокого описания специализированных изданий, к сожалению, автономны, что является нашей общей национальной межбиблиотечной бедой. У периферийных же библиотек, даже таких крупных, как наша, на составление тезауруса не хватает ресурсов.

Нам следует предвидеть возможные параметры анализа наших баз данных, даже если это не востребовано в какой-то определенный момент времени и кажется пустой затеей и лишней работой. Усилия наших специалистов по глубокому, полному, точному координатному индексированию окупятся в итоге благодарностью читателей.

Список литературы

1. Дмитриевский Н.Н. Опыт координатного индексирования материалов по УДК // Техн. б-ки СССР. 1968. № 4. C. 3—10.

2. Сукиасян Э.Р. Системный анализ проблем управления качеством информационно-поисковой системы // Науч. и техн. б-ки. 1995. № 3. C. 6—15.

3. Создание электронных каталогов: Из опыта работы Рос. гос. б-ки / РГБ, отд. автоматизации б-к; Сост. О.А. Лавренова. М., 1996. 80 с.


Copyright © 1995-2000 ГПНТБ России