Электронная библиотека ГПНТБ России

Научные и технические библиотеки №12 2005 год

Содержание:

Дрешер Ю.Н., Атланова Т.А. Система управления качеством в библиотечно-информационном производстве

Скоробогатов В.М., Сукиасян Э.Р. Каталоги карточный и электронный: общее и особенное. Диалог профессионалов

Миниярова З.М. Подходы к индексированию в электронных каталогах. Возможности поэлементного поиска

Байтингер Г.А., Дубовицкая О.А., Ильиных Н.О. Этапы создания электронного каталога

Сукиасян Э.Р. Какие АБИС применяются в России? Нужна объективная информация. (Послесловие к статье "Этапы создания электронного каталога")

Саломатова О.И. Влияние корпоративных проектов на инновационную деятельность библиографов

Давыдова Л.В. Культурный менеджмент библиотек Финляндии

ЮБИЛЕИ

Солодун Л.Н. Научной библиотеке Калужского государственного педагогического университета им. К.Э. Циолковского - 60 лет

НАШИ АВТОРЫ

Указатель материалов, опубликованных в 2005 г.

Систематический указатель

Авторский указатель

УДК 025.32:65.011.56

Миниярова З.М.

Подходы к индексированию в электронных каталогах.
Возможности поэлементного поиска

Стройная структура библиографической записи (БЗ) и системы библиотечных каталогов складывалась веками, развившись в систему, оптимальным образом представляющую библиографическую информацию и обеспечивающую её поиск. К системе каталогов в виде алфавитных, систематических (СК) и предметных (ПК) с необходимыми указателями, в первую очередь алфавитно-предметным указателем (АПУ) к СК, следует добавить инвентарную книгу и топографический каталог. Развитие привело к достижению некоего компромисса между объёмом и сложностью системы, с одной стороны, и набором задач, которые должны быть решены - с другой. Достигнутая оптимальность присуща традиционной среде, у которой свои методы работы с информацией, свои возможности организации поиска и т.п., т.е. среда диктует свои законы.

Электронный каталог - это прежде всего компьютерная база данных. Для электронной среды характерны другие методы организации, структурирования, а главное - манипулирования информацией. По сути, ЭК - это иной вид/способ/метод представления информации о документе, нетрадиционный инструмент раскрытия фонда. Именно в силу специфических задач, стоящих перед этой новой средой, она не имеет права игнорировать сложившуюся в традиционной среде стройную теорию и практику описания документов.

Правильнее, наверное, говорить о соотношении двух систем, которые преследуют одну цель, каждая во многом своими средствами. Игнорировать это соотношение - значит впадать в крайности: или полностью перечёркивать традиционную теорию ("Зачем нам соблюдать стандарты и форматы? Ведь компьютер может найти всё!"), или один к одному переносить в электронную среду инструменты и методы традиционной технологии.

Достаточно очевидно, что качество поиска будет напрямую зависеть от качества ввода информации в каталог и качества структуры самого каталога. И эта структура должна обеспечивать, помимо поиска, возможность получения необходимых элементов БЗ в полном соответствии со стандартами, поскольку печатный способ представления библиографической информации никто не отменял. Необходим он и для ведения традиционных каталогов, и для использования в библиографических пособиях в книжной форме. Более того, именно в виде БЗ лучше всего представить данные конечному пользователю ЭК, оставив таблички и столбики с метками для внутренних рабочих режимов.

В отношении другого "перегиба" надо только определиться - используем мы ЭК как способ печати карточек и компактную замену карточных каталогов или хотим иметь качественно новый инструмент.

Вопросы количественного соотношения наполнения электронного и карточного описания более подробно рассмотрены в моей предыдущей публикации [1].

Если говорить об индексировании, трудно дать однозначный ответ, как именно индексировать документы в электронном каталоге и как строить поисковую стратегию. Даже если какая-либо библиотека за десятилетия ведения ЭК и выработала методику, которая её полностью устраивает, это не означает, что данная методика может быть объявлена единственно верной или даже просто верной. Непременно найдутся специалисты и/или ситуации, которые выявят изъяны. Но распространить эту методику на все ЭК нельзя, так как различные автоматизированные библиотечно-информационные системы могут поддерживать разные структуры представления терминов индексирования, иметь разные поисковые возможности и разные способы построения запросов. Именно эти три фактора во многом определяют конкретную методику.

Перечислю некоторые возможные различия: наличие или отсутствие иерархии рубрик, конечная иерархия или бесконечная, разные подполя для рубрик и подрубрик или одно поле, наличие внешнего словаря, один ряд рубрик или несколько, поиск термина в начале поля или в любом месте, имеется ли возможность управления этим параметром при составлении запроса или такой возможности нет, наличие или отсутствие возможности поиска на полное совпадение, имеется ли возможность строить комбинированные запросы и насколько удобен интерфейс такого построения и т.д.

Поделюсь результатами наблюдения над ЭК библиотек разных систем, расположенных в разных городах. Источники сведений - публикации, каталоги в Интернете и собственный опыт работы в нескольких библиотеках.

1. В поле "Предметная рубрика" (ПР) заносится формулировка предмета, темы, рассматриваемой в документе.

Подрубрика - аспект, форма издания.

Поле "Ключевые слова" (КС) - слова из названия и содержания.

В рекомендациях по поиску даются указания по интерпретации: КС - узкий аспект темы, ПР - отраслевая направленность.

2. "Предметные рубрики" создаются на основе АПУ к СК.

Поле "Ключевые слова" носит вспомогательный характер, заполняется, когда не хватает средств других языков для полного выражения содержания. Вносятся узкие конечные предметы (Word, пентальгин и т.п.). Источник - название и текст документа.

Подход похож на предыдущий, кроме вспомогательного характера КС. В таком случае при поиске нужна чёткая инструкция, отражающая особенности наполнения полей.

3. "Предметные рубрики" формируются не только на основе АПУ, но и с использованием формулировок делений таблицы ББК. Поисковый ряд при этом единый. Возможен выход из списка рубрик на иерархию таблицы.

4. Поле "Предметные рубрики" не используется.

Поле "Ключевые слова" используется в соответствии со стандартным определением из терминологического ГОСТ 7.74-96: "КС - это информативное слово, приведённое к стандартной лексикографической форме и используемое для координатного индексирования".

5. Поле "Предметные рубрики" не используется.

Поле "Ключевые слова" содержит в себе и собственно ключевые слова, и предметные рубрики.

6. Поле "Ключевые слова" не используется (сознательно или АБИС не поддерживает такой элемент данных).

"Предметные рубрики" вносятся на основе общей теории предметизации.

7. Поле "Ключевые слова" не используется.

Поле "Предметные рубрики" содержит в себе и предметные рубрики, и ключевые слова, и элементы классификационной иерархии.

Подход похож на пятый с добавлением иерархической цепочки.

К чему приведёт подобное разнообразие?

Обращает на себя внимание и тот факт, что практически все ЭК имеют несколько (до пяти) различных поисковых языков, которые редко представляют единую систему. Утверждается даже, что это не только хорошо, но и необходимо, так как языки дополняют друг друга. Но существенно дополняющими друг друга языками могут быть только вербальные и формальные, предметные и классификационные. Разновидности же этих языков, присутствующие в одной поисковой системе, только усложняют поисковую стратегию. Если это приемлемо и удобно для профессионального пользователя, то для неподготовленного может только осложнить работу и даже исключить из рассмотрения ряд документов. Поэтому желательно иметь интегрированную систему, объединяющую ("примиряющую", по выражению В.А. Мишина) различные подходы к индексированию и поиску [2].

Другой аспект наблюдений. В прессе можно встретить два почти противоположных утверждения: а) у пользователей востребован только вербальный поиск, б) читатели любят работать с классификационной структурой и хорошо воспринимают индексы классификаций. Самое интересное, что оба утверждения основаны на специальных исследованиях.

Бесспорно, что пользователи часто предпочитают языки вербального типа, предъявляя к поиску в ЭК такие требования, как доступность, простота, оперативность. Однако нельзя лишать пользователей возможности вдумчивого поиска, рассмотрения классификационной структуры и полной базы знаний, каковой является классификационная система [3-5]. К тому же пользователи бывают разные, а профессионалу, выступающему в роли информационного посредника, необходимы универсальный инструмент и методика поиска.

Тем не менее, говоря об индексировании в ЭК, мы почти всегда говорим о предметизации (как бы вольно это понятие ни трактовалось). Систематизация практически исключается из поискового механизма ЭК, хотя в публикациях всё же отмечается необходимость возможности и предметного, и систематического поиска [3, 6, 7]. Конечно, инструмент в виде машиночитаемого СК необходим. Дополненный АПУ и удобным интерфейсом (что очень существенно), он объединит в себе работу с полной базой знаний по искомому направлению, возможности и удобства вербального входа. Если появится возможность из такого АПУ по выбору переходить не только к соответствующим делениям классификации, но и непосредственно к БЗ, то можно говорить о сочетании предметного и систематического поиска в одном инструментальном средстве. Если же у АПУ будут развитая внутренняя структура, ссылки, синонимы и другие связи, то уже можно говорить о тезаурированном АПУ, а вся система индексирования и поиска в целом будет не только "машиночитаемой", но и "машиноприменяемой". Наша конечная цель - использовать все возможности электронной поисковой среды, а не переносить в неё старые методы работы. А это, в свою очередь, невозможно без создания новых поисковых инструментов.

Однако сочетание в ЭК функций предметного каталога и систематического, пусть даже с тезаурированным АПУ - не единственный возможный способ организации машинного поиска. Считается, что для поиска в ЭК наиболее подходящими являются посткоординированные языки. Если предкоординируемые языки строят свои классы до процесса индексирования, то посткоординированные языки, строя свои классы из имён простых классов, образуют необходимые понятия в момент индексирования и/или поиска документа [8-10].

К посткоординированным языкам относят посткоординированные фасетные классификации и языки дескрипторного типа. На самом деле даже посткоординированные фасетные классификации не дадут нам возможности координировать понятия при поиске, если у них нет механизма поиска путём пересечения своих составляющих [10].

Принцип координатного индексирования предполагает для характеристики содержания документа или запроса выбор таких ключевых слов или дескрипторов, пересечение которых выражает тему документа или запроса, т.е. мы имеем дело с координацией понятий.

Что это может дать? Довольно многое. В частности, отсутствует зависимость от грамматики (иногда такой подход так и называют "индексирование без грамматики"), понижается зависимость от конкретной словесной формулировки, т.е. несколько снижаются ограничения вербальных ИПЯ.

Существуют несколько трактовок понятия координатного индексирования, которые и не противоречат друг другу, и не совпадают. Сейчас я трактую координатное индексирование именно с точки зрения принципа пересечения понятий, их координации. А рассматривать координацию можно в отношении не только вербального выражения этих понятий, но и формального.

С некоторой долей истины к посткоординированным языкам можно отнести любую фасетную классификацию. Примеры же приведу для ББК, которая является комбинационной (иначе говорят "полуфасетной") классификационной системой. Классификационный индекс строится из структурных элементов, в совокупности адекватно и многоаспектно раскрывающих содержание документа. Классификационный индекс ББК может практически адекватно отразить содержание документа, раскрыв до 25-30 поисковых признаков. Большинство из них выражается собственным опознавательным знаком или символом [5, 6, 11, 12].

Систематизатор может скомбинировать индекс со многими элементами, отражающими массу поисковых признаков. Но в каталоге используется лишь начальная, левая часть индекса; середина и окончание не принимаются во внимание, мало кто расставляет карточки по 32 знакам индекса. Таким образом, поисковые возможности индекса в карточном каталоге существенно ограничиваются. Самое интересное, что и в электронных каталогах мы чаще всего наблюдаем простой перенос традиционного поискового механизма в электронную среду. Подобный подход позволил ещё несколько десятилетий назад сделать выводы о неэффективности использования классификационных систем для машинного поиска [13].

Естественное решение, позволяющее многократно повысить поисковые возможности индекса, а также проводить в широких пределах комбинирование понятий при поиске - это создание формата, с определённой степенью адекватности выражающего структуру индекса. Автоматизированный поиск может вестись как по отдельным значащим элементам классификационного индекса, так и по их сочетаниям с использованием булевой алгебры. Именно такой подход позволяет проводить комбинирование понятий при поиске, применять индексирование без грамматики, ограниченным набором терминов раскрывать содержание с достаточной глубиной. В зарубежной практике это направление признано наиболее перспективным. Именно за счёт машиночитаемых классификационных данных, в первую очередь фасетных классификаций, будут расширяться поисковые возможности OPAC [7, 14]. Уже создана система кодирования классификационных индексов и их элементов в машиночитаемых форматах семейства MARC. И в нашей стране не так давно разработан и принят классификационный формат РУСМАРК.

Надо сказать, что в СССР работы в направлении организации систематического поиска в электронных каталогах велись ещё в первой половине 1970-х гг. в Государственной библиотеке СССР им. В.И. Ленина. Найдены способы поэлементного индексирования при обработке по ББК поискового образа документа и отдельно - поискового образа запроса. На основе создававшегося в те годы в ГПНТБ СССР так называемого предмашинного формата разработана также система идентификаторов для элементов индексов УДК, определены перспективы поиска информации в атоматизированных системах в соответствии с элементами классификационных индексов. Работы по этому направлению законсервированы в силу различных организационных причин, поэтому широкого распространения подобная практика не получила [2, 12, 13, 15, 16].

Традиционно в ГПНТБ России ведутся активные работы в направлении совершенствования лингвистического обеспечения АБИС. Так, в последние несколько лет разработаны интерфейсы представления классификаций, предназначенные и индексаторам, и читателям и предоставляющие навигацию по словарям, возможность работы и с классификационным деревом, и с отдельными элементами индекса с последующей сборкой индекса в полный индекс [17]. Аналогичные работы ведутся и в Российской государственной библиотеке [18].

Появление подобных разработок, а также создание классификационного формата РУСМАРК открывают реальную перспективу для широкого использования возможностей поэлементного поиска по индексам классификаций, для создания и использования системы машиноприменяемого индексирования.

Но и не дожидаясь появления и широкого распространения специальных программных продуктов, можно пытаться работать с поэлементным поиском. Так, на базе АБИС "Библиотека 4.02" создана упрощённая иллюстративная модель. Модель строилась на основе таблиц ББК для массовых библиотек (выпуск 1997 г.), это издание вполне обозримо и подходит для упрощённой модели. Для каждой отдельной таблицы, присутствующей в данном издании, будь то ОТД, СТД или ТТД, выделены отдельные элементы, т.е. заведены отдельные подполя (иначе говоря, для ОД, ТТД, ОТД, СТД техники, СТД территории, СТД в экономике и СТД в частном языкознании). Конечно, такое построение (на каждую таблицу своё подполе) не совсем правильно, однако вполне годится для иллюстративного моделирования.

Так называемые внешние словари (терминология данной АБИС) в случае необходимости строились по иерархическому принципу (например для ОД); словарь для СТД техники включал два плана (один на -..., а другой на - 0, у каждого отдельная ветвь дерева); словарь для СТД и ТТД включал ветви для делений по административно-территориальному признаку и по физико-географическому признаку.

Словари включали сам индекс, его словесную формулировку и, по мере необходимости и возможности, методические указания. Первые два признака являются поисковыми внутри словаря, т.е. имеется возможность и вербального, и формального поиска необходимого термина индексирования.

В ЭК внесён тестовый массив БЗ из каталогов реальных библиотек. В результате только на основе использования индекса ББК и комбинирования в запросе различных его элементов можно получить ответы на множество разнообразных вопросов. Например, найти записи каталога о документах по теме (примеры взяты из реальных каталогов, в которых присутствуют различные индексы ББК, присвоенные в разные годы и даже десятилетия, этим объясняются, возможно, устаревшие сегодня решения в индексах):

Примеры 6 и 7 показывают использование различных параметров поиска. Запрос № 7 в традиционном каталоге можно выполнить только перебором нескольких разделов. А при использовании языка предметных рубрик в ЭК в каждой записи должна присутствовать рубрика с указанием страны, запрос же должен содержать перечисление всех рубрик для всех стран.

При традиционном сегодня для ЭК подходе в каждой записи должны присутствовать словесно сформулированные рубрики. В данном случае множество рубрик отсутствует, нет зависимости от грамматики в их формулировках. Напомню также, что при построении запроса имеется возможность оперировать не только значениями индекса, но и словесными формулировками.

Замечу, что избавление от грамматики не является самоцелью. Игнорировать синтагматические отношения было бы ошибочно. В системе поэлементного поиска эту функцию должны выполнять реляторы.

По запросу № 8 будут найдены записи, в индексах ББК которых присутствуют и сочетание "-5-05", и сочетание "-05-5", т.е. будут представлены все смысловые нюансы. А вот дифференцировать эти индексы в данной модели не удастся.

Вернёмся к нашей модели и обратимся к фрагменту реального АПУ:

Эргономика 30.17

Эргономика авиационная 39.52-021.7

Эргономика автомобилей 39.33-021.17

Эргономика автомобильных дорог 39.311-022.17

Эргономика подвижного состава 39.22-021.7

Эти записи также внесены в импровизированный АПУ нашей модели. Он работает только как справочник, без реального перехода к разделам СК, хотя можно было проставить данную рубрику в БЗ и таким образом осуществить вход.

Посмотрели АПУ, перешли к нужным БЗ (автоматически или с помощью последующего ручного поиска). А если нам надо получить эргономику вообще во всём транспорте? Возможен вариант запроса "ОД=39 and СТД Техники=021.7".

В этом случае мы найдём многое, но не всё. Например, пропускаются записи про автомобильные дороги. Железнодорожные пути тоже будут иметь свой индекс, хотя в АПУ такой рубрики не было. Возможно, нет книг или их так мало, что не стали выделять отдельную рубрику АПУ. Таким образом, даже АПУ не всегда раскроет нам нужные индексы из СК, или этих индексов окажется несколько, что неудобно для ввода запроса в ЭК.

Но когда во всех записях было проставлено ещё по одному ОД 30.17, что, в принципе, неправильно по традиционной методике, проблема была решена. Запросом "ОД=30 and ОД=30.17" мы "пересекли" два простых понятия.

При этом в записях ЭК всего лишь в определённом поле стоит "30.17". Это вовсе не означает, что данной БЗ присвоен индекс ББК, скажем, 39.22-021.7 + 30.17, или присвоен индекс 39.22-021.7 : 30.17, или 39.22 + 30.17, или 39.22 : 30.17. Нет, "30.17" - это всего лишь значение одного из полей записи базы данных (а не библиографической записи как таковой!).

Как потом из подобных "кубиков" собрать правильный индекс ББК для карточного каталога - это другая задача, вполне решаемая.

Другой момент, более интересный. Если необходимо получить "чистую эргономику", "без привкуса" отрасли, т.е. собственно раздел СК "30.17", то возникают проблемы. На запрос "ОД=30.17" получим абсолютно всё. Это проблема "всех дождей" из [1]. И конечно, эта задача тоже решается, главное - отфильтровать записи с "чистой" эргономикой от отраслевых.

С этой целью в построенной модели в записи о документах по "чистой" эргономике вводился просто индекс "30.17", а в "отраслевых записях", т.е. там, где в полном индексе ББК присутствуют другие элементы, где по смыслу данный элемент применяется в целях сочетания с другими элементами, применялось некое подобие индикатора, а именно, внесено значение "30.17:".

Таким образом:

"ОД=30.17" выдаёт всю эргономику - этот вариант применяется для комбинирования в составном запросе;

запрос "ОД=30.17#" выдаёт только "чистую" эргономику, только раздел СК "30.17"

Символ # в конце запроса в синтаксисе запроса используемой АБИС означает поиск на полное совпадение, без усечения справа.

Итак, индекс ББК структурирован, для уточнения значения отдельных терминов использованы индикаторы, а сами термины индексирования, т.е. элементы индекса, вводились не в соответствии с традиционной методикой систематизации по ББК, а исходя из задач организации поиска именно в электронном каталоге. Если ещё добавить необходимость более полного выражения индексами ББК содержания документа, а не присвоения индекса только с целью определения места карточки в систематическом каталоге (можно даже использовать для этой цели другое поле), то можно говорить о системе именно машиноприменяемого индексирования.

Конечно, описанная модель всего лишь одна из возможных и носит иллюстративный характер. Но и на её примере видно, какое разнообразие запросов можно реализовать, используя поэлементное кодирование систематического индекса, различные параметры поиска, комбинацию поисковых терминов, т.е. учитывая в достаточно полной степени поисковые возможности электронной среды.

Список источников

1. Миниярова З.М. Электронный каталог - особая поисковая среда // Науч. и техн. б-ки. - 2005. - № 9. - С. 67-72.

2. Мишин В.А. Интегрированный ИПЯ универсальной автоматизированной ИПС / В.А. Мишин, Л. Санчес-Мехидо // Сов. библиотековедение. - 1976. - № 5. - С. 59-68.

3. Жарикова Л.А. Возможности тематического поиска в электронном каталоге ГПНТБ СО РАН / Жарикова Л.А., Скарук Г.А., Бобко А.В., Сергеева Г.И. // Науч. и техн. б-ки. - 2000. - № 8. - С. 30-38.

4. Сукиасян Э.Р. Электронный каталог и читатель. (Послесловие к статье Г.С. Щербининой "Философия координатного индексирования") // Науч. и техн. б-ки. - 2000. - № 9. - С. 79-85.

5. Сукиасян Э.Р. Homo Quaerens (Человек ищущий). К проблеме развития познавательных способностей читателя в процессе информационного поиска // Науч. и техн. б-ки. - 2002. - № 4. - С. 73-83.

6. Библиотечно-библиографическая классификация: современное состояние, перспективы развития (Научный семинар в РГБ) // Библиотековедение. - 2001. - № 3. - С. 31-39.

7. Загорская Е.И. Возможности и перспективы использования ББК в качестве ИПЯ и средства организации системы доступа в электронной среде // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр. конф. / 8-я Междунар. конф. "Крым-2001". - М.: ГПНТБ России, 2001. - Т. 1. - С. 509-511.

8. Михайлов А.И. Основы информатики / А.И.Михайлов, А.И.Черный, Р.С. Гиляревский. - 2-е изд., перераб. и доп. - М.: Наука, 1968.

9. Ранганатан Ш.Р. Классификация двоеточием. Основная классификация / Пер. с англ. под ред. Т.С. Гололицкой, Х.М. Зайдберга, П.И. Шифмана [ГПНТБ СССР]. - М., 1970. - 422 с.

10. Роллоф Г. Новые средства каталогизации. От фасетной классификации к дескриптору и тезаурусу / Генрих Роллоф. Пер. с нем., предисл., примеч. Р.С. Гиляревского. - М.: Книга, 1980. - 56 с.

11. Ильина Р.Б. Структурный анализ ББК (Опыт работы) // Проблемы внедрения Библиотечно-библиографической классификации: Сб. науч. тр. / Гос. б-ка СССР им. В.И. Ленина. - М., 1974. - Вып. 2. - С. 6-13.

12. Сухманёва Е.Г. К методике фасетизации ББК (На примере раздела "В6 Астрономия") / Е.Г. Сухманёва, А.К. Суслов // Проблемы внедрения Библиотечно-библиографической классификации: Сб. науч. тр. / Гос. б-ка СССР им. В.И. Ленина. - М., 1974. - Вып. 2. - С. 14-45.

13. Сукиасян Э.Р. Памяти В.А. Мишина (1918-1999) // Науч. и техн. б-ки. - 2000. - № 7. - С. 79-84.

14. Сукиасян Э.Р. Библиотечные каталоги: Метод. материалы. - М. : Профиздат, 2001. - 192 с. - (Современная библиотека; Вып. 19).

15. Мишин В.А. Возможности машинного поиска информации по классификационным индексам // Организация систематических и предметных каталогов научных библиотек: Сб. науч. тр. / Гос. б-ка СССР им. В.И. Ленина. - М., 1976. - Вып. 2. - С. 49-55.

16. Мишин В.А. Реляторы и возможность их применения в ББК // Проблемы внедрения Библиотечно-библиографической классификации: Сб. науч. тр. / Гос. б-ка СССР им. В.И. Ленина. - М., 1974. - Вып. 2. - С. 46-61.

17. Универсальный интерфейс представления классификационных баз данных на примере базы данных УДК / Б.И. Маршак, Е.М. Зайцева, О.А. Фуралев, К.О. Сбойчаков // Науч. и техн. б-ки. - 2000. - № 3. - С. 57-60.

18. Лавренова О.А. Средства обеспечения поисковых функций электронных каталогов в Российской государственной библиотеке [Электрон. ресурс] // О.А. Лавренова, В.А. Беляев // Сайт РГБ. - способ доступа: URL: http://www.rsl.ru/STAT98/ST1_CONT.HTM

На главную