Home page | Каталоги и базы данных

Научные и технические библиотеки

УДК 025.34:65.011.56

Жарикова Л.А., Скарук Г.А., Бобко А.В., Сергеева Г.И.

Возможности тематического поиска
в электронном каталоге ГПНТБ СО РАН

Электронный каталог (ЭК) ГПНТБ СО РАН существует с 1992 г. Сегодня он преставляет собой совокупность библиографических баз данных книг и продолжающихся изданий, диссертаций и авторефератов диссертаций, литературы временного хранения, статей из журналов и сборников по библиотековедению и информатике, иностранных периодических изданий.

В процессе выбора лингвистических средств тематического поиска принимались во внимание и опыт создания ЭК других крупных универсальных библиотек, и сложившиеся традиции каталогизации, и ряд новых задач и требований, возникающих в связи с внедрением в библиотечную практику автоматизированных технологий. В результате специалисты ГПНТБ СО РАН пришли к выводу о целесообразности использования в ЭК информационно-поисковых языков (ИПЯ) разных типов (классификационных и предметных), обеспечивающих наиболее широкие поисковые возможности.

В создаваемом комплексе одни поисковые средства могут быть более "гостеприимными", другие более жестко структурированными, но в то же время более обозримыми и контролируемыми, одни будут более простыми в использовании, другие — более сложными и способными обеспечить решение более тонких поисковых задач.

В поиске по теме применяются индексы ББК, ГРНТИ, ключевые слова, слова из предметных рубрик и заглавий документов. В базе данных авторефератов поисковым признаком может служить шифр специальности.

Одним из основных аргументов в пользу включения ББК в состав лингвистического обеспечения (ЛО) послужила в свое время необходимость обеспечения лингвистической совместимости электронного и традиционного каталогов. Кроме того учитывалось, что только такого масштаба универсальные классификации могут достаточно полно и детально отразить структуру политематических фондов крупнейших библиотек и, следовательно, структуру поискового массива ЭК. Методика индексирования и поиска по ББК отрабатывалась в течение многих лет, в Центре научной обработки документов (ЦНОД) существует отлаженный многоступенчатый механизм актуализации таблиц ББК, контроля качества систематизации.

Основой для создания языка предметных рубрик (ЯПР) стал список рубрик алфавитно-предметного указателя (АПУ) к систематическому каталогу. Поиск в ЭК производится по отдельным словам из формулировок предметных рубрик, т.е. читатель, по сути, имеет дело с вариантом дескрипторного словаря.

Такая ситуация имеет свои преимущества. В перспективе при совершенствовании ЭК рубрики АПУ, согласованные с цифровыми индексами, могут обеспечить "предметный" вход в структурированный словарь ББК. Кроме того, общеизвестны трудности создания и ведения тезауруса для универсального растущего фонда. С этой точки зрения применение АПУ позволит сэкономить усилия, используя накопленный за многие годы и постоянно обновляемый массив терминов.

Но жесткая связь языка предметных рубрик АПУ с ББК имеет и оборотную сторону. Отражая структуру и логику построения классификационных таблиц, список рубрик АПУ не всегда удовлетворяет требованиям, предъявляемым к ЯПР как самостоятельному поисковому языку. При создании словаря предметных рубрик не во всех случаях соблюдался принцип межотраслевого согласования лексики, обеспечивающий интегративные свойства ЯПР. Это обстоятельство как бы "навязывает" отраслевой принцип предметизации и тем самым ограничивает возможности индексирования и поиска.

Коды ГРНТИ используются в большинстве общероссийских баз данных, поэтому одна из основных функций рубрикатора в ЭК — обеспечение его лингвистической совместимости с другими информационными системами. Пользователь ЭК имеет возможность ознакомиться с данным словарем в полном объеме, выбрав путь последовательного доступа от вышестоящих разделов рубрикатора к нижестоящим. Цифровые коды сопровождаются словесными формулировками рубрик, что позволяет читателям точнее сориентироваться в теме запроса.

На этапе создания ЭК язык ключевых слов был введен в состав ЛО с учетом требований, связанных с участием ГПНТБ СО РАН в автоматизированном сводном каталоге, и применялся только для индексирования документов на иностранных языках. Однако в настоящее время назрела необходимость пересмотра сложившейся практики. Предполагается использовать ключевые слова для описания всех видов изданий, но только в тех случаях, когда возможностей других ИПЯ недостаточно для полного раскрытия содержания документов.

Программные средства ЭК предоставляют широкие возможности для варьирования поисковых стратегий. В зависимости от задач поиска можно применять один или несколько ИПЯ, используя для построения поискового предписания (ПП) логические связки булевой алгебры и правостороннее усечение терминов. На этой основе создаются сложные комбинации поисковых признаков.

Чаще всего в реальном поиске задаются совместно содержательные и формальные признаки, например, запрашиваются издания по той или иной теме за определенные годы выпуска или период поступления в библиотеку, книги конкретного автора, конкретные виды изданий. Но в сложных случаях может быть удобно использование в ПП различных языков тематического поиска. Самый распространенный вариант — сочетание классификационных индексов с предметными рубриками и/или словами из заглавий документов. Таким способом можно выделить конкретные аспекты в рамках широкой отраслевой темы.

Однако, как показало одно из наших исследований поисковой ситуации у систематического каталога, только незначительная часть читателей проводит кропотливую трудоемкую работу с данной системой, когда затраты времени и сил отступают на второй план [1]. Проецируя этот опыт на ЭК, можно предположить, что осваивать его возможности в полной мере будут не все читатели, и не потому, что не умеют или не хотят учиться (хотя и это имеет место), а потому, что большая их часть не испытывает в этом потребности.

Очевидно, что сегодня ситуация в сфере информационных потребностей существенно меняется, меняется и состав читателей крупных библиотек. Количество ученых и специалистов среди наших читателей, к сожалению, уменьшается. Все большее число таких пользователей осваивает работу с базами данных, а следовательно, возрастают их требования к качеству информационных услуг.

Сейчас среди читателей ГПНТБ СО РАН преобладает учащаяся молодежь, для которой основными критериями оценки ЭК являются доступность, простота поиска и оперативность. Таким образом, мотивы и цели обращения читателей к ЭК, а также уровень их профессиональной и библиографической подготовки в условиях крупной научной библиотеки настолько разнородны и разнообразны, что потребуется предварительная квалификация (определение уровня сложности) и распределение потока запросов для выбора оптимального варианта поиска. Эти проблемы ЭК унаследовал от традиционных каталогов; однако помимо традиционного опыта (изучения запросов читателей, обучения диалогу с поисковой системой, уточнения методики лингвистической обработки документального потока и контроля за ее соблюдением, повышения квалификации информационных посредников) в поиске путей их решения должны быть учтены новые требования и новые возможности ЭК.

Как и у ЭК любой библиотеки, у ЭК ГПНТБ СО РАН был "латентный", скрытый от читателя период развития — накопление новых библиографических записей, а также опыта работы. Но только активное использование ЭК реальными читателями способно выявить его недостатки и возможные пути их устранения. Участвовать в обслуживании читательских запросов ЭК начал с 1993 г. Сегодня он содержит более 300 тыс. записей. С 1998 г. ЭК доступен через Интернет.

Очевидно, что накопленный практический опыт нуждается в упорядочении и анализе. Поэтому в ЦНОД принято решение о проведении серии экспериментов, моделирующих реальные поисковые ситуации в ЭК и позволяющих не только оценить поисковые языки с точки зрения систематизатора, но и увидеть их глазами читателя [2].

Первое пилотажное исследование не предполагало обширной выборки, поэтому для участия в эксперименте отобраны 12 тестовых тематических запросов по различным отраслям знания. Для каждого из них проведены 5 самостоятельных сеансов поиска с использованием каждого из 5 ИПЯ. В каждом случае определялись полнота и точность выдачи, причины поисковых неудач. Несмотря на небольшой объем выборки, результаты исследования оказались достаточно интересными и показательными.

Многолетняя практика ведения и эксплуатации библиотечных каталогов дает нам представление о том, что можно ожидать от различных ИПЯ в разных поисковых ситуациях. Но эксперимент показал, что и поисковые языки традиционных карточных каталогов в условиях автоматизированного поиска приобретают новые свойства.

Интересные результаты получены при поиске с усечением по индексам ББК. В таких случаях в выдачу оказываются включенными документы, содержащие в соответствующем поисковом поле все нижестоящие по отношению к приведенному в ПП индексы. Так же, как и в словарных ИПЯ, усечение приводит к изменению (расширению) границ поиска, но если в первом варианте это происходит за счет особенностей словообразования, то во втором — благодаря логике классификации.

В отличие от языка предметных рубрик, ББК позволяет создавать и просматривать обширные тематические массивы библиографических описаний по несколько иному — отраслевому — принципу. При этом, изменяя длину индекса в ту или иную сторону, мы либо сужаем, уточняем, либо расширяем тематические рамки обзора.

С помощью ББК можно в кратком поисковом предписании объединить большое число понятий по широкой отраслевой теме. Например, если читателя интересуют книги о болезнях органов дыхания (бронхиальная астма, пневмония, бронхиты, плевриты и т.п.), нет необходимости перечислять их все. Достаточно привести в ПП индекс ББК "Р412$" и пользователь ЭК получит всю необходимую информацию. Подобными возможностями в таком объеме не располагает ни один из поисковых языков ЭК.

Но вместе с тем в электронном каталоге, тем более в условиях строгого эксперимента, ярче проявились и проблемы, связанные с использованием детально разработанных классификаций. Большая часть поисковых неудач оказалась обусловлена методикой индексирования документов, которая создавалась в расчете на традиционные средства поиска. Специфика заключается в параллельном сосуществовании в библиотеках традиционных и автоматизированных ИПС. Ведут их, как правило, те же специалисты, опыт которых формировался в эпоху карточных каталогов. Многие методические приемы систематизации и предметизации были в свое время обусловлены физической природой библиотечных поисковых систем.

Действительно, в ряде случаев методика предполагает ограничения, к которым можно отнести принцип присвоения обобщающего индекса документам о трех и более предметах, недопустимость повторного отражения произведений печати из обобщающей рубрики в подчиненную и наоборот и т. п. Это было удобно в традиционных каталогах, где описания документов просматриваются "карточка за карточкой". В ЭК же в ответ на запрос выдаются документы только с данным конкретным индексом, поэтому хотелось бы раскрыть содержание каждой книги более полно и детально.

По нашему мнению, возможности ЭК по многоаспектному отражению содержания документов не должны ограничиваться условными методическими приемами. При обработке некоторых видов документов (сборников, продолжающихся изданий, многоаспектных монографий) кажется целесообразным использование приемов аналитической систематизации. Это тем более уместно, если учесть, что в современном ЭК поиск по классификационным индексам далек от совершенства — затруднен доступ в классификационное дерево, отсутствуют полномасштабные нормативные словари ИПЯ. Сказывается на результатах поиска и невозможность идентификации отдельных элементов сложных индексов ББК.

Как показывает опыт, чаще всего пользователи обращаются при поиске к словам из предметных рубрик. Этот ИПЯ более доступен, терминами естественного языка привычнее оперировать, проще оценить содержание поискового образа документа и запроса. Кроме того, ЯПР более гостеприимен и гибок, чем цифровые классификации, что позволяет отразить в процессе индексирования и поиска новые актуальные проблемы. С помощью слов из предметных рубрик удобно строить поисковые предписания для запросов межотраслевой, комплексной тематики.

Но и здесь существуют свои трудности. Зачастую близость языка предметных рубрик к естественному осознается читателями как тождественность, а нулевой результат поиска, обусловленный несовпадением читательской и принятой в данной предметизационной системе формулировок, воспринимается как окончательный. Так, если читателя интересует тема воспитания детей с ограниченными возможностями, то именно такой формулировки он не найдет. В то же время в словаре имеются рубрики: "Дети с недостатками физического и психического развития"; "Дети-инвалиды"; "Умственно отсталые дети"; "Дефектология". Переформулировав запрос, читатель получит описания интересующих его изданий.

Не всегда осознается и то, что при выборе обобщающей рубрики, описывающей тему в целом, пользователь не получит сведений о книгах, посвященных более узким вопросам в рамках этой темы. Так, если в поисковом предписании будет указано "цветные металлы", то в результате поиска читатель получит только описания книг о цветных металлах в целом, литература же об отдельных металлах, например только о серебре или медных рудах и т. п., в выдачу не попадет. Подобные задачи проще решать с помощью классификационных ИПЯ.

Общей для обоих языков оказалась проблема отсутствия в ЭК системы "подсказок" пользователю. В такой ситуации неподготовленным пользователям трудно правильно сформулировать поисковое предписание. В ходе эксперимента выяснилось, что читательские формулировки ПП существенно проигрывали экспериментальным (составленным специалистами-индексаторами ЦНОД) и по полноте, и по глубине. Особенно актуальна эта проблема для ББК. Понятно, что возможности классификационных языков будут проявляться наиболее полно в случаях, когда пользователь недостаточно четко осознает свои информационные потребности. Тогда таблицы ББК помогут ему сориентироваться в системе понятий интересующей его отрасли, уточнить запрос в соответствующем контексте, соотнести его с другими отраслями знаний внутри классификационного дерева. Однако наш ЭК (и, насколько нам известно, ни один другой) такими возможностями сейчас не располагает.

Существенно улучшить положение могло бы ведение авторитетных/нормативных файлов поисковых языков с развернутыми словарными статьями. Такие словари можно предоставить в распоряжение не только систематизаторов, но и пользователей ЭК. Для нас это — задача будущего, решение которой затрудняется недостаточностью технических и кадровых ресурсов. Сегодня же мы используем карточные или печатные варианты нормативных словарей — АПУ к систематическому каталогу, таблицы ББК, картотеки предметных рубрик. Для того, чтобы и читатели, самостоятельно работающие с ЭК, и информационные посредники могли полнее реализовать возможности многоаспектного тематического поиска, разработаны методические рекомендации, кратко характеризующие особенности каждого ИПЯ и способы их комбинации.

Единственным структурированным машиночитаемым словарем в нашей системе является сегодня Рубрикатор ГРНТИ. Однако по своей структуре Рубрикатор не предназначен для глубокого раскрытия содержания документов. Рубрики ГРНТИ укрупнены, поэтому при поиске может быть выдано большое количество нерелевантных документов, особенно в ответ на запросы общественно-научной тематики.

По результатам эксперимента этот язык обнаружил при высокой полноте чрезвычайно низкую точность поиска. Как показывает практика, коды ГРНТИ удобно использовать для предварительной ориентации в теме запроса или для его отраслевого ограничения. В то же время в некоторых случаях с помощью ГРНТИ можно выразить тему, не поддающуюся описанию средствами других ИПЯ. К достоинствам Рубрикатора можно отнести хорошо разработанные таблицы по межотраслевым и комплексным разделам "82/99".

Слова из заглавий документов помогают найти литературу по специальным, узкоспецифическим темам, по тем или иным причинам не учтенным в словаре предметных рубрик. С помощью ключевых слов и/или слов из заглавий могут быть отражены названия лекарств, узкоспециальных методов исследования, химических соединений, прикладных программ, систем управления базами данных, научных школ и теорий и т. п. Кроме того, с их помощью можно провести поиск по новым темам, еще не имеющим устоявшейся терминосистемы. Но в качестве самостоятельного поискового средства применять этот ИПЯ, по-видимому, нецелесообразно, так как потери вследствие неинформативности заглавий составили в этом виде поиска 35%.

Очевидно, что на сегодня возможности электронного каталога далеко не исчерпаны. Проведенный анализ позволил нам выработать меры по дальнейшему совершенствованию системы. Исследовательская работа будет развиваться по следующим направлениям:

  • ведение статистики реальных поисков в ЭК наряду с экспериментальным моделированием поисковых ситуаций, систематизация и анализ результатов;

  • оптимизация комплекса средств тематического поиска с целью обеспечения максимальной результативности при минимуме затрат;

  • отработка стратегии совместного использования классификационных и предметных ИПЯ в процессе индексирования и поиска документов;

  • уточнение методики индексирования с учетом новых возможностей машиночитаемого каталога;

  • отработка режима редактирования ЭК, выявление неточностей, внесение изменений и дополнений;

  • создание и ведение нормативных файлов поисковых языков.

СПИСОК ЛИТЕРАТУРЫ

1. Пушкарева Л.В., Жарикова Л.А. Анализ поисковой ситуации у систематических каталогов ГПНТБ СО АН СССР // Проблемы централизованной систематизации в академических библиотеках. М., 1990. С. 67—94.

2. Скарук Г.А., Бобров Л.К. О качестве тематического поиска в электронном каталоге // Информационные ресурсы. Интеграция. Технологии. М., 1997. С. 191—194.


Copyright © 1995-2000 ГПНТБ России