УДК 025.32:65.011.56
Миниярова З.М.
Электронный каталог - особая поисковая среда
Хочется надеяться, что серия статей Э.Р. Сукиасяна
"Сравнительный анализ моделей различных ИПЯ" будет использоваться как учебный
материал по различным ИПЯ. Но достаточно ли нам знаний об
информационно-поисковых языках, если мы хотим создать и использовать полноценный
электронный каталог? Можно ли вообще в случае электронного каталога говорить об
отдельных ИПЯ, не учитывая поисковую среду и методику их применения?
Распространено мнение, что традиционная (карточная) и
машиночитаемая формы как бы особенно и не различаются в поисковом отношении.
Действительно, если мы введём список терминов в текстовый файл, то различия
будут минимальные (даже если текст содержит разметку какого-либо
коммуникативного формата). Однако никакой ИПЯ сам по себе не является поисковым
аппаратом.
Если речь идёт об электронном каталоге, то мы скорее всего
будем иметь дело с файлами базы данных. Не вдаваясь в подробности, можно
сказать, что каждая СУБД имеет свой формат, и существенным для нас является то,
что информация там организована специальным образом, предназначенным для
хранения больших объёмов и поиска программными средствами.
Отсюда - важное следствие: в поисковой среде ЭК наряду с
самими данными (семантический аспект поискового аппарата), их структурой
(формальный аспект) будут иметь значение программные средства, работающие с
данными (инструментальный аспект поискового аппарата). Впрочем, инструменты
поиска всегда имеют значение, только в традиционной поисковой среде эти аспекты
поискового аппарата не столь чётко дифференцируются.
Формальный аспект может быть связан как с семантическим
(структура данных отражает семантические отношения, например связи терминов),
так и с инструментальным (структура данных приспособлена для организации поиска,
например для сортировки по алфавиту или выделения поисковых элементов). Отметим
также методический аспект, который связан с конкретным применением поисковых
инструментов, с методами выбора конкретных поисковых терминов при индексировании
и при поиске в зависимости от свойств поисковой среды.
Совокупность этих аспектов и позволяет говорить о
существовании поискового аппарата.
Может быть, не совсем очевидно, что инструментальные
средства конкретной АИБС влияют и на процесс поиска, и на процесс
индексирования, поэтому стоит сказать об этом несколько слов. Предварительно
отмечу, что, к сожалению, имеет место наложение терминов. Специфическую часть
любой СУБД, отвечающую за организацию поиска данных, принято называть
индексом, и далее в статье этот термин будет употребляться именно в таком
смысле, т.е. в значении, распространенном в области программирования и
вычислительной техники, и он не имеет никакого отношения к традиционному
библиотечному классификационному индексу, а также к индексированию
документов.
Некоторые АИБС поддерживают и медленный, и
быстрый поиск, некоторые только быстрый (когда поиск проходит только
по поисковым индексам).
При медленном поиске можно найти "абсолютно всё абсолютно в любом
месте" (например последовательность символов пробела и запятой, что бывает
весьма полезно при редактировании каталога). На больших массивах информации
пользоваться этим видом поиска можно лишь в крайних случаях, зато он хорошо
подходит для уточнения в ограниченной выборке.
Быстрый поиск тоже может быть разным в зависимости от
способа построения поискового индекса. Индекс может строиться по целой фразе,
т.е. содержать в своей строке весь поисковый элемент. Тогда реальный поиск
возможен только по началу фразы, что, конечно же, является существенным
ограничением. При необходимости поиска по другим словам придётся прибегнуть к
инверсии при составлении ПОД. Просматривать поисковые словари, в которых,
например, присутствуют полностью названия документов, весьма удобно. При
построении пословного индекса можно найти слово в любом месте поля,
необходимость инверсии отпадает, но может быть много шума при поиске.
Наилучшим является вариант, когда мы имеем дело не с каким-то
одним видом индекса, а с гибкой системой, и можем в поисковом запросе помимо
термина поиска указать его условия - искать в любом месте, в начале, или нас
интересует точное совпадение. Все ли АИБС предоставляют такие возможности?
Итак, необходимо признать, что электронный каталог - это
самостоятельный поисковый аппарат, отличающийся от традиционного каталога своей
собственной поисковой средой; возможности организации поиска в электронной среде
существенно отличаются от возможностей традиционной карточной системы. И это
отличие не может не наложить отпечаток на семантическую сторону поискового
аппарата, на ИПЯ. Именно поэтому следует говорить не столько о машиночитаемом,
сколько о машиноприменяемом индексировании.
Даже если АИБС не поддерживает гибкие системы
индексирования и поиска (многие из широко применяемых сегодня АИБС не имеют даже
автоматического перехода по ссылкам "см." и "см. также"), предоставляемые
возможности электронной среды можно и нужно использовать. При семантическом
описании нужно учитывать и другие методы организации поиска. Предметизацию, к
примеру, не следует использовать "в лоб", как это делается сейчас, когда в ЭК
практически переносится традиционная технология индексирования и поиска. Нельзя
переносить на ЭК методы поиска в карточном каталоге, тем более - в одном из
карточных, например в предметном. Почему библиотекари не так уж часто используют
при поиске комбинацию поисковых терминов? Может быть, потому, что этот вид
поиска называется сложным, в лучшем случае - комбинированным?
Внимательнее посмотрим на трансформацию списков терминов,
приведённую в статье Э.Р. Сукиасяна. Для начала обратимся к спискам ключевых
слов (КС) и предметных рубрик (ПР). Именно трансформация КС в ПР наиболее
интересна и показательна, так как пока еще в нашей стране, как и за рубежом, в
основном в электронном каталоге используется вербальный поиск - КС и ПР. О
необходимости использования классификационных ИПЯ нужно говорить в отдельной
статье.
Конкретный пример. По КС "Ливневые дожди" можно найти
конкретные документы, рассказывающие о ливневых дождях. Используя язык ПР, можно
найти документы, рассказывающие о дождях вообще, затем уже внутри полученного
массива вручную отобрать документы о ливневых дождях. Хотя термин ливневые
дожди в предметизационном ИПЯ присутствует, он теряет свою поисковую силу по
сравнению с КС. Обратим внимание на то, в каком аппарате мы вели поиск
(карточный каталог, ЭК) и как индексировали конкретные документы. Для
наглядности промоделирую ситуацию с поиском по ПР в традиционной методике.
Обратившись к ПК,
в алфавитном ряду ПР находим рубрику "Ливневые дожди" (см. "Дожди"). Теперь мы
должны в этом же каталоге, в том же ряду найти ПР "Дожди", где за разделителем
стоят карточки, которые нужно просмотреть и выбрать литературу о ливневых
дождях. Понятно: если о ливневых дождях всего 1-2 документа, не вводить же новую
ПР в каталог. Придётся ставить ссылки от частного к общему и обратно. Вот она -
причина "разбухания каталога". Можно представить, насколько сложно его
поддерживать "в форме".
Ограничения в методике предметизации в традиционных ПК во
многом связаны с ограничениями "организационного" характера. Однако и при работе
с ЭК нам чаще всего предлагают проделывать ту же самую цепочку действий.
Поискали один термин, поискали другой (хорошо, если в ЭК данная операция
автоматизирована и не приходится проводить новый поиск), полистали записи,
выбрали нужные. Получается, что наши действия практически одинаковы, как будто
мы работаем в одной и той же поисковой среде.
Визуальный "перебор" записей при работе с ЭК - иногда
действительно необходимый и единственно действенный способ поиска (в рамках
обозримой выборки). Но надо ли всякий раз пересматривать десятки, а то и сотни
записей только потому, что так положено по методике (традиционной, т.е.
разработанной для традиционной поисковой среды). Разве не то же самое происходит
в крупной библиотеке, когда рубрика АПУ "Текстовые редакторы" отсылает к
разделителю СК "Пакеты прикладных программ",
за которым стоят полтора ящика карточек?
Представим, что документу в ЭК присвоены и ПР "Ливневые
дожди", и ПР "Дожди". При запросе литературы о любых дождях мы этот документ
получим, что логично. При запросе литературы о ливневых дождях мы этот документ
тоже получим, что также логично. В чём же проблема? Надо нарушить традиционную
методику и присваивать документу как адекватные, так и обобщающие ПР - вот, что
нам нужно! Следует помнить, что индексирование предполагает не только перевод
содержания документа в ПР или классификационные индексы, но также ясное
понимание, в ответ на какие запросы мы хотим этот документ выдать.
Посмотрим, однако, какие проблемы могут появиться при
изменении традиционной методики. Во-первых, это необходимость перечисления
достаточно большого количества ПР. По сути, так можно присвоить конкретному
документу всю иерархическую цепочку классификации (что и делается в некоторых
системах). В результате это была бы примитивная модель СК. Примитивная, но
существенно облегчающая поиск в ЭК. Во-первых, будет очень сложно находить
документы общего характера (если пользователю не нужны детали). На запрос
"Дожди" при нашей методике "выпадут все возможные дожди". В этом случае прием не
работает. Однако это выясняется после анализа характера возможных запросов.
Часто ли подобный анализ делается при индексировании?
Хорошо бы иметь возможность указать в запросе некие
параметры поиска; искать документы, содержащие указанный термин на адекватном
уровне, либо выше или ниже по иерархии. Подобная услуга реализована в ряде АИБС,
но пользоваться этим механизмом не слишком удобно.
Конечно, хорошо бы в ЭК существовал механизм связи
терминов!
Так мы приходим к тезаурированному АПУ и необходимости классификационного
поиска. Признаемся: ни список ключевых слов, ни список предметных рубрик, так
же, как и никакие "нормированные" или "ненормированные" каталоги сами по себе не
говорят нам о том, как проиндексированы документы в каждой конкретной ситуации,
какие именно ПР использовались в ПОД. Поэтому так важно, чтобы в ПОД
присутствовало столько понятий, сколько необходимо для адекватного поиска
документа в ЭК. Очевидно, что для нормального поиска надо использовать
комбинацию поисковых терминов.
К сожалению, чаще всего приходится сталкиваться с таким
подходом к поиску в ЭК: вводятся в "окошко" 1-2 слова, после чего пользователь
ждет, что выйдет. Могут выйти сотни и тысячи записей. Может появиться "0". Увы!
Так нередко "взаимодействуют" с ЭК даже профессиональные библиотекари,
претендующие на звание информационных работников.
Настоящий (продвинутый) библиотекарь должен понимать, в какой поисковой
среде он находится, если работает с ЭК. Можно использовать комбинированный
запрос, можно прибегнуть к последовательному поиску.
Если обратиться к классификационному ИПЯ, то можно сделать
примерно те же самые выводы. Несмотря на всю свою проработанность,
он тоже теряет определённую поисковую силу оттого, что придётся "пролистывать"
записи в обобщающих делениях в поисках документов, отвечающих конкретному
понятию. Традиционные ссылки в ЭК часто не имеют значения при поиске, так как
они выполняют свои основные функции лишь в границах "базы знаний", которой
является классификационная система.
Безусловно, приятно работать с тезаурусом. Можно найти
термин и соответствующие ему документы на любом уровне, любой термин является
точкой входа, плюс к этому явно выделены связи с аскрипторами, вверх и вниз по
иерархии. (Не зря, наверное, считается, что тезаурус - это поисковый инструмент
именно ЭК.) Но главное, чтобы эти связи работали в компьютере, иначе
тезаурус останется лишь списком терминов на бумаге или в файле. Нужны механизмы
представления терминов и их связей, т.е. структура базы данных для хранения
тезауруса, нужны механизмы и методы для работы с этими терминами, для их
удобного поиска, т.е. хороший пользовательский интерфейс.
Если внимательно посмотреть, то тезаурус и
классификационная система имеют много общего, они отражают вертикальные,
горизонтальные и параллельные связи понятий. А если в машине есть структура,
наполненная терминами и вспомогательными данными, то как именно представить всё
это на экране - в виде СК или СКК, АПУ, указателя иерархических отношений и т.п.
- это уже не принципиально. Соответствующий интерфейс напишет квалифицированный
программист.
Сделаем вывод. Сами по себе ИПЯ - лишь средство. Для
организации поиска в ЭК нужны соответствующие механизмы и методы работы с этими
средствами. Нужно понимание, что мы работаем в другой поисковой среде. А пока
это понимание довольно часто сводится к иллюзии, что в ЭК нажал 1-2 кнопки и всё
нашлось.
Хотелось бы развенчать несколько широко распространённых
мифов.
Появление карточного каталога было революционным событием
для библиотек уже потому, что он оперативно отражал движение фондов, а
совокупность карточных каталогов раскрывала состав и содержание фондов по ряду
параметров. Возникла взаимосвязанная система каталогов и
картотек.
С появлением ЭК произошла вторая "революция": вместо
просмотра нескольких объемных каталогов оказалось возможным получать ту же
информацию, сидя за компьютером, да еще одновременно многим пользователям в
разных местах, не мешая друг другу... Однако, по всей вероятности, во время первой
"революции" не звучало речей, подобных таким:
"Вот теперь работать с фондом стало так просто, что прямо-таки совсем не надо
думать". Вторая "революция", хотя и мало чем отличается от предыдущей, такие
разговоры породила. Их возникновение можно отнести к свойствам человеческой
природы, но никак не к сути самих изменений.
Да, электронный каталог должен и просто обязан быть легче в
использовании, эффективней, но мыслительный процесс при работе с ним никто не
отменял. Многие читатели, оказавшись в роли пользователей, этого пока еще не
понимают. Да и сами библиотекари не вполне готовы к ревизии традиционной
методики индексирования. Успех в равной степени зависит как от программистов,
так и от библиотекарей. Наилучшего результата можно достичь только при тесном
взаимодействии тех и других, оказавшихся в роли заказчиков и разработчиков.
|