УДК 027.008.04(063)
Десятая юбилейная Международная
конференция
«Крым–2003» «Библиотеки и ассоциации
в меняющемся мире: новые технологии
и новые формы сотрудничества»
7–15
июня, 2003 г.,
(Судак, Автономная Республика Крым, Украина)
Секция 7. Информационно-лингвистическое
обеспечение
библиотечно-информационных систем
Зайцева Е.М.
ГПНТБ России
Лингвистическое обеспечение
АБИС:
шаги на месте и движение вперед
в сравнении с другими информационными
системами
Состав и задачи
лингвистического обеспечения различаются
в зависимости от вида информационной
системы: автоматизированной библиотечно-информационной
системы (АБИС), электронной библиотеки,
информационно-поисковой системы в
Интернете и т.д.
Начну с рассмотрения
лингвистического обеспечения библиотечно-информационных
систем, имеющего более глубокие традиции,
более разработанного и способного в
определенной степени выступать в качестве
основы лингвистического обеспечения
других информационных систем.
Лингвистическое обеспечение
современной АБИС можно определить как
совокупность применяемых в технологии АБИС
информационных языков, лингвистических
процессоров, словарей и авторитетных
файлов. Основные функции лингвистического
обеспечения АБИС связаны с обеспечением
индексирования документов и запросов, а также эффективного поиска в
электронном каталоге. Лингвистическое
обеспечение корпоративной АБИС в отличие
от локальной АБИС носит более
универсальный или комплексный характер (например
может включать несколько
классификационных языков или единую
систему предметных рубрик) и требует
соблюдения дополнительных условий
реализации лингвистической совместимости.
Словарные средства АБИС обычно
требуют многолетнего рутинного ведения,
поэтому прогресс в развитии
лингвистического обеспечения не столь
очевиден, как например в развитии
аппаратного или программного обеспечения.
При этом очень часто именно изменение или
усложнение последних компонент вызывает
продвижение вперед первой. Можно выделить
следующие современные тенденции в развитии
лингвистического обеспечения АБИС.
-
Комплексное использование
элементов библиографического описания,
классификационных индексов, ключевых
терминов/слов, предметных рубрик в качестве
ключевых элементов при поиске.
Следует избегать смешения
понятий ключевых терминов/слов и
применения при индексировании
одновременно и тех, и других элементов. Это
приводит к усложнению правил нормирования
лексики и правил индексирования, что
затрудняет работу индексаторов.
Использование стандартизованных
изолированных прилагательных в форме
единственного числа требует знания
пользователем правил индексирования или же
обязательного наличия в системе
лингвистического процессора отсечения
окончаний. Перевод прилагательных в
существительные при нормировании ключевых
слов влечет за собой проблему выбора слов/основ
при составлении поискового предписания.
Кроме того, индексирование документов с
помощью ключевых слов не дает возможности
пользователю получить представление о
содержании документа на основе ПОД и судить
о релевантности документа.
-
Применение в технологии
индексирования одного или нескольких
классификационных языков, обеспечивающих
поиск по широкотематическим запросам, и
хотя бы одного вербального языка,
обеспечивающего поиск по узкотематическим
запросам. В числе классификационных языков
один должен быть универсальным, а другие
могут носить отраслевой или локальный
характер (например классификация
стандартов, патентов, архивная
классификация).
-
Среди вербальных языков
наблюдается тенденция к предпочтительному
использованию в качестве языка
индексирования языка ключевых терминов, в
наибольшей степени отвечающего
потребностям пользователя в актуальной
терминологии при узкотематических
запросах. Возможно применение
контролируемого (на основе словаря) или
свободного (неконтролируемого словарем)
индексирования. В любом случае
предпочтительно иметь тезаурус и
использовать его для обогащения поисковых
предписаний.
Преимущества тезауруса по
сравнению со списком ключевых слов/терминов
очевидны. В списках ключевых слов/терминов
не отражены смысловые связи между
терминами, при этом алфавитный порядок
расположения терминов усугубляет эту
разобщенность: родственные понятия удалены
друг от друга. Использование тезауруса в
информационно-поисковых системах повышает
качество анализа текста и полноту поиска
информации, позволяя расширить запрос
синонимическими, более общими или более
частными понятиями.
-
Ведение и поддержка в
актуальном состоянии баз данных
классификационных систем, тезаурусов,
предметных рубрик, применяемых при
индексировании и поиске. Ведение
авторитетных файлов и их использование при
каталогизации и поиске документов.
-
Организация поиска в
классификационных базах данных по ключевым
словам с последующим выходом на поиск по
классификационному индексу/ам в
электронном каталоге. Ведутся работы по
созданию конкордансных таблиц разных
классификаций, классификационной системы и
системы предметных рубрик или ключевых
терминов.
-
Увеличение количества и
усложнение лингвистических процессоров в
составе лингвистического обеспечения АБИС.
К таким процессорам относятся процессоры
транслитерации, трансляторы ПОД с одного
языка индексирования на другой,
грамматические процессоры типа процедур
отсечения окончаний или идентификации
словоформ одного слова, словарные
процессоры, т.е. средства
автоматизированного ведения словарей (например,
процессор словарно-грамматической
фильтрации слов, процессор тезаурусной
фильтрации терминов).
Лингвистическое обеспечение
электронной библиотеки, оперирующей
текстовой информацией, неизбежно должно
иметь свои особенности. Большие объемы
текстовой и гипертекстовой информации
создают значительные трудности при ее
классификации традиционными «библиотечными»
способами.
Интеллектуальная обработка
требует значительных временных затрат, что
несовместимо с необходимостью
оперативного анализа текстовых документов.
Поэтому в рассматриваемой сфере
реализуются разработки технологий
автоматической обработки текста (в
частности автоматического смыслового
анализа), автоматического индексирования
текстов, аннотирования или реферирования и
смыслового поиска в информационных
ресурсах на естественном языке (например
Университетская информационная система «Россия»
http://www.cir.ru,
работающая по модели тематических узлов;
электронная архивная система RetrievalWare, реализующая технологию
семантических сетей). Таким образом,
лингвистическое обеспечение в этой сфере
идет по пути интенсивного развития
лингвопроцессорной компоненты, которая
сопровождается развитыми тезаурусными и
грамматическими словарями. Следует
отметить, что классификационные и
вербальные информационно-поисковые языки в
электронных библиотеках практически не
используются, что является, на мой взгляд,
неоправданным упущением.
Электронные библиотеки, помимо
указанных немногочисленных
интеллектуальных библиотек,
характеризуются следующими видами
представления информации и поиска:
-
Представление ресурсов в виде
списков с предоставлением выбора из них,
например авторов и произведений (Online
библиотека: http://www.bestlibrary.ru,
ЭБ художественной литературы: http://www.e-kniga.ru);
-
Представление ресурсов в виде
списков и организация поиска по элементам
библиографического описания, например по
автору и словам, содержащимся в заглавии (ЭБ
Максима Машкова: http://www.lib.ru);
-
Представление ресурсов в виде
списков и организация поиска в полных
текстах документов по ключевым словам (ЭБ
Мир энциклопедий: http://www.encyclopedia.ru);
-
Организация поиска по
элементам библиографического описания и в
полных текстах документов по ключевым
словам (ЭБ Русская литература и фольклор: http://feb-web.ru);
-
Организация поиска по
элементам библиографического описания, в
полных текстах документов по ключевым
словам и поиска с использованием
информационно-поисковых языков
классификационного или вербального типа,
например, по автору, по словам, содержащимся
в заглавии, аннотации, полном тексте
документов, и по самостоятельно
оформленным ключевым словам и Рубрикатору
ГРНТИ (ЭБ РФФИ: http://elibrary.ru).
Современные требования к
электронным библиотекам позволяют считать
полноценной только библиотеку пятого типа
и разработки интеллектуальных библиотек.
Аналогичное положение в плане
соотношения компонент лингвистического
обеспечения наблюдается в практике работы
поисковых машин в Интернете. Каталоги (классификации),
использующиеся в наиболее крупных
российских поисковых системах Rambler,
Aport и Yandex, разнородны, малы и не носят
универсального характера. В силу этого они
оказывают слабую помощь пользователю при
поиске нужной информации. Очевидно, что
число классификаций должно быть
минимальным и они должны носить
универсальный характер.
Лингвопроцессорная часть в указанных
поисковых системах находится на высоком
уровне, включая морфологический анализ
обрабатываемых терминов или даже обработку
составленного на естественном языке
фразового запроса, как например в Yandex.
Для описания электронных ресурсов (по
аналогии с элементами библиографического
описания) целесообразно использовать
систему метаданных, например схему Dublin
Core. Однако наличие последних двух
компонент не обеспечивает удобный и
эффективный поиск.
Таким образом, для Интернета
актуальна задача разработки качественной
поисковой системы, которая при
использовании хорошо разработанных
классификационных или вербальных средств
гарантировала бы высокую точность, полноту
и оперативность поиска в сочетании с
разнообразными возможностями составления
запроса.
|