УДК 027.008.04(063)
Десятая юбилейная Международная
конференция
«Крым–2003» «Библиотеки и ассоциации
в меняющемся мире: новые технологии
и новые формы сотрудничества»
7–15
июня, 2003 г.,
(Судак, Автономная Республика Крым, Украина)
Секция 7. Информационно-лингвистическое
обеспечение
библиотечно-информационных систем
Зайцева Е.М.
ГПНТБ России
Лингвистическое обеспечение
АБИС:
шаги на месте и движение вперед
в сравнении с другими информационными
системами
Состав и задачи лингвистического обеспечения различаются в зависимости от вида информационной системы: автоматизированной библиотечно-информационной системы (АБИС), электронной библиотеки, информационно-поисковой системы в Интернете и т.д.
Начну с рассмотрения лингвистического обеспечения библиотечно-информационных систем, имеющего более глубокие традиции, более разработанного и способного в определенной степени выступать в качестве основы лингвистического обеспечения других информационных систем.
Лингвистическое обеспечение современной АБИС можно определить как совокупность применяемых в технологии АБИС информационных языков, лингвистических процессоров, словарей и авторитетных файлов. Основные функции лингвистического обеспечения АБИС связаны с обеспечением индексирования документов и запросов, а также эффективного поиска в электронном каталоге. Лингвистическое обеспечение корпоративной АБИС в отличие от локальной АБИС носит более универсальный или комплексный характер (например может включать несколько классификационных языков или единую систему предметных рубрик) и требует соблюдения дополнительных условий реализации лингвистической совместимости.
Словарные средства АБИС обычно требуют многолетнего рутинного ведения, поэтому прогресс в развитии лингвистического обеспечения не столь очевиден, как например в развитии аппаратного или программного обеспечения. При этом очень часто именно изменение или усложнение последних компонент вызывает продвижение вперед первой. Можно выделить следующие современные тенденции в развитии лингвистического обеспечения АБИС.
Комплексное использование
элементов библиографического описания,
классификационных индексов, ключевых
терминов/слов, предметных рубрик в качестве
ключевых элементов при поиске.
Следует избегать смешения
понятий ключевых терминов/слов и
применения при индексировании
одновременно и тех, и других элементов. Это
приводит к усложнению правил нормирования
лексики и правил индексирования, что
затрудняет работу индексаторов.
Использование стандартизованных
изолированных прилагательных в форме
единственного числа требует знания
пользователем правил индексирования или же
обязательного наличия в системе
лингвистического процессора отсечения
окончаний. Перевод прилагательных в
существительные при нормировании ключевых
слов влечет за собой проблему выбора слов/основ
при составлении поискового предписания.
Кроме того, индексирование документов с
помощью ключевых слов не дает возможности
пользователю получить представление о
содержании документа на основе ПОД и судить
о релевантности документа.
Применение в технологии
индексирования одного или нескольких
классификационных языков, обеспечивающих
поиск по широкотематическим запросам, и
хотя бы одного вербального языка,
обеспечивающего поиск по узкотематическим
запросам. В числе классификационных языков
один должен быть универсальным, а другие
могут носить отраслевой или локальный
характер (например классификация
стандартов, патентов, архивная
классификация).
Среди вербальных языков
наблюдается тенденция к предпочтительному
использованию в качестве языка
индексирования языка ключевых терминов, в
наибольшей степени отвечающего
потребностям пользователя в актуальной
терминологии при узкотематических
запросах. Возможно применение
контролируемого (на основе словаря) или
свободного (неконтролируемого словарем)
индексирования. В любом случае
предпочтительно иметь тезаурус и
использовать его для обогащения поисковых
предписаний.
Преимущества тезауруса по
сравнению со списком ключевых слов/терминов
очевидны. В списках ключевых слов/терминов
не отражены смысловые связи между
терминами, при этом алфавитный порядок
расположения терминов усугубляет эту
разобщенность: родственные понятия удалены
друг от друга. Использование тезауруса в
информационно-поисковых системах повышает
качество анализа текста и полноту поиска
информации, позволяя расширить запрос
синонимическими, более общими или более
частными понятиями.
Ведение и поддержка в
актуальном состоянии баз данных
классификационных систем, тезаурусов,
предметных рубрик, применяемых при
индексировании и поиске. Ведение
авторитетных файлов и их использование при
каталогизации и поиске документов.
Организация поиска в
классификационных базах данных по ключевым
словам с последующим выходом на поиск по
классификационному индексу/ам в
электронном каталоге. Ведутся работы по
созданию конкордансных таблиц разных
классификаций, классификационной системы и
системы предметных рубрик или ключевых
терминов.
Увеличение количества и усложнение лингвистических процессоров в составе лингвистического обеспечения АБИС. К таким процессорам относятся процессоры транслитерации, трансляторы ПОД с одного языка индексирования на другой, грамматические процессоры типа процедур отсечения окончаний или идентификации словоформ одного слова, словарные процессоры, т.е. средства автоматизированного ведения словарей (например, процессор словарно-грамматической фильтрации слов, процессор тезаурусной фильтрации терминов).
Лингвистическое обеспечение электронной библиотеки, оперирующей текстовой информацией, неизбежно должно иметь свои особенности. Большие объемы текстовой и гипертекстовой информации создают значительные трудности при ее классификации традиционными «библиотечными» способами.
Интеллектуальная обработка требует значительных временных затрат, что несовместимо с необходимостью оперативного анализа текстовых документов. Поэтому в рассматриваемой сфере реализуются разработки технологий автоматической обработки текста (в частности автоматического смыслового анализа), автоматического индексирования текстов, аннотирования или реферирования и смыслового поиска в информационных ресурсах на естественном языке (например Университетская информационная система «Россия» http://www.cir.ru, работающая по модели тематических узлов; электронная архивная система RetrievalWare, реализующая технологию семантических сетей). Таким образом, лингвистическое обеспечение в этой сфере идет по пути интенсивного развития лингвопроцессорной компоненты, которая сопровождается развитыми тезаурусными и грамматическими словарями. Следует отметить, что классификационные и вербальные информационно-поисковые языки в электронных библиотеках практически не используются, что является, на мой взгляд, неоправданным упущением.
Электронные библиотеки, помимо указанных немногочисленных интеллектуальных библиотек, характеризуются следующими видами представления информации и поиска:
Представление ресурсов в виде
списков с предоставлением выбора из них,
например авторов и произведений (Online
библиотека: http://www.bestlibrary.ru,
ЭБ художественной литературы: http://www.e-kniga.ru);
Представление ресурсов в виде
списков и организация поиска по элементам
библиографического описания, например по
автору и словам, содержащимся в заглавии (ЭБ
Максима Машкова: http://www.lib.ru);
Представление ресурсов в виде
списков и организация поиска в полных
текстах документов по ключевым словам (ЭБ
Мир энциклопедий: http://www.encyclopedia.ru);
Организация поиска по
элементам библиографического описания и в
полных текстах документов по ключевым
словам (ЭБ Русская литература и фольклор: http://feb-web.ru);
Организация поиска по элементам библиографического описания, в полных текстах документов по ключевым словам и поиска с использованием информационно-поисковых языков классификационного или вербального типа, например, по автору, по словам, содержащимся в заглавии, аннотации, полном тексте документов, и по самостоятельно оформленным ключевым словам и Рубрикатору ГРНТИ (ЭБ РФФИ: http://elibrary.ru).
Современные требования к электронным библиотекам позволяют считать полноценной только библиотеку пятого типа и разработки интеллектуальных библиотек.
Аналогичное положение в плане соотношения компонент лингвистического обеспечения наблюдается в практике работы поисковых машин в Интернете. Каталоги (классификации), использующиеся в наиболее крупных российских поисковых системах Rambler, Aport и Yandex, разнородны, малы и не носят универсального характера. В силу этого они оказывают слабую помощь пользователю при поиске нужной информации. Очевидно, что число классификаций должно быть минимальным и они должны носить универсальный характер. Лингвопроцессорная часть в указанных поисковых системах находится на высоком уровне, включая морфологический анализ обрабатываемых терминов или даже обработку составленного на естественном языке фразового запроса, как например в Yandex. Для описания электронных ресурсов (по аналогии с элементами библиографического описания) целесообразно использовать систему метаданных, например схему Dublin Core. Однако наличие последних двух компонент не обеспечивает удобный и эффективный поиск.
Таким образом, для Интернета актуальна задача разработки качественной поисковой системы, которая при использовании хорошо разработанных классификационных или вербальных средств гарантировала бы высокую точность, полноту и оперативность поиска в сочетании с разнообразными возможностями составления запроса.