УДК 027.008.04(063)

Десятая юбилейная Международная конференция
«Крым–2003» «Библиотеки и ассоциации
в меняющемся мире: новые технологии
и новые формы сотрудничества»

7–15 июня, 2003 г.,
(Судак, Автономная Республика Крым, Украина)

Секция 7. Информационно-лингвистическое обеспечение
библиотечно-информационных систем

Зайцева Е.М.
ГПНТБ России

Лингвистическое обеспечение АБИС:
шаги на месте и движение вперед
в сравнении с другими информационными системами

Состав и задачи лингвистического обеспечения различаются в зависимости от вида информационной системы: автоматизированной библиотечно-информационной системы (АБИС), электронной библиотеки, информационно-поисковой системы в Интернете и т.д.

Начну с рассмотрения лингвистического обеспечения библиотечно-информационных систем, имеющего более глубокие традиции, более разработанного и способного в определенной степени выступать в качестве основы лингвистического обеспечения других информационных систем.

Лингвистическое обеспечение современной АБИС можно определить как совокупность применяемых в технологии АБИС информационных языков, лингвистических процессоров, словарей и авторитетных файлов. Основные функции лингвистического обеспечения АБИС связаны с обеспечением индексирования документов и запросов, а также эффективного поиска в электронном каталоге. Лингвистическое обеспечение корпоративной АБИС в отличие от локальной АБИС носит более универсальный или комплексный характер (например может включать несколько классификационных языков или единую систему предметных рубрик) и требует соблюдения дополнительных условий реализации лингвистической совместимости.

Словарные средства АБИС обычно требуют многолетнего рутинного ведения, поэтому прогресс в развитии лингвистического обеспечения не столь очевиден, как например в развитии аппаратного или программного обеспечения. При этом очень часто именно изменение или усложнение последних компонент вызывает продвижение вперед первой. Можно выделить следующие современные тенденции в развитии лингвистического обеспечения АБИС.

Комплексное использование элементов библиографического описания, классификационных индексов, ключевых терминов/слов, предметных рубрик в качестве ключевых элементов при поиске.

Следует избегать смешения понятий ключевых терминов/слов и применения при индексировании одновременно и тех, и других элементов. Это приводит к усложнению правил нормирования лексики и правил индексирования, что затрудняет работу индексаторов. Использование стандартизованных изолированных прилагательных в форме единственного числа требует знания пользователем правил индексирования или же обязательного наличия в системе лингвистического процессора отсечения окончаний. Перевод прилагательных в существительные при нормировании ключевых слов влечет за собой проблему выбора слов/основ при составлении поискового предписания. Кроме того, индексирование документов с помощью ключевых слов не дает возможности пользователю получить представление о содержании документа на основе ПОД и судить о релевантности документа.
Применение в технологии индексирования одного или нескольких классификационных языков, обеспечивающих поиск по широкотематическим запросам, и хотя бы одного вербального языка, обеспечивающего поиск по узкотематическим запросам. В числе классификационных языков один должен быть универсальным, а другие могут носить отраслевой или локальный характер (например классификация стандартов, патентов, архивная классификация).
Среди вербальных языков наблюдается тенденция к предпочтительному использованию в качестве языка индексирования языка ключевых терминов, в наибольшей степени отвечающего потребностям пользователя в актуальной терминологии при узкотематических запросах. Возможно применение контролируемого (на основе словаря) или свободного (неконтролируемого словарем) индексирования. В любом случае предпочтительно иметь тезаурус и использовать его для обогащения поисковых предписаний.

Преимущества тезауруса по сравнению со списком ключевых слов/терминов очевидны. В списках ключевых слов/терминов не отражены смысловые связи между терминами, при этом алфавитный порядок расположения терминов усугубляет эту разобщенность: родственные понятия удалены друг от друга. Использование тезауруса в информационно-поисковых системах повышает качество анализа текста и полноту поиска информации, позволяя расширить запрос синонимическими, более общими или более частными понятиями.
Ведение и поддержка в актуальном состоянии баз данных классификационных систем, тезаурусов, предметных рубрик, применяемых при индексировании и поиске. Ведение авторитетных файлов и их использование при каталогизации и поиске документов.
Организация поиска в классификационных базах данных по ключевым словам с последующим выходом на поиск по классификационному индексу/ам в электронном каталоге. Ведутся работы по созданию конкордансных таблиц разных классификаций, классификационной системы и системы предметных рубрик или ключевых терминов.
Увеличение количества и усложнение лингвистических процессоров в составе лингвистического обеспечения АБИС. К таким процессорам относятся процессоры транслитерации, трансляторы ПОД с одного языка индексирования на другой, грамматические процессоры типа процедур отсечения окончаний или идентификации словоформ одного слова, словарные процессоры, т.е. средства автоматизированного ведения словарей (например, процессор словарно-грамматической фильтрации слов, процессор тезаурусной фильтрации терминов).

Лингвистическое обеспечение электронной библиотеки, оперирующей текстовой информацией, неизбежно должно иметь свои особенности. Большие объемы текстовой и гипертекстовой информации создают значительные трудности при ее классификации традиционными «библиотечными» способами.

Интеллектуальная обработка требует значительных временных затрат, что несовместимо с необходимостью оперативного анализа текстовых документов. Поэтому в рассматриваемой сфере реализуются разработки технологий автоматической обработки текста (в частности автоматического смыслового анализа), автоматического индексирования текстов, аннотирования или реферирования и смыслового поиска в информационных ресурсах на естественном языке (например Университетская информационная система «Россия» http://www.cir.ru, работающая по модели тематических узлов; электронная архивная система RetrievalWare, реализующая технологию семантических сетей). Таким образом, лингвистическое обеспечение в этой сфере идет по пути интенсивного развития лингвопроцессорной компоненты, которая сопровождается развитыми тезаурусными и грамматическими словарями. Следует отметить, что классификационные и вербальные информационно-поисковые языки в электронных библиотеках практически не используются, что является, на мой взгляд, неоправданным упущением.

Электронные библиотеки, помимо указанных немногочисленных интеллектуальных библиотек, характеризуются следующими видами представления информации и поиска:

Представление ресурсов в виде списков с предоставлением выбора из них, например авторов и произведений (Online библиотека: http://www.bestlibrary.ru, ЭБ художественной литературы: http://www.e-kniga.ru);
Представление ресурсов в виде списков и организация поиска по элементам библиографического описания, например по автору и словам, содержащимся в заглавии (ЭБ Максима Машкова: http://www.lib.ru);
Представление ресурсов в виде списков и организация поиска в полных текстах документов по ключевым словам (ЭБ Мир энциклопедий: http://www.encyclopedia.ru);
Организация поиска по элементам библиографического описания и в полных текстах документов по ключевым словам (ЭБ Русская литература и фольклор: http://feb-web.ru);
Организация поиска по элементам библиографического описания, в полных текстах документов по ключевым словам и поиска с использованием информационно-поисковых языков классификационного или вербального типа, например, по автору, по словам, содержащимся в заглавии, аннотации, полном тексте документов, и по самостоятельно оформленным ключевым словам и Рубрикатору ГРНТИ (ЭБ РФФИ: http://elibrary.ru).

Современные требования к электронным библиотекам позволяют считать полноценной только библиотеку пятого типа и разработки интеллектуальных библиотек.

Аналогичное положение в плане соотношения компонент лингвистического обеспечения наблюдается в практике работы поисковых машин в Интернете. Каталоги (классификации), использующиеся в наиболее крупных российских поисковых системах Rambler, Aport и Yandex, разнородны, малы и не носят универсального характера. В силу этого они оказывают слабую помощь пользователю при поиске нужной информации. Очевидно, что число классификаций должно быть минимальным и они должны носить универсальный характер. Лингвопроцессорная часть в указанных поисковых системах находится на высоком уровне, включая морфологический анализ обрабатываемых терминов или даже обработку составленного на естественном языке фразового запроса, как например в Yandex. Для описания электронных ресурсов (по аналогии с элементами библиографического описания) целесообразно использовать систему метаданных, например схему Dublin Core. Однако наличие последних двух компонент не обеспечивает удобный и эффективный поиск.

Таким образом, для Интернета актуальна задача разработки качественной поисковой системы, которая при использовании хорошо разработанных классификационных или вербальных средств гарантировала бы высокую точность, полноту и оперативность поиска в сочетании с разнообразными возможностями составления запроса.