NTB_03-11

Научные и технические библиотеки

Зайцева Е.М.ГПНТБ России
Лингвистическое обеспечение автоматизированных
библиотечно-информационных систем:
современные требования и направления развития

Лингвистическое обеспечение играет значительную роль в функционировании автоматизированной библиотечно-информационной системы (АБИС), определяя ее поисковые возможности, качество поиска, лингвистическую совместимость с другими системами. Вопросы лингвистического обеспечения являются, пожалуй, наиболее проблемными и трудоемкими аспектами работы АБИС. Именно поэтому почти всегда лингвистическое обеспечение отстает в своем развитии от других компонентов АБИС — аппаратурного, программного, технологического, информационного обеспечения. Оно находится в состоянии постоянного совершенствования и развития. В настоящее время интенсивное внедрение в практику работы библиотек новых технических и программных средств, а также новых технологий предъявляет к лингвистическому обеспечению все более высокие требования.

Лингвистическое обеспечение АБИС понимается как применяемая в ее технологиях совокупность информационных языков, словарных баз данных, лингвистических процессов и средств ведения и использования словарей. Оно предназначено обеспечить индексирование документов и запросов, эффективный поиск в документных базах данных по тематическим запросам, лингвистическую совместимость электронного каталога библиотеки с электронными каталогами других библиотек и информационных центров.

Планируя развитие лингвистического обеспечения, нужно прежде всего исходить из потребностей пользователя, которые могут быть многообразны. Лингвистическое обеспечение в полноценной АБИС должно реализовывать тематический поиск отраслевого и предметного типа. Поиск поддерживается различными классификационными системами, словарями и тезаурусами, соответствующими языками индексирования и информационно-поисковыми языками.

В АБИС предпочтительно параллельное использование нескольких классификационных систем (соответственно нескольких языков индексирования и информационно-поисковых языков классификационного типа), что расширяет возможности поиска, совместимости и обмена. Так, УДК по сравнению с Десятичной классификацией Дьюи (ДКД) является более гибкой системой, обладающей богатым набором средств отражения и синтеза информации, что позволяет наиболее полно отображать содержание документа и легко создавать индексы для новых и измененных понятий. Правила построения индексов УДК строго не регламентированы, что приводит к большой свободе интерпретации. Кроме того, эталонный вариант УДК содержит только 61 тыс. записей, а национальные варианты — в два раза большее число записей, что определяет расхождения в индексировании на глубоких уровнях. ДКД свойственна универсальность средств и правил построения индексов и единообразие схемы и практики использования классификации на разных языках.

Таким образом, одна и та же черта классификационной системы, например гибкость УДК, может иметь не только положительную, но и отрицательную сторону, поскольку нарушает ее универсальность и осложняет доступ к информации. Поэтому представляется целесообразным пойти по пути совместного использования УДК и ДКД, что ответит интересам и пользователей, занимающихся поиском документов, и организаций, обменивающихся библиографической информацией. Очевидно, не следует отказываться и от отечественных классификационных систем (ББК, ГРНТИ), поскольку ни одна международная классификационная система не отражает в должной степени российские национальные особенности.

Все отмеченные классификационные системы успешно развиваются. В этом году планируется публикация русского перевода последнего 21-го полного издания ДКД, подготовленного ГПНТБ России, ожидается выход нового 4-го русского издания УДК (пока выпущен только один раздел — третий), готовятся новые варианты таблиц ББК.

Библиотечная практика показывает, что пользователь чаще заинтересован в применении информационных языков вербального типа, чем информационных языков классификационного типа. Классификационные языки обеспечивают в основном поиск по запросам отраслевого характера и обладают большей универсальностью и формализованностью, а вербальные языки — по запросам предметного характера, и именно предметные запросы чаще всего делаются пользователями. В качестве языков индексирования вербального типа могут выступать языки предметных рубрик и ключевых терминов. При этом язык предметных рубрик является менее эффективным средством тематического поиска ввиду отсутствия единой системы предметизации и универсального словаря предметных рубрик, кроме того, не всякая поисковая система может обеспечить поиск целиком по всей рубрике. Поэтому представляется целесообразным использовать в АБИС в качестве информационно-поискового языка вербального типа язык ключевых терминов, а поисковые образы документов вести на языке ключевых терминов или транслировать с языка предметных рубрик на язык ключевых терминов (применяя соответствующий лингвистический процессор).

ГПНТБ России продолжает использовать предметные рубрики в практике индексирования. Ведется база данных предметных рубрик библиотеки. Однако сами индексаторы высказываются в пользу языка ключевых терминов. Пользователи также заинтересованы оперировать ключевыми терминами, которые являются для них наиболее понятным поисковым средством. Кроме того, при данном виде поиска пользователь может обогащать свой запрос, используя тезаурус. Практика показывает, что при поиске с помощью ключевых терминов удается найти большее число релевантных документов, чем при обращении к предметным рубрикам.

Современный уровень автоматизации требует наличия в АБИС словарных баз данных, а также средств их автоматизированного ведения и использования при поиске. Оптимальным вариантом представляется функционирование в рамках АБИС автоматизированной системы словарного обеспечения, которая поддерживает ведение словарей. В ГПНТБ России такая система создана и обеспечивает ведение баз данных ГРНТИ, УДК, тезаурусных и вспомогательных грамматических, используя комплекс процессоров фильтрации и актуализации словарей. Указанная система ориентирована на администраторов словарных баз данных и индексаторов. Читателю словарные базы данных предлагаются в удобном для поиска интерфейсе. Недавно в ГПНТБ России разработан универсальный Windows-интерфейс для словарных систем, который позволяет осуществлять вертикальную и горизонтальную навигацию по словарю, отбирать элементы для поиска и переносить этот запрос в документную базу данных. Создан также аналогичного уровня интерфейс для индексаторов, дающий возможность диалогового индексирования документов с использованием различных словарных баз данных (классификационных и тезаурусных).

В связи с развитием международных межбиблиотечных связей к лингвистическому обеспечению АБИС предъявляются повышенные требования. Желательной становится возможность использования интерфейса на разных языках. В качестве обязательного элемента лингвистического обеспечения приходится вводить процессоры транслитерации. На повестку дня настойчиво встает вопрос о создании многоязычных словарных баз данных. При этом никак нельзя останавливать рутинную работу по ведению традиционных словарных баз данных, поддерживающую их в актуальном состоянии, и более творческую работу по совершенствованию лингвистических процессоров и средств автоматизированного ведения и использования словарных баз данных.