Home page | Каталоги и базы данных

Научные и технические библиотеки

Лавренова О.А.
Российская государственная библиотека, Москва.


Лингвистика информационных систем и
межбиблиотечное сотрудничество

Не останавливаясь на различиях в интерпретации понятия "лингвистическое обеспечение" (ЛО) в современной проектной документации и классической информатике, рассмотрим его разработку для информационных, в частности библиотечных, систем как одну из прикладных задач коммуникативной лингвистики. При этом процесс работы пользователя с системой в режиме диалога будем интерпретировать как вид речевого общения между двумя коммуникантами.

При исследовании диалога между двумя коммуникантами выделяются такие его аспекты, как коммуникативная установка (интенция, намерение) говорящего, пресуппозициональное условие общения, т. е. "общий фон знаний" (база знаний) пользователя и системы, актуальное членение передаваемого говорящим текста (т. е. соотношение нового и старого, известного в структуре его смыслового содержания), а также способы знакового выражения передаваемого смысла, обеспечивающие в совокупности с "фоном знаний" адекватную передачу информации, т. е. согласование передающей и принимающей частей системы коммуникации. Дело в том, что передающему (говорящему) приходится моделировать в своем сознании принимающего (адресата, понимающего), настраиваться на собеседника, точнее - на его систему знаний, способы выражения смысла, коммуникативную установку.

При разработке информационных систем создаются специальные средства ЛО банков данных, которые, по возможности, оптимальным образом формируют условия для необходимого "понимания" в коммуникативной системе "человек - машина" и успешного решения информационно-поисковых задач. Средства формирования этих условий - форматы представления элементов машиночитаемых записей, информационно-поисковые языки (ИПЯ) для тематического или фактографического поиска и структура диалога.

Если не обращать внимания на аспекты речевой коммуникации пользователя и системы, могут создаваться ситуации, когда различия в моделировании ситуации общения, нередко возникающие и в разговоре двух людей, приведут к существенным потерям информации, шуму при поиске или другому неблагоприятному результату.

Причина обращения в библиотеку и, в частности к электронному каталогу (ЭК) - общая коммуникативная установка читателя получить документы (издания, рукописи), обладающие известными ему характеристиками (принадлежность определенному автору, конкретные заглавия, публикации данного издательства, соответствие определенной теме и т. д.), или сведения о наличии (местонахождении) таких документов.

"Установка" АИБС (ЭК) как коммуниканта может быть лишь одна - предоставить пользователю максимально благоприятные условия для поиска и обеспечить отыскание требуемой информации по произвольному сочетанию поисковых признаков. Возможные намерения читателей рассматриваются в ЭК как поисковые задачи. Разработчик ЛО должен в структуре ЛО предусмотреть средства идентификации соответствующих поисковых признаков и методы их выявления в записях базы данных. Естественно, это выливается в разработку предмашинных форматов представления элементов записей (например библиографических или авторитетных/нормативных) и средств отображения смыслового содержания документов.

Приступая к диалогу с ЭК, читатель предполагает (может быть, неосознанно, по аналогии с обращением к человеку) в качестве предварительного условия наличие у электронного каталога некоторых необходимых "знаний" энциклопедического характера, в частности об иерархических или ассоциативных связях между понятиями. Кроме того, читатель вправе требовать от ЭК "понимания", что такое "автор", "год издания" или "тема", иначе могут возникнуть недоразумения, не говоря о значительном увеличении времени поиска по каждой характеристике путем сплошного просмотра машиной библиографических записей (БЗ) в базе данных ЭК.

Разумно считать, что ЭК должен приспособиться к читателю в соответствии со своей "установкой", и в меньшей степени - читатель к каталогу. В связи с этим разработчик обеспечивает пресуппозициональные условия (предварительную договоренность, предварительные условия) коммуникации, в данном случае - общий фон знаний коммуникантов.

Знания библиографического характера, как это принято в большинстве систем, задаются машине в виде упомянутого предмашинного формата. Так называемые энциклопедические знания о структуре предметных областей фиксируются в специальной базе данных ЭК, условно называемой базой знаний и имеющей вид словаря-тезауруса или классификации.

Как правило, в библиотеках используются также такие вспомогательные картотеки или справочники, как "Картотека разночтений иностранных фамилий", "Наименование организаций" (переименование организаций, варианты наименований, аббревиатуры) и т. п. Их ввод в электронный каталог в форме нормативных записей означает формирование целого ряда справочных баз данных в качестве дополнительного пресуппозиционального условия успешного общения читателя с ЭК. Действительно, фиксация допустимых способов выражения одного и того же понятия дает возможность читателю и ЭК путем обращения того или другого из них в справочные базы данных обеспечить однозначность выражения и восприятия смысла в диалоге. Такую же роль согласования лексики общения с системой выполняют перечни допустимых значений отдельных элементов БЗ. Хорошие примеры - перечни кодов названий стран, видов носителей информации, кодов языков и т. д. Здесь необходимость взаимодействия библиотек несомненна.

В отношении подготовки форматов сотрудничество между библиотеками России и других стран достаточно развито. Примерами могут служить международные конференции и семинары по форматам UNIMARC и USMARC, рабочие группы по подготовке коммуникативных форматов для библиографических и нормативных (авторитетных) записей на основе UNIMARC-форматов для соответствующих записей. О деятельности этих групп регулярно говорилось в докладах на Крымских конференциях. На этот раз можно сообщить, что первый вариант формата для нормативных/авторитетных записей готов и передается на рассмотрение тем библиотекам, специалистов которых интересует участие в его доработке. Некоторые из принятых межбиблиотечной рабочей группой принципиальных решений по содержанию и структуре формата предложены нашим зарубежным коллегам для возможного использования в UNIMARC/Authorities.

Несколько лет назад ГБЛ (РГБ) предложила отечественному библиотечному сообществу как основу для национального формата машиночитаемой каталогизации формат РГБМАРК (RSLMARC), называвшийся одно время RUSMARC. Он разработан на основе USMARC, принят ГБЛ в 1971 г., проходил отладку и развивался 26 лет, а примерно 12-14 лет используется в библиотеке в промышленном режиме. В этом формате подготовлены 500 тыс. машиночитаемых библиографических записей иностранных книг с 1985 г., отечественных книг, поступивших из РКП с июля 1994 г., русских книг XIX в., диссертаций, авторефератов, рукописей, архивных документов, нотных и картографических изданий. При этом на основе записей в РГБМАРК по машинной технологии печатались каталожные карточки, сводные печатные каталоги и описи рукописных фондов. Формат разработан почти для всех видов документов (кроме патентов, технической документации, звукозаписей).

В настоящее время в соответствии со специальным соглашением РГБ участвует в совместных исследованиях со специалистами Библиотеки Конгресса США, Национальной библиотеки Канады и Британской библиотеки, направленных на сближение наших форматов с целью создания единого формата представления элементов библиографических записей для указанных библиотек.

Что касается обеспечения "взаимопонимания" между читателем и ЭК на основе "базы знаний", то РГБ предлагает в качестве таковой использовать формализованную и модернизированную Библиотечно-библиографическую классификацию (ББК) в машиночитаемом виде с предметным входом в нее.

В качестве поискового аргумента пользователь ЭК вводит гипотетический набор понятий, выраженных словами естественного языка. Программное обеспечение демонстрирует при выводе на экран варианты наименований делений классификации, связанных с этими словами, и показывает семантические отношения между наименованиями. Затем пользователь выбирает нужную тему (предмет), и система показывает на экране библиографические записи. При этом индексы можно не использовать.

Это соответствие между предметами (понятиями, терминами) и наименованиями мы называем "предметным входом, или доступом" в ЭК или классификации. Предметный доступ может служить средством соединения лексических единиц различных естественных языков с делениями различных классификаций и дескрипторов различных тезаурусов. Пользователь сможет увидеть наименования делений из различных классификаций, связанные с поисковым аргументом.

В качестве проекта будущего можно представить себе банк данных, содержащий многоязычный словарь слов и словосочетаний, которые связаны с нормативными (авторитетными) записями для различных классификаций и тезаурусов. Использование такого массива данных полезно при поиске в чужих БД. Библиотеки не будут зависеть при этом от различий в языке и типе классификации собственного ЭК и приобретенной БД или БД на чужом компьютере. Такой проект может способствовать организации тематического поиска в Интернет.

Небольшим экспериментом в данном направлении можно считать выпуск в 1995 г. несколькими организациями общего CD-ROM "Классификационные системы". Программное обеспечение, используемое на этом диске, позволяет искать по слову одновременно в разных классификациях и классификаторах, получая на экране список отобранных делений (рубрик).

Формирование двусторонних переводных таблиц между различными классификациями представляется, с этой точки зрения, нерациональным.

Как это ни печально, но работы по подготовке машиночитаемых таблиц ББК существенно задерживаются, так как постепенно из РГБ уходят специалисты по классификации и дополнительного финансирования давно нет. Чувствуя свою ответственность перед библиотеками страны, РГБ, разумеется, эту работу завершит, возможно, ориентируясь и на сотрудничество с коллегами из других библиотек.

Многие библиотеки в наше время решили использовать в своих автоматизированных системах тезаурусы, но при этом чувствуется, что ими почти не учитывается прежний опыт в этой области, накопленный при создании ИПС.

Первые предложения об использовании тезаурусов в ИПС появились в 1957 г., а первые тезаурусы для повышения качества поисковых процессов созданы в начале 1960-х гг. В 1960-1970-е гг. полностью разработана теория информационно-поисковых тезаурусов, опубликованы десятки, если не сотни работ зарубежных и отечественных авторов. В связи с этим сообщения Крымской конференции о создании объединенных словников библиотек и о снижении полноты поиска при возрастании массива библиографических записей до 8 тыс. повергают в уныние, а распространение в библиотечных системах поиска без тезауруса по свободным ключевым словам, выбираемым индексатором, возвращает библиотеки в 1960-1970-е гг. Хотелось бы обратить внимание на необходимость использования соответствующего опыта прежних лет теми разработчиками или библиотеками, которые по разным причинам предпочли классификациям ключевые слова как средство отображения смыслового содержания документов и тематического поиска.

В публикациях предлагаются методические принципы сбора и лексикографической обработки ключевых слов (КС), принципы установления семантических отношений между ними, описывается стандартная структура тезауруса.

Мы предлагаем метод построения тезаурусов по категориальному принципу. Этот метод основан на концептуальной модели системы знаний и использовался в ряде ИПС.

Язык представления знаний рассматривается в структуре человеческой деятельности, а формализация семантики состоит в вычленении и формализованном представлении некоторых компонентов деятельности. Способ моделирования знаний базируется на гипотезе об организации знаний в человеческом сознании при поиске информации в массиве текстов.

Каждая область деятельности человека (отрасль науки, техники, хозяйства) выделяется из ряда других либо по объекту деятельности, либо по специфике составляющих данную деятельность процессов, либо по средствам осуществления некоторого класса процессов. Краткое определение области деятельности можно дать, как правило, с помощью пары вида <"предметы", "процессы">, <"процессы", "предметы"> или тройки <"предмет", "процесс", "предмет">, <"процесс", "предмет", "процесс">, в которых один из элементов выступает в качестве ведущего.

В результате выделяются следующие семантические категории элементов: процессы целесообразной деятельности, или просто "процессы"; объекты деятельности и ее средства, т. е. "предметы" как некие материальные или идеальные сущности (вещи, лица, теории, конструкты и т. д.); элементы, характеризующие "процессы" или "предметы" или являющиеся следствием их осуществления, существования, появления ("сопутствующие процессы, явления, состояния"), "отрицательные явления", "характеристики" и "условия".

Дальнейшее распределение по более узким категориям выливается в процесс построения иерархических деревьев по отношению "род-вид".

При этом в одни и те же точки ветвей этих деревьев попадают КС, семантически условно эквивалентные в данной области знания с точки зрения интересов информационного поиска. Они образуют дескрипторы.

Полагаем, что использование КС и тезаурусов целесообразно лишь в специальных библиотеках, с каталогами по достаточно ограниченной тематике. В универсальных библиотеках это в настоящее время ведет либо к неоправданным затратам на непомерно трудоемкие разработки, либо при их отсутствии - к очень большим, вначале незаметным, но невосполнимым потерям информации при поиске.

Однако хочется позавидовать тем специалистам, которые возьмут на себя труд создать тезаурусы для поиска в электронных каталогах рукописей и старых книг. Это интереснейшее направление будущего сотрудничества библиотек. (В РГБ тезаурусы используются в электронной библиографической энциклопедии "Мир профессий".)

Если быть последовательными в стремлении к лингвистической интерпретации диалога "читатель - ЭК", то целесообразно обратить внимание на еще одну характеристику текста, трактуемую в языковедческих работах, его актуальное членение, т. е. членение смысла текста на тему (известное) и рему (новое, сообщаемое).

По аналогии с теорией актуального членения текста в лингвистике, можно считать, что, выдавая на экран меню и маски в качестве сообщаемого (ремы), ЭК задает темы текстов - ответов пользователя. Тексты - ответы получаются путем ввода пользователем ремы для предложенной темы в виде текста при заполнении экранных масок или номеров выбранных строк меню.

Надо полагать, что разрабатываемые для ЭК экранные тексты оказываются тем более работоспособными, чем полнее и точнее выражают будущую тему текста читателя и чем меньших знаковых средств выражения ремы требуют для формирования полноценного текста - ответа читателя. Очевидно, что в человеко-машинной системе речевой коммуникации однозначно понимаемая тема (о чем говорится на данном шаге диалога) и максимально ограниченные способы выражения ремы становятся одним из залогов успеха работы ЭК при поиске. ЭК как бы ведет диалог по системе "подсказка читателю". Маска, меню, HELP и уточнение способов выражения по справочным базам данных представляют собой не что иное, как 4 типа подсказки. Надо полагать, в этом и заключается смысл совершенствования структуры диалогов в информационных системах.

Лингвист - это профессия, а не должность. Как каталогизация или программирование требуют специального образования, так и для занятия лингвистическим обеспечением АИБС целесообразно иметь соответствующую профессиональную подготовку.

Чтобы сэкономить затраты труда на принятие проектных решений и разработку ЛО при создании АИБС, избежать в дальнейшем трудноисправимых ошибок, необходимо создать некое профессиональное объединение специалистов, занимающихся лингвистикой библиотечных систем, возможно, под эгидой Межведомственного экспертного совета по автоматизации, а также подготовить специальные методические пособия для российских библиотек.

Copyright © 1995-97 ГПНТБ России