Научные и технические библиотеки

Научные и технические библиотеки

Захаров В.П. Библиотека Российской академии наук, С.-Петербург Особенности поисковых средств в информационных сетях с архитектурой "клиент-сервер" В настоящее время мощность документных потоков возросла настолько, что ощущается потребность в нетривиальных языковых средствах, которые вернули бы результатам поиска "человеческие" масштабы. В сферу электронного документооборота и информационного поиска на полных правах вошел естественный язык - по сути, много разных естественных языков. И это также требует развития специальных средств обработки естественно-языковой информации. Среди этой информации можно выделить: 1) электронные издания (как компьютерные аналоги "бумажных" изданий, так и существующие исключительно в электронном виде); 2) электронные библиотеки - книжно-журнальная продукция, хранящаяся в фондах библиотек, которая отображается в электронном виде (современные технологии, базирующиеся на сканерах и программном обеспечении распознавания текстовой информации, позволяют делать это легко и в больших объемах); 3) "данные целевого назначения" - тексты, вводимые в компьютер специально для решения тех или иных задач; 4) разнообразные информационные массивы сети Интернет - как "лежащие" на серверах, так и циркулирующие по сети посредством электронной почты в виде сообщений телеконференций (USENET groups); 5) "побочные" продукты издательской деятельности. Отметим несколько "точек", где многолетняя борьба "тезисов" и "антитезисов" сейчас дает "синтез" новой реальности информационного поиска. Основные из них: 1) интеграция - дезинтеграция. Интеграция: наблюдается смешение, слияние систем разного типа (системы НТИ, библиотечные, системы средств масс-медиа, финансовые и т. п.) как на уровне непосредственно функционирования, так и на уровне применяемых средств. Дезинтеграция: если раньше ИПС разрабатывали и эксплуатировали в одном месте, то сегодня и как база данных, и как поисковое средство ИПС распределены в пространстве; 2) с тезаурусом - без тезауруса. Вся история развития документных ИПС "вертится" вокруг "ядра" информационного поиска - методов работы с лексикой и способов ее нормирования. Победа бестезаурусного подхода в 1980-е г., конечно же, оказалась временной: в современных ИПС необходимость различного рода машинных словарей бесспорна. И они возрождаются во многих системах, но уже в новой роли; 3) текст - гипертекст. В свое время на смену системам, работающим с неструктурированным текстом, пришли гипертекстовые системы, очень простые и привлекательные для пользователей. Но восторг быстро сменился пониманием того, что эти системы очень трудоемки в части обработки документов и весьма неэффективны с точки зрения поиска; развитие их, казалось, застопорилось. Однако сейчас, в эпоху безбумажной технологии, они наконец оказались востребованными, но на новом уровне: современные системы обычно представляют собой гибрид гипертекста и полнотекстовой ИПС. Современные системы, как правило, должны решать проблемы поиска полнотекстовых документов. Совершенно очевидно, что для работы с полными текстами требуется специальное программное и лингвистическое обеспечение. При поиске в полнотекстовых базах данных в первую очередь приходится сталкиваться с проблемами быстродействия и качества поиска. Повышенные требования к скорости поиска достаточно очевидны, когда поиск ведется по полным текстам документов (при этом в качестве отдельных документов могут выступать статьи и целые книги). Под качеством понимается эффективность выполнения основной функции любой ИПС - поисковой. Для оценки результатов поиска используются хорошо известные характеристики полноты и точности. В обычных дескрипторных системах "золотая середина" между полнотой и точностью лежит на пути предварительной интеллектуальной обработки текста, в результате которой появляется специальный поисковый образ документа, по которому и проводится поиск. Совершенно иная ситуация возникает при работе с полным текстом. В этом случае "естественного компромисса" между полнотой и точностью достичь обычно не удается, а именно: при приемлемой полноте мы имеем, как правило, большой информационный шум (и следовательно, низкую точность). Наиболее очевидный способ борьбы с шумом в этой ситуации - усложнение лингвистического обеспечения, в частности языка запросов. Системы для полнотекстового поиска появились совсем недавно. Основной недостаток западных программных продуктов с точки зрения использования их в России - ориентированность на языки агглютинативного типа (прежде всего английский). Системы же, работающие с текстами на русском языке, обязательно должны учитывать его флективность. Это важно для обеспечения как скорости, так и качества поиска. Сейчас уже имеются системы, предназначенные для обработки русскоязычной полнотекстовой информации (АРТЕФАКТ, АПОРТ и др.). Другой способ работы с полными текстами - использование различных способов навигации по тексту, характерных для различных так называемых гипертекстовых систем. Фактически предварительная гипертекстовая разметка текста является своего рода аналогом построения поискового образа документа, но при этом исходный текст остается неизменным и доступным для работы. Гипертекст представляет собой нелинейную, сетевую форму организации текстового и другого (например мультимедиа) материала. Предварительно текст членится на фрагменты, и для них указываются возможные связи, при помощи которых можно переходить от одного фрагмента к другому. Все стандартные браузеры для сети Интернет используют способы представления текстов, основанные на языке HTML. Вместо поиска информации в гипертекстовых ИПС главное - навигация, т. е. перемещение от одних элементов к другим по ссылкам с учетом их семантической или другой смежности. Гипертекстовая организация данных реализуется как внутри отдельного документа, так и на множестве документов, лежащих подчас на разных серверах. Для данных систем характерны меню-ориентированные способы навигации. Тем самым гипертекст значительно облегчает работу пользователя и предоставляет ему новые возможности работы с текстовым материалом. Особенно широкое распространение подобные системы получили в Интернет. Это и понятно: с одной стороны, миллионы неподготовленных пользователей, с другой - появление в сетях больших объемов полнотекстовой и другой разнообразной информации. В известном смысле гипертекстовые ИПС возвращают нас к тому, от чего мы ушли в традиционном дескрипторном поиске, а именно: к этапу предмашинной интеллектуальной обработки (в данном случае разметки) документа или совокупности информационных объектов. Распределение документов по группам в соответствии с уровнями иерархических меню также требует предварительной работы. В связи с этим возникает проблема не только количества труда, необходимого для выполнения всех этих работ, но и их качества, от которого во многом зависит успех и (или) удовлетворение пользователя. При поиске в Интернет дополнительные проблемы возникают как по причине самой природы Интернет как сети сетей (десятков тысяч сетей!), так и в связи с объемами информации. Естественно, организация "гипертекстового универсума" в Интернет оставляет желать лучшего. Методология "свободного плавания" и "открытого доступа к фондам" хороша, может быть, для маленьких хранилищ, но не для интернетовских лабиринтов. Не случайно, лексикон адептов сети напоминает выражения грибников: здесь он "наткнулся" на потрясающую базу данных, а там "забрел" в неведомый FTP-архив. Конечно, свободное плавание по морю Интернет - интересное времяпрепровождение, но как метод поиска это можно рассматривать только до тех пор, пока не придумано ничего лучшего. Проблема автоматизации поиска ресурсов в сети была осознана достаточно быстро, и в ответ появились различные системы и программные инструменты для работы в этом сетевом хаосе. Среди них следует назвать Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли "клиенты" и "серверы" всемирной "паутины" WWW. В WWW появились специализированные поисковые службы, ведущие базы данных о базах данных и организующие поиск по всей сети (cyberspace). Обратившись в какую-либо службу, мы, не выходя из браузера, работаем с "клиентом" этой службы, предоставляющим нам тот или иной язык запросов. Как правило, это языки без контроля лексики. Фактически мы имеем дело с нормальным ИПЯ, реализованным в архитектуре "клиент-сервер", но видим только "надводную" часть этого ИПЯ - язык запросов. Выделим основные элементы, присутствующие в языках запросов сетевых информационных служб. Во многих из них различаются простые (simple, quick и др.) и сложные (power, advanced и др.) запросы (ALTA VISTA, EXCITE, OPEN TEXT INDEX и др.). В рассмотренных языках можно выделить следующие элементы: 1) собственно поисковые элементы (объекты поиска). Различают дескрипторы (имена понятий) и ключевые слова. "Слова" могут объединяться в "жесткие словосочетания", называемые phrase; 2) поисковые операторы. Почти во всех языках запросов используются булевские логические операторы И, ИЛИ, НЕ. Форма, в которой эти операторы задаются в запросе, самая разная как в отдельных службах, так и в типах запросов (простой, сложный); 3) нормализация элементов запроса. Одни и те же лексические единицы в документах и запросах могут быть представлены в разной форме. В поисковых службах имеются способы нормализации таких лексических единиц. Эта нормализация может задаваться и осуществляться совершенно по-разному: в языке запросов самим пользователем, в поисковых алгоритмах, о которых пользователь ничего не знает, на уровне "советов" в сеансе поиска и т. д. Наиболее мощным и известным инструментом для этого является механизм "усечения" (truncation) или "маскирования" (wildcards); 4) линейная грамматика: порядок следования поисковых элементов и расстояние между ними. Во-первых, это "фразы" (жесткие словосочетания), о которых уже говорилось. Во-вторых, существуют специальные контекстные операторы (контекстное И), когда условие совместного вхождения элементов запроса в документ должно выполняться в контексте определенной длины. Наиболее часто для этого используется оператор NEAR. Контекст (величина диапазона) действия этого оператора разный в различных службах; 5) критерий смыслового соответствия (КСС). Он задает правила (условия) признания документов соответствующими запросу и их выдачи (невыдачи) в результатах поиска. КСС может задаваться явно или неявно. Наиболее общие случаи - простой поиск по одному или нескольким словам с упорядочением (ранжированием) выдачи. Для ранжирования выдачи используется весовой КСС, когда по определенным правилам вычисляется степень близости документа и запроса, выражаемая каким-либо числом; 6) дополнительные условия поиска. Для уменьшения объема выдачи и повышения точности используются различные дополнительные условия поиска, как-то: поиск в определенных полях (частях) документа, ограничение области поиска, модификаторы поиска (временной интервал применительно к дате создания документа и т. п.); 7) требования к форме представления результатов поиска: сортировка (ранжирование) выдаваемых результатов поиска, вид выдаваемых результатов, количество выдаваемых документов. Для получения самих документов (Web-страниц) и их просмотра необходимо отправиться по http-адресу. Некоторые системы предоставляют возможность посмотреть контекст - фрагменты документов с выделенными ключевыми словами запроса. В процессе поиска пользователю дается возможность вернуться к старому запросу и либо просто уточнить, сузить его, либо перейти в другой режим поиска, предоставляющий более сложные поисковые средства. Довольно широко распространен еще один способ поиска - по образцу (search similar pages). При этом стратегия поиска выбирается самой системой. Проделанная нами работа по сравнению языков запросов показывает их сложность и разнообразие. Естественно, эффективность поиска зависит не только от правильно составленного запроса. Информационные службы значительно отличаются одна от другой и по множеству характеристик. Среди них - особенности поисковой системы (search engine), способы и методы сканирования Web-пространства, частота обновления поисковых файлов, способы индексирования и др. Совершенно очевидно, что сегодня поиск в рамках одной службы, как правило, не обеспечивает нужной полноты. При поиске же в нескольких службах остро встают проблемы терминологии и перевода запроса с одного языка на другой. Важное средство унификации языковых средств - протокол Z39.50, появившийся еще до сформирования "всемирной паутины". Долгое время в информационном поиске витала идея единого командного языка. Трансформацию этой идеи можно увидеть в Z39.50. Протокол определяет форматы и процедуры, управляющие обменом сообщений между клиентом и сервером, и позволяет клиенту посылать на сервер запрос на поиск в базе данных. Может показаться, что WWW-интерфейс отменяет Z39.50. Представляется, что это не совсем так. Разработчики WWW-интерфейсов фактически создают конверторы запросов, которые переводят язык запросов из "очеловеченной" формы на поисковый язык. Z39.50 мог бы сыграть здесь роль языка-посредника.

Захаров В.П.
Библиотека Российской академии наук, С.-Петербург

Особенности поисковых средств в информационных сетях с архитектурой "клиент-сервер"

В настоящее время мощность документных потоков возросла настолько, что ощущается потребность в нетривиальных языковых средствах, которые вернули бы результатам поиска "человеческие" масштабы. В сферу электронного документооборота и информационного поиска на полных правах вошел естественный язык - по сути, много разных естественных языков. И это также требует развития специальных средств обработки естественно-языковой информации.

Среди этой информации можно выделить:

1) электронные издания (как компьютерные аналоги "бумажных" изданий, так и существующие исключительно в электронном виде);

2) электронные библиотеки - книжно-журнальная продукция, хранящаяся в фондах библиотек, которая отображается в электронном виде (современные технологии, базирующиеся на сканерах и программном обеспечении распознавания текстовой информации, позволяют делать это легко и в больших объемах);

3) "данные целевого назначения" - тексты, вводимые в компьютер специально для решения тех или иных задач;

4) разнообразные информационные массивы сети Интернет - как "лежащие" на серверах, так и циркулирующие по сети посредством электронной почты в виде сообщений телеконференций (USENET groups);

5) "побочные" продукты издательской деятельности.

Отметим несколько "точек", где многолетняя борьба "тезисов" и "антитезисов" сейчас дает "синтез" новой реальности информационного поиска.

Основные из них:

1) интеграция - дезинтеграция. Интеграция: наблюдается смешение, слияние систем разного типа (системы НТИ, библиотечные, системы средств масс-медиа, финансовые и т. п.) как на уровне непосредственно функционирования, так и на уровне применяемых средств. Дезинтеграция: если раньше ИПС разрабатывали и эксплуатировали в одном месте, то сегодня и как база данных, и как поисковое средство ИПС распределены в пространстве;

2) с тезаурусом - без тезауруса. Вся история развития документных ИПС "вертится" вокруг "ядра" информационного поиска - методов работы с лексикой и способов ее нормирования. Победа бестезаурусного подхода в 1980-е г., конечно же, оказалась временной: в современных ИПС необходимость различного рода машинных словарей бесспорна. И они возрождаются во многих системах, но уже в новой роли;

3) текст - гипертекст. В свое время на смену системам, работающим с неструктурированным текстом, пришли гипертекстовые системы, очень простые и привлекательные для пользователей. Но восторг быстро сменился пониманием того, что эти системы очень трудоемки в части обработки документов и весьма неэффективны с точки зрения поиска; развитие их, казалось, застопорилось. Однако сейчас, в эпоху безбумажной технологии, они наконец оказались востребованными, но на новом уровне: современные системы обычно представляют собой гибрид гипертекста и полнотекстовой ИПС.

Современные системы, как правило, должны решать проблемы поиска полнотекстовых документов. Совершенно очевидно, что для работы с полными текстами требуется специальное программное и лингвистическое обеспечение. При поиске в полнотекстовых базах данных в первую очередь приходится сталкиваться с проблемами быстродействия и качества поиска. Повышенные требования к скорости поиска достаточно очевидны, когда поиск ведется по полным текстам документов (при этом в качестве отдельных документов могут выступать статьи и целые книги).

Под качеством понимается эффективность выполнения основной функции любой ИПС - поисковой. Для оценки результатов поиска используются хорошо известные характеристики полноты и точности. В обычных дескрипторных системах "золотая середина" между полнотой и точностью лежит на пути предварительной интеллектуальной обработки текста, в результате которой появляется специальный поисковый образ документа, по которому и проводится поиск. Совершенно иная ситуация возникает при работе с полным текстом. В этом случае "естественного компромисса" между полнотой и точностью достичь обычно не удается, а именно: при приемлемой полноте мы имеем, как правило, большой информационный шум (и следовательно, низкую точность). Наиболее очевидный способ борьбы с шумом в этой ситуации - усложнение лингвистического обеспечения, в частности языка запросов.

Системы для полнотекстового поиска появились совсем недавно.

Основной недостаток западных программных продуктов с точки зрения использования их в России - ориентированность на языки агглютинативного типа (прежде всего английский). Системы же, работающие с текстами на русском языке, обязательно должны учитывать его флективность. Это важно для обеспечения как скорости, так и качества поиска. Сейчас уже имеются системы, предназначенные для обработки русскоязычной полнотекстовой информации (АРТЕФАКТ, АПОРТ и др.).

Другой способ работы с полными текстами - использование различных способов навигации по тексту, характерных для различных так называемых гипертекстовых систем. Фактически предварительная гипертекстовая разметка текста является своего рода аналогом построения поискового образа документа, но при этом исходный текст остается неизменным и доступным для работы.

Гипертекст представляет собой нелинейную, сетевую форму организации текстового и другого (например мультимедиа) материала. Предварительно текст членится на фрагменты, и для них указываются возможные связи, при помощи которых можно переходить от одного фрагмента к другому. Все стандартные браузеры для сети Интернет используют способы представления текстов, основанные на языке HTML. Вместо поиска информации в гипертекстовых ИПС главное - навигация, т. е. перемещение от одних элементов к другим по ссылкам с учетом их семантической или другой смежности. Гипертекстовая организация данных реализуется как внутри отдельного документа, так и на множестве документов, лежащих подчас на разных серверах. Для данных систем характерны меню-ориентированные способы навигации. Тем самым гипертекст значительно облегчает работу пользователя и предоставляет ему новые возможности работы с текстовым материалом. Особенно широкое распространение подобные системы получили в Интернет. Это и понятно: с одной стороны, миллионы неподготовленных пользователей, с другой - появление в сетях больших объемов полнотекстовой и другой разнообразной информации.

В известном смысле гипертекстовые ИПС возвращают нас к тому, от чего мы ушли в традиционном дескрипторном поиске, а именно: к этапу предмашинной интеллектуальной обработки (в данном случае разметки) документа или совокупности информационных объектов. Распределение документов по группам в соответствии с уровнями иерархических меню также требует предварительной работы. В связи с этим возникает проблема не только количества труда, необходимого для выполнения всех этих работ, но и их качества, от которого во многом зависит успех и (или) удовлетворение пользователя.

При поиске в Интернет дополнительные проблемы возникают как по причине самой природы Интернет как сети сетей (десятков тысяч сетей!), так и в связи с объемами информации. Естественно, организация "гипертекстового универсума" в Интернет оставляет желать лучшего.

Методология "свободного плавания" и "открытого доступа к фондам" хороша, может быть, для маленьких хранилищ, но не для интернетовских лабиринтов. Не случайно, лексикон адептов сети напоминает выражения грибников: здесь он "наткнулся" на потрясающую базу данных, а там "забрел" в неведомый FTP-архив.

Конечно, свободное плавание по морю Интернет - интересное времяпрепровождение, но как метод поиска это можно рассматривать только до тех пор, пока не придумано ничего лучшего.

Проблема автоматизации поиска ресурсов в сети была осознана достаточно быстро, и в ответ появились различные системы и программные инструменты для работы в этом сетевом хаосе. Среди них следует назвать Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли "клиенты" и "серверы" всемирной "паутины" WWW.

В WWW появились специализированные поисковые службы, ведущие базы данных о базах данных и организующие поиск по всей сети (cyberspace). Обратившись в какую-либо службу, мы, не выходя из браузера, работаем с "клиентом" этой службы, предоставляющим нам тот или иной язык запросов. Как правило, это языки без контроля лексики. Фактически мы имеем дело с нормальным ИПЯ, реализованным в архитектуре "клиент-сервер", но видим только "надводную" часть этого ИПЯ - язык запросов.

Выделим основные элементы, присутствующие в языках запросов сетевых информационных служб. Во многих из них различаются простые (simple, quick и др.) и сложные (power, advanced и др.) запросы (ALTA VISTA, EXCITE, OPEN TEXT INDEX и др.).

В рассмотренных языках можно выделить следующие элементы:

1) собственно поисковые элементы (объекты поиска). Различают дескрипторы (имена понятий) и ключевые слова. "Слова" могут объединяться в "жесткие словосочетания", называемые phrase;

2) поисковые операторы. Почти во всех языках запросов используются булевские логические операторы И, ИЛИ, НЕ. Форма, в которой эти операторы задаются в запросе, самая разная как в отдельных службах, так и в типах запросов (простой, сложный);

3) нормализация элементов запроса. Одни и те же лексические единицы в документах и запросах могут быть представлены в разной форме. В поисковых службах имеются способы нормализации таких лексических единиц. Эта нормализация может задаваться и осуществляться совершенно по-разному: в языке запросов самим пользователем, в поисковых алгоритмах, о которых пользователь ничего не знает, на уровне "советов" в сеансе поиска и т. д. Наиболее мощным и известным инструментом для этого является механизм "усечения" (truncation) или "маскирования" (wildcards);

4) линейная грамматика: порядок следования поисковых элементов и расстояние между ними. Во-первых, это "фразы" (жесткие словосочетания), о которых уже говорилось. Во-вторых, существуют специальные контекстные операторы (контекстное И), когда условие совместного вхождения элементов запроса в документ должно выполняться в контексте определенной длины. Наиболее часто для этого используется оператор NEAR. Контекст (величина диапазона) действия этого оператора разный в различных службах;

5) критерий смыслового соответствия (КСС). Он задает правила (условия) признания документов соответствующими запросу и их выдачи (невыдачи) в результатах поиска. КСС может задаваться явно или неявно. Наиболее общие случаи - простой поиск по одному или нескольким словам с упорядочением (ранжированием) выдачи. Для ранжирования выдачи используется весовой КСС, когда по определенным правилам вычисляется степень близости документа и запроса, выражаемая каким-либо числом;

6) дополнительные условия поиска. Для уменьшения объема выдачи и повышения точности используются различные дополнительные условия поиска, как-то: поиск в определенных полях (частях) документа, ограничение области поиска, модификаторы поиска (временной интервал применительно к дате создания документа и т. п.);

7) требования к форме представления результатов поиска: сортировка (ранжирование) выдаваемых результатов поиска, вид выдаваемых результатов, количество выдаваемых документов.

Для получения самих документов (Web-страниц) и их просмотра необходимо отправиться по http-адресу. Некоторые системы предоставляют возможность посмотреть контекст - фрагменты документов с выделенными ключевыми словами запроса.

В процессе поиска пользователю дается возможность вернуться к старому запросу и либо просто уточнить, сузить его, либо перейти в другой режим поиска, предоставляющий более сложные поисковые средства. Довольно широко распространен еще один способ поиска - по образцу (search similar pages). При этом стратегия поиска выбирается самой системой.

Проделанная нами работа по сравнению языков запросов показывает их сложность и разнообразие.

Естественно, эффективность поиска зависит не только от правильно составленного запроса. Информационные службы значительно отличаются одна от другой и по множеству характеристик. Среди них - особенности поисковой системы (search engine), способы и методы сканирования Web-пространства, частота обновления поисковых файлов, способы индексирования и др.

Совершенно очевидно, что сегодня поиск в рамках одной службы, как правило, не обеспечивает нужной полноты. При поиске же в нескольких службах остро встают проблемы терминологии и перевода запроса с одного языка на другой.

Важное средство унификации языковых средств - протокол Z39.50, появившийся еще до сформирования "всемирной паутины". Долгое время в информационном поиске витала идея единого командного языка. Трансформацию этой идеи можно увидеть в Z39.50. Протокол определяет форматы и процедуры, управляющие обменом сообщений между клиентом и сервером, и позволяет клиенту посылать на сервер запрос на поиск в базе данных. Может показаться, что WWW-интерфейс отменяет Z39.50. Представляется, что это не совсем так. Разработчики WWW-интерфейсов фактически создают конверторы запросов, которые переводят язык запросов из "очеловеченной" формы на поисковый язык. Z39.50 мог бы сыграть здесь роль языка-посредника.