Электронная библиотека ГПНТБ России

Залужская М.В. Интернет в библиотеке, 2003 год

Содержание:

Бредихин О.Д.
Реализация доступа к полнотекстовым базам данных на примере фонда авторефератов диссертация ГПНТБ России

Волкова К.Ю.
Проблема измерения качества в библиотеках: применение к оценке Web-сайтов

Евстигнеева Г.А.
Зарубежный опыт развития альтернативных структур создания и распространения электронных научных публикаций

Елфимова Г.С.
Рекомендации по созданию информационных ресурсов Интернет, доступных для незрячих пользователей

Залужская М.В.
Анализ обслуживания пользователей ГПНТБ России электронными ресурсами в Интернет-среде (на примере Научной Электронной Библиотеке)

Линдеман Е.В.
Особенности организации и технологии корпоративных работ по созданию информационных ресурсов в развивающемся Московском библиотечном консорциуме на современном этапе

Лобанова Э.Ш.
Еще раз о международных машиночитаемых форматах

Маршак М.Б.
Возможности использования базовых принципов работы поискового апарата систем автоматизации библиотек в информационно-поисковых системах Интернета

Рагимова М.А.
Все, что вы можете узнать о Сводном каталоге в Интернет

Сбойчаков К.О.
Автоматизированная система смысловой обработки текстов в Интернет

Скородумов В.А., Соколовский В.В.
Обзор задач и методов смысловой обработки электронных данных

Юдин В.В., Соколова Ю.В.
Обучение с использованием дистанционных технологий: перспективы и реалии

УДК 025.4.036

М.Б. Маршак
старший научный сотрудник НО-1 ГПНТБ России

Возможности использования базовых принципов работы поискового аппарата систем автоматизации библиотек
в информационно-поисковых системах Интернета

На основе проведенного анализа поисковых возможностей самых популярных информационно-поисковых систем (ИПС) Рунета, сделаны выводы об общих принципах организации поиска информации в Интернете и рассмотрена возможность использования поискового аппарата систем автоматизации библиотек в работе ИПС Интернета. Отмечены перспективы развития сети в свете новых технологий представления информации.

Введение

Во второй половине 90–х гг. прошлого столетия проводились исследования некоторого спектра зарубежных поисковых машин на предмет сравнения их функциональных характеристик [1, 2]. Примерно в тоже время в «глобальной паутине» начали появляться информационно-поисковые системы (ИПС) отечественного производства, которые сразу же привлекли к себе пристальное внимание огромной аудитории пользователей Рунета. Объяснение тому тот факт, что ИПС Интернета выполняют не только частные задачи по поиску требуемых пользователем ресурсов сети, но и структурируют и классифицируют информацию. По сути своей, они занимаются «наведением порядка» в море информации, содержащейся во Всемирной паутине, ориентируя пользователя в информационном пространстве сети, которое в настоящее время уже измеряется терабайтами.

Цели, которые преследуют ИПС, входящие в состав систем автоматизации библиотек в основе своей те же, что и у ИПС Интернета. Однако, в отличие от них, значительную роль в функционировании систем автоматизации библиотек играет лингвистическое обеспечение. Именно лингвистическое обеспечение отвечает за такие процессы, как индексирование документов и запросов, эффективный поиск в базах данных по тематическим запросам и межсистемное информационное взаимодействие. Лингвистическое обеспечение в АБИС должно реализовывать как широкотематический, так и узкотематический поиск. Эффективными для поиска по широкотематическим запросам являются классификационные информационные языки (ИЯ), для поиска по узкотематическим запросам – вербальные ИЯ. Следовательно, в составе лингвистического обеспечения систем автоматизации библиотек требуется наличие хотя бы одного классификационного и одного вербального ИЯ. Классификационный язык – информационный язык, предназначенный для индексирования документов и информационных запросов посредством понятий и кодов какой-либо классификационной системы. Именно классификационная система выполняет такие функции, как организационная (систематизация литературы), поисковая (поиск информации) и образовательная (комплексное представление о системе знаний). К числу классификационных ИЯ относятся универсальные классификационные системы (УДК, ДКД, ББК, Классификация Библиотеки Конгресса, Классификация двоеточием Ранганатана, Библиографическая классификация Блисса, МПК, ГРНТИ) и локальные (отраслевые, специальные) классификационные системы. Следовательно, программисты, работающие над созданием ИПС для систем автоматизации библиотек, поставлены в «жесткие рамки» классификационных систем, в отличие от Веб-программистов, создающих ИПС для Интернета, которые в праве создавать свои системы классификации и использовать любой информационно-поисковый язык (ИПЯ).

Чтобы понять, на каких принципах основаны «Инетернетовские поисковики», рассмотрим поисковые возможности самых популярных у пользователей Рунета ИПС, таких как Яндекс (http://www.yandex.ru/), Рамблер (http://www.rambler.ru/) и Апорт (http://www.aport.ru/).

Яндекс

Несомненным лидером среди ИПС Рунета по величине индекса цитирования (числу обращений), исходя из статистических данных (http://www.yandex.ru/cy?base=1), является система Яндекс. На рис.1 показано окно каталога Яндекса, где видны два уровня предложенной разработчиками данной ИПС классификации ресурсов Интернет по типу содержащейся в них информации (Справки, Товары и услуги, Публикации и пр.). Запрос также можно уточнить по региону, которому принадлежит искомый ресурс.

Рис. 1. Каталог Яндекса

На первом уровне тематического дерева каталога Яндекса десять тем, а число уровней в глубину не превышает четырех. Помимо тем, в каталоге имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации), жанру (художественная литература, научно-техническая литература, и т. д.), цели (предложение товаров и услуг, Интернет- представительство) и т. д. Разработчиками Яндекса сформированы группировки ресурсов такие, как справочно-информационные сайты, сайты с предложениями товаров и услуг, Интернет-представительства, сетевые публикации, сайты для общения. Таким образом, в каждой предметной теме (Дом и семья, Наука и образование, Бизнес и экономика и т. п.) пользователь может выделить и просмотреть группу ресурсов.

Сайты в рубриках расположены по убыванию их взвешенного индекса цитируемости. Взвешенный индекс учитывает количество ссылок на сайт с других сайтов, придавая этим ссылкам разный «вес» (то есть значимость) в зависимости от авторитетности ссылающегося сайта.

Каталог Яндекса позволяет найти нужный сайт, сужая область поиска в дополнение к основной рубрикации по темам (Бизнес и экономика, Дом и семья, Развлечения и отдых и пр.).

Рис. 2. Структурная организация каталога Яндекса

На рис. 2 представлена организационная структура каталога Яндекса, состоящая из следующих основных элементов:

1. Темы

Нажатием на ссылку пользователь ограничивает список сайтов выбранной темой.

2. Регионы

Нажатием на ссылку пользователь ограничивает список сайтов выбранным регионом.

3. Справки и ссылки

Каталоги и поиск – онлайновые каталоги, собрания ссылок, поисковики (общие и тематические).
Справочники и базы данных – телефонные и адресные справочники, базы данных вакансий, прикладные справочники и пр.
Энциклопедии и словари – фундаментальные справочные издания и языковые словари.
Советы – советы и инструкции, как что-то сделать.

4. Типы сайтов

Товары и услуги – сайты с предложениями товаров и услуг.
Частные объявления – предложения товаров и услуг от частных лиц: доски объявлений, сайты газет объявлений, сайты индивидуальных предпринимателей.
Организации – Интернет-представительства разных организаций и фирм.
Персоны и группы – личные сайты, домашние страницы, сайты, созданные группами единомышленников, и пр.
Публикации – публикации различных материалов в сети. По этой ссылке пользователь может уточнить свой запрос, выбрав нужный жанр – научно-технический, художественный, научно-популярный и т. п.
Общение – чаты, форумы, конференции.

Для повышения эффективности поиска ИПС позволяет использовать многофункциональный язык запросов, в который включены не только логические операторы булевой алгебры, такие, как И, ИЛИ, И-НЕ (в пределах предложения или документа), но и специальные операторы, позволяющие проводить поиск информации по элементам HTML-кода (тегам). Так же существует возможность задавать расстояния между словами, составляющими запрос, причем вариантов такого поиска шесть. Элементам запроса можно присваивать весовой коэффициент для ранжирования по значимости.

Для составления сложного запроса можно воспользоваться расширенным поиском.

Рамблер

Второй по популярности среди ИПС Рунета, является Рамблер. Одноуровневый каталог (см. рис. 3) представлен 56 разделами, разбитыми по категориям или расположенными в алфавитном порядке (на выбор пользователя). Результатом поиска по дереву каталога является список ссылок на сайты по выбранной категории. Если поиск осуществляется через строку запроса, то результатом его будет список ссылок на ресурсы Интернет, отсортированных по сайтам, страницам и по дате. Роботы Рамблера при сканировании игнорируют поля HTML-кода, такие <meta...>, в которых обычно содержатся ключевые слова и описание ресурса, кроме поля <meta name="robots"...>, в котором прописаны инструкции по индексированию ресурса. Поэтому краткое описание выдаваемых при поиске документов сформировано по содержимому тегов <title> (заголовок страницы), <h1>...<h4> (заголовки внутри текста), <b> (текст, выделенный полужирным шрифтом), <strong> (особо важные фрагменты, выделенные полужирным шрифтом), <u> (подчеркнутый текст).

Рис. 3. Рубрики каталога Рамблера

Язык поисковых запросов состоит в основном из операторов булевой алгебры (И, ИЛИ, НЕ). Можно также осуществлять поиск с применением символов. Например, для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе. Таким образом, двойные кавычки можно использовать для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). В том случае, если возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора, используются скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Для более детального составления поискового запроса существует возможность использовать расширенный поиск.

Апорт

Структура каталога ИПС Апорт несколько похожа на каталог Яндекса. На стартовой странице расположены четырнадцать тематических рубрик с основными разделами (рис. 4). Число уровней вглубь каталога в некоторых случаях доходит до пяти. При перемещении вглубь каталога можно уточнять запрос, указывая географическое расположение требуемых ресурсов (регион, страна, город и т.п.).

Рис. 4. Рубрики первого и второго уровней каталога Апорта

Среди операторов языка запросов, помимо логических операторов булевой алгебры (И, ИЛИ, НЕ), используются операторы, задающие расстояние между словами в запросе, а также специальные операторы, позволяющие осуществлять поиск по адресу Интернет – ресурса (URL), по дате последнего обновления документа, а также по полям HTML- кода, таким как title, keywords, alt, anchor, description, text. Так же можно объединять слова в запросе, использовать принудительное усечение символов и объявление нормальной формы слова.

Апорт, как полнотекстовая поисковая система, индексирует все слова, которые присутствуют на конкретной странице сервера. В результате любое слово из текста документов сервера может служить критерием поиска. Для документов HTML, кроме основного текста документа, индексируются также: заголовок документа (TITLE), ключевые слова (META KEYWORDS), описания страниц (META DESCRIPTION), подписи к картинкам (ALT) и ссылки, как на документы внутри сайта, так и ссылки на внешние ресурсы.

Выдача результатов поиска и сортировка документов производится, исходя из целого перечня критериев:

количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа;
место в тексте, где встречаются поисковые слова (заголовок, описание, мета-тэг и т.п.);
внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);
количество ссылок из Интернета на данный документ;
использование искомого слова в тексте ссылок из Интернета на данный документ.

Структура выдачи результатов поиска по запросу представлена на рис. 5.

Рис. 5. Результаты выдачи по запросу в системе Апорт

Название и адрес сайта.
Описание сайта, сделанное человеком (из каталога апорта).
Ссылка на рубрику каталога, к которой относится найденный по запросу сайт.
Ссылка на результаты поиска по данному сайту (все найденные страницы).
Ссылка на найденный сайт.
Страна или регион России, к которому принадлежит найденный сайт. По ссылке будет произведен поиск по запросу с ограничением области поиска сайтами из этого региона.
Название и адрес лучшего (самого релевантного запросу) документа на сайте.
Цитаты из полного текста документа.
Ссылка на полную реконструкцию текста документа (в случае, если сам сайт недоступен через Интернет).
Рубрики из каталога на тему запроса.

Сравнительный анализ

Что касается вопроса индексирования ресурсов Интернета, то все рассмотренные выше ИПС осуществляют полнотекстовую индексацию. Все источники информации анализируются людьми-редакторами, просматривающими каждый новый сайт до его включения в индекс, или самими составителями описаний с целью составления поискового образа документа (ПОД). Затем проиндексированная информация заносится в соответствующие тематические рубрики базы данных. Сортировка документов по тематической направленности, географическому признаку и т.д., производится соответствующими специалистами по работе с БД той или иной ИПС Интернета. Каталоги обычно организованы в соответствии с предметной классификацией и содержат сведения о Web-страницах (так называемый «видимый» Интернет). Отдельной разновидностью каталога являются рейтинги- счетчики посещений.

Для систем автоматизации библиотек этот процесс более строгий. Индексирование, как правило, проводится на основе непосредственного анализа документа с учетом характера информационно-поискового массива, элементом которого становится ПОД, характера информационных потребностей пользователей, в соответствии с принципами индексирования.

Процесс индексирования для систем автоматизации библиотек включает следующие этапы, которые осуществляют в указанной ниже последовательности:

Анализ и определение содержания документа. При анализе документа индексатору должна быть предоставлена возможность ознакомления с документом в полном объеме.
Выбор понятий, характеризующих содержание документа. При выборе понятий основным критерием является потенциальная ценность понятий для выражения содержания документа или для его поиска.
Выбор терминов индексирования для обозначения понятий. При классификационном индексировании выбор терминов индексирования осуществляется на основе классификационных таблиц и правил индексирования, характерных для классификационной системы.
Формирование поискового образа документа из терминов индексирования. ПОД строится из выбранных терминов индексирования с помощью грамматических средств используемого ЯИ [3].

Различие информационно-поисковых языков ИПС Интернета от их «библиотечных собратьев», в основном, в отсутствии у первых полноценной лингвистической базы. Функции классификационных и вербальных языков, которые обеспечивают широкотематический и узкотематический поиск в системах автоматизации библиотек, в ИПС Интернета выполняют операторы поиска по отдельным полям HTML-кода документа и инструмент сужения области поиска по региональной принадлежности искомого ресурса. В структуре поисковиков Интернета, помимо существующих каталогов и БД, отсутствуют универсальные БД классификационных систем, тезаурусы, предметные рубрики, все то, без чего не может обойтись ни одна система автоматизации библиотек.

Заключение

Хотя, благодаря эффективной работе ИПС Интернета, пользователи сети не оказываются в «информационной яме», четкой информационной структуры весь объем информации сети, к сожалению не имеет. В разных ИПС один и тот же запрос может принадлежать отличным по названию и по содержанию тематическим рубрикам, следовательно, пользователь не сможет сделать однозначного вывода, к какому разделу системы классификации знаний принадлежит на самом деле полученный по его запросу документ.

Одним из решений этой проблемы может явиться попытка создания ИПС, в которой будут учтены все особенности поиска информации в необъятном пространстве Глобальной сети и базовые принципы организации поиска в системах автоматизации библиотек, диктуемые лингвистическим обеспечением АБИС.

Однако здесь возникает ряд существенных проблем. Основной и практически непреодолимой преградой является сама структура Интернета, где превалируют ресурсы, созданные с помощью HTML, который в свою очередь выполняет задачу структурной разметки документов, а никак не смысловой и логической с точки зрения лингвистики. Поисковому роботу понадобится уйма времени, чтобы проанализировать ресурс и выдать свое заключение о том, к какой области системы классификации знаний отнести его.

HTML является лишь намеком на создание четкой информационной структуры, которую в полной мере в настоящее время можно реализовать с помощью XML [4]. По сути HTML в будущем должен оказаться поглощенным XML и стать XHTML – более четкой версией себя самого. XML призван создать новые языки для описания всех типов приложений и документов, что поможет в достаточной мере упростить процесс поиска и нахождения информации, отвечающей запросу пользователя.

XML являет собой, во-первых – протокол хранения и управления информацией, во-вторых – семейство технологий, с помощью которых можно осуществлять все от оформления документов до фильтрации данных, и, в-третьих – философия обработки информации, которая призвана обеспечить максимальную полезность и гибкость данных путем придания им наиболее чистой и структурированной формы.

Понятно, что все многообразие ресурсов Интернета невозможно переделать по стандартам и правилам XML и должно пройти еще немало времени, чтобы информация в Интернете приобрела вид упорядоченной структуры, и поиск был таким же несложным и точным, как в системах автоматизации библиотек.

Литература

Информационно-поисковые системы Internet/П. Храмцов//Открытые системы [Электронный ресурс]. – 1996. – № 3. – Режим доступа: http://www.osp.ru/os/1996/03/46.htm.
Поиск и навигация в Internet/П. Храмцов// Computerworld [Электронный ресурс].– 1996.– № 20.– Режим доступа: http://www.osp.ru/cw/1996/20/31.htm.
Зайцева Е.М. Пути классификационные…//Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы конференции – М., 2000.– Т.1. – С. 391–394.
Рэй Э. Изучаем XML. – Пер. с англ. – СПб: Символ – Плюс, 2001 – 408 с., ил.

На главную