Научные и технические библиотеки №10 2003 год
Содержание:

Литвинова Н.Н. Российские библиотеки в современной языковой ситуации

Бородина С.Д. Трудный ответ на простой вопрос, или вновь о системе Библиотека

Белюкин В.А., Хургин В.М. Основные направления деятельности публичных центров правовой информации

Калюжная Т.А. Организация использования электронных изданий на компакт-дисках в ГПНТБ СО РАН

Павлова Н.П. Сборник «Научные и технические библиотеки» и Международная конференция «Крым» – направления сотрудничества


ЮБИЛЕИ

Езова С.А. О портрете библиотечного интеллигента. (К 65-летию Ю.Н. Столярова)

Жарова Т.Г. Библиотека Хабаровского государственного технического университета: история, современность, перспективы


ОБЗОРЫ. РЕЦЕНЗИИ

Дивногорцев А.Л. Обращение к истории


ИНФОРМАЦИОННЫЕ СООБЩЕНИЯ

Щербинина Г.С. XVI Зональная научно-практическая конференция вузовских библиотек Уральского региона


Вестник Ассоциации ЭБНИТ. Выпуск 2

Ежегодная конференция Международной ассоциации пользователей и разработчиков электронных библиотек и новых информационных технологий. Обзор работы


Система автоматизации библиотек ИРБИС – на Десятой юбилейной конференции "Крым – 2003"

Дунаевская С.М., Сорокина Л.В. Система автоматизации библиотек ИРБИС: итоги развития информационно-технологического обеспечения

Сбойчаков К.О. Перспективы развития ИРБИС: применение системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний в современной библиотеке

Карауш А.С., Копытков Д.Ю. Программное обеспечение корректора электронного каталога системы ИРБИС

Карауш А.С., Копытков Д.Ю. Программное обеспечение для автоматической синхронизации баз данных системы ИРБИС

Аслитдинова А.А. ИРБИС в Таджикистане: перспективы и трудности

Шкира И.В. Опыт работы АБИС ИРБИС в НТБ Приднепровской государственной академии строительства и архитектуры

Комов Владимир Викторович


НАШИ АВТОРЫ


Сбойчаков К.О.
ГПНТБ России

Перспективы развития ИРБИС:
применение системы смыслового анализа текстов
для создания полнотекстовых хранилищ знаний
в современной библиотеке

Доклад продолжает тему создания полнотекстовых хранилищ на базе Электронного каталога ИРБИС. Информационный поиск и тематический анализ найденных документов рассматривается как перспективное направление развития системы ИРБИС.

Полнотекстовые хранилища знаний
как часть современной электронной библиотеки

Эта работа ориентирована на те библиотеки, в которых уже существует электронный каталог и развита информационная структура обслуживания читателей.

При внедрении информационных технологий в настоящее время Россия ориентируется на Запад. В качестве дополнительного сервиса во многих западных библиотеках предлагается полнотекстовый поиск по специализированным базам данных. Как правило, это статьи из научных журналов, аннотации и авторефераты научных работ.

Современная библиотека включает в себя информацию на традиционных носителях, электронную информацию в широком смысле слова (аудио- и видеоинформацию), Интернет-ссылки и т.д. Сегодня необходимо развивать новые технологии извлечения и анализа документов, использовать электронные ресурсы, которые накапливаются в библиотеке как следствие процессов обработки при обслуживании читателей, например сканирование при электронной доставке документов.

В настоящее время ИРБИС является одной из наиболее динамично развивающихся и пользующихся спросом библиотечных систем в России. Наряду с поддержкой традиционных технологий система ИРБИС использует современные информационные средства для модернизации инфраструктуры библиотечного обслуживания. В перспективе развития ИРБИС имеет целью поддержку новых технологий создания полнотекстовых хранилищ знаний на основе электронного каталога библиотеки и усовершенствование методик извлечений знаний из этого хранилища на основе смыслового анализа текстов.

Электронный каталог – представитель основного информационного ресурса библиотеки. Поэтому внедрение новых технологий должно происходить в рамках существующей системы обслуживания. Это значит, что новая услуга, такая, как предлагаемый смысловой поиск и анализ найденных документов, должна стать частью системы информационного обслуживания читателей библиотеки. С этой целью предлагается использовать Электронный каталог, созданный в системе ИРБИС, как базу для полнотекстового хранилища знаний; за основу берется поле «Ссылка на внешний объект – текст».

При создании больших хранилищ знаний электронных библиотек встает вопрос не только о быстром информационном поиске, но также об интеллектуальном смысловом поиске – извлечении знаний и найденной информации с целью накопления опыта. Здесь необходимо еще раз подчеркнуть разницу между информационным поиском и смысловым анализом найденных документов. Информационный поиск – это поиск источника для дальнейшего использования; смысловой поиск – это в данном случае часть задачи экспертного анализа для выработки или подтверждения некоторой гипотезы. Для информационного поиска вполне достаточно иметь ЭК с его подробными вторичными описаниями документов. Для смыслового анализа применяются алгоритмы извлечения из массива информации скрытого знания.

В существующей версии системы ИРБИС внешние объекты располагаются в одной директории, т.е. при создании ЭК автоматически создается и база типа «мешок текстов». Задача системы автоматизированного смыслового анализа текстов разбивается на две части – подготовка базы данных к использованию алгоритмов смыслового анализа и разработка интерфейса для использования этих алгоритмов читателем библиотеки. Вторая часть задачи может быть реализована внутри системы ИРБИС в виде дополнительного поискового сервиса, но лучшее решение – специальный Интернет-сервис.

 

История вопроса – разница между системами
смыслового анализа версий ИРБИС32 и ИРБИС64

История создания системы

  1. 1998 г. Создана система визуального эвристического анализа числовых матриц Visual HCA под руководством проф. П.П. Макагонова. Система отрабатывалась на практике в Управлении мэра Москвы в различных областях естественнонаучных и гуманитарных знаний (вопросы управления и устойчивого развития города). (В 2000 г. разработана прикладная система визуального мониторинга данных измерений загрязнения Мехико с применением системы визуального эвристического анализа.)

  2. 1999 г. Разработана система смыслового анализа массива текстов. Создана первая версия системы смыслового анализа текстов в среде ИРБИС. Выпущена партия полнотекстовых баз данных с работами ведущих современных специалистов в области урбанистики; эту БД получили мэры городов России, принимавшие участие в конференции. Система опиралась на существующую версию ИРБИС–1999 и СУБД ISIS.

  3. 1999–2002 гг. Доработка стандарта ISIS с целью развития ИРБИС и разработки системы смыслового анализа для больших полнотекстовых хранилищ. Разработка СУБД ИРБИС64 и сервера ИРБИС64.

  4. 2002 г. Создание новой версии системы текстового анализа для следующей версии ИРБИС64.

  5. 2003 г. Перспективная разработка Интернет-версии системы текстового анализа в рамках WEB-ИРБИС64.

Основные алгоритмы системы смыслового анализа отработаны на практическом материале при создании базы данных по теме устойчивого развития городов. По результатам работы стала очевидной необходимость доработки ISIS для снятия внутренне присущих ограничений. Большое время было потрачено на создание клиент-серверной версии ИРБИС64. В настоящее время ведется отработка версии системы смыслового анализа для ИРБИС64.

 

Подготовка специалистов библиотеки
для работы с системой

К использованию системы полнотекстового анализа существует несомненный интерес у пользователей системы ИРБИС во многих библиотеках, особенно вузовских. Однако сегодня основными трудностями здесь являются:

  1. Отсутствие технологической и правовой проработки процессов создания электронных текстовых ресурсов; недостаток в технических средствах хранения информации большого объема и юридическая неполнота вопроса об авторских правах в России.

  2. Необходимость серьезной подготовки специалистов библиотеки к работе с системой смыслового анализа, так как ее специфика лежит в области информационной числовой обработки данных, что нестандартно для средней библиотеки.

Несмотря на это энтузиазм, присущий библиотечным работникам, и понимание ими общей тенденции развития библиотечного дела в мире позволяют надеяться на широкое распространение в скором времени технологий создания полнотекстовых хранилищ знаний. Для пользователей системы ИРБИС применение алгоритмов смыслового анализа текстов станет существенным дополнением.

 

Возможное соотношение рубрикаторов,
применяемых в библиотеке, и естественнонаучного
классификатора системы

Многие библиотеки используют тематические рубрикаторы для индексации. ИРБИС позволяет использовать и дополнять Рубрикатор ГРНТИ, по аналогии с которым пользователи ИРБИС могут создать уникальный рубрикатор по выбранной тематике. Естественнонаучный классификатор по структуре полностью подобен Рубрикатору ГРНТИ. Может быть сформулирована задача создания полнотекстового хранилища на базе существующего рубрикатора. Такое решение возможно в случае накопления текстов как минимум по основным тематическим рубрикам, чтобы система построила предметно ориентированные словари для соответствующих тематических индексов. Также возможно привлечь экспертов для создания таких словарей при отсутствии массива текстов. В итоге решение этого сложного вопроса должно быть получено в режиме практической эксплуатации системы.

В настоящее время ведется разработка версии сервера ИРБИС64 с дополнительной возможностью организации полнотекстового поиска по внешним текстам. Используя тот факт, что нет необходимости обновлять файлы полнотекстового словаря при изменении записи, в структуру базы данных добавляются неизменяемые файлы специального полнотекстового словаря. Тем самым распараллеливается работа по созданию тематического классификатора базы данных. Наиболее перспективным путем здесь является использование существующих индексов рубрикации, например индексов ГРНТИ.

 

Система смыслового анализа текстов в Интернете

Для поддержки системы смыслового анализа в системе ИРБИС наиболее перспективным представляется разработка Интернет-решения, в рамках которого кроме стандартного, информационного поиска по ЭК читателю предоставляется возможность смыслового анализа найденных документов.

Мы будем рассматривать две основные задачи, стоящие перед читателем, и в зависимости от вида задачи идентифицировать читателя как «студента» или «эксперта».

  1. Информационный поиск каких-либо документов (текстов) в ЭК, просмотр текстов и составление реферата на их основе.

  2. Анализ найденных документов (текстов) на предмет выявления взаимоотношений близости между ними в заданном смысловом контексте, нахождение групп схожих текстов и текстов – представителей для каждой группы (ядер).

Все эти задачи могут быть решены в режиме удаленного доступа к ЭК. Но существует класс задач, которые могут быть решены только при работе с ЭК на уровне администратора системы. Это подготовка базы данных к смысловому поиску:

  1. Построение естественнонаучного классификатора для данной БД в виде набора ПОС.

  2. Структуризация БД по найденным ПОС.


Общая схема Интернет решения представляется в виде:


В браузере клиента можно реализовать все основные пункты списка основного алгоритма расчета близости текстов заданному, кроме работы в системе Visual HCA. Некоторые алгоритмы визуального анализа можно имитировать с помощью Java апплета, однако целесообразность этого решения сомнительна. Для среднего пользователя важно быстро найти наиболее близкие документы к тому тексту, который у него есть или который он нашел в базе данных.

Подробный анализ связей между текстами интересен при решении экспертных задач и требует использования всего инструментария системы для возможного изменения базовых словарей ПОС. Такой режим работы доступен только с правом администратора системы.

  
На главную