Бродовский А.И., Сбойчаков К.О.
ГПНТБ России
Новое поколение системы
автоматизации библиотек ИРБИС – ИРБИС64: от электронного
каталога к полнотекстовым базам данных
Изложены
предпосылки и результаты работы по
созданию нового поколения ИРБИС – ИРБИС64.
В качестве основного
направления развития системы определяется
переход от ЭК к полнотекстовым БД.
|
Система автоматизации
библиотек ИРБИС, разработанная в ГПНТБ
России, применяется в сотнях библиотек
России и других стран СНГ, среди которых
библиотеки самого разного профиля и уровня
– от сельских до национальных, от школьных
до вузовских.
Мы рассказывали о системе на
всех предыдущих конференциях «Крым» и на
других библиотечных форумах; сведения о ее
составе, характеристиках и функциональных
возможностях содержатся во многих
опубликованных материалах, поэтому сейчас
нет необходимости в подробном
представлении ИРБИС.
Версия системы, которая
распространяется в настоящее время,
относится к третьему поколению и условно
обозначается как ИРБИС32.
Это сообщение посвящено новому,
четвертому поколению системы – ИРБИС64,
разработка которого начата в 2001 г.
Можно выделить две группы
предпосылок, определивших необходимость
этой работы. Первая группа – предпосылки
технического и общесистемного характера,
основными из которых являются:
-
снятие количественных ограничений
в физической структуре БД, касающихся
объема БД, длины записи, длины поискового
термина и др. (Следует заметить, что
существующие ограничения, кроме длины
поискового термина, носят для большинства
пользователей системы ИРБИС чисто
теоретический характер.);
-
перевод системы на клиент-серверную
архитектуру. (К такому переходу нас в
большей степени побудили не реальные
недостатки и трудности, связанные с
нынешней файл-серверной архитектурой
системы, а следование
общим положениям о преимуществах клиент-серверной
технологии.);
-
создание основы для платформенной
независимости системы и, в частности,
обеспечение в будущем возможности
разработать вариант системы для Linux;
-
обеспечение работы основных
конечных пользователей (комплектаторов,
каталогизаторов и, разумеется, читателей) в
режиме удаленного доступа.
Вторая группа –
предпосылки функционального характера. Это
прежде всего:
-
обеспечение подлинного многоязычия
на основе использования UNICODE;
-
поддержка полнотекстовых БД с
возможностью автоматической классификации
и смыслового анализа текстов;
-
использование в качестве
сервисного средства орфографического
контроля текстовых данных.
В качестве основного принципа
новой разработки принято положение о
преемственности по отношению к ИРБИС32 как
на уровне пользовательских функций, так и
на уровне содержательной структуры баз
данных. Это означало, что было необходимо
сохранить основные идеи и наработки
информационно-технологического
обеспечения системы, а именно – состав и
структуру элементов данных, экранные формы
ввода, выходные форматы представления
данных, алгоритмы формально-логического
контроля и т.п., а это, в свою очередь,
означало: сохранить неизменным основной
язык манипулирования данными системы, так
называемый язык форматирования ИРБИС.
Выполнение этих важнейших
требований и обусловило направление
разработки, которое заключалось в создании
оригинального базового программного
обеспечения, т.е. фактически в создании
собственной СУБД. Такой выбор мог поначалу
показаться достаточно самонадеянным и рискованным,
но дальнейший ход работы показал
обоснованность этого решения – именно
разработка оригинального базового
программного обеспечения и сохранение
прежнего информационно-технологического
обеспечения позволили минимизировать
затраты на разработку системы в целом.
К началу 2004 г. все основные
работы по ИРБИС64 были завершены.
Разработаны:
-
новая физическая структура и формат
хранения данных, что позволило существенно
раздвинуть количественные ограничения,
присущие ИРБИС32, в частности, максимальная
длина термина увеличилась с 30 до 255 байт,
максимальная длина записи – с 32 Кб до 2 Гб,
максимальное количество записей в БД – с 16
млн до 8 млрд. При этом формат хранения
обеспечивает платформенную независимость
физических файлов БД [1].
Данные в БД хранятся в UNICODE
(UTF-8);
-
полнофункциональная библиотека
доступа к БД;
-
TCP/IP-сервер
БД, реализующий полностью идентичную
работу клиентских приложений как в
локальной сети, так и в режиме удаленного
доступа. Составной частью сервера является
АРМ «Администратор»;
-
клиентские приложения основных
модулей системы – АРМ «Комплектатор», «Каталогизатор»,
«Книговыдача» и «Читатель»;
-
Веб-шлюз для доступа к БД в режиме
АРМ «Читатель».
В настоящее время
завершаются работы по тестированию и
опытной эксплуатации системы ИРБИС64. В этом
активную помощь нам оказывают продвинутые
пользователи ИРБИС32.
В качестве основной задачи
развития ИРБИС64, к которой мы приступаем
сейчас, определена поддержка
полнотекстовых БД с обеспечением
классификации и смыслового анализа текстов.
Это направление рассматривается
разработчиками ИРБИС как основное в
концепции развития системы.
Обоснованием актуальности
этого направления для нас служит тот факт,
что в настоящее время во многих библиотеках
нарастающими темпами накапливаются
неструктурированные текстовые ресурсы,
например, в процессе функционирования
систем электронной доставки, когда в той
или иной форме создаются электронные копии
статей и других документов. Объем этой
накапливаемой текстовой информации может
быть таким значительным, что задача
подготовки их полного библиографического
описания (для включения в ЭК) становится
крайне затруднительной. Очевидна
необходимость применения специальных
решений для предоставления пользователям
библиотек доступа к многообразию таких
электронных текстовых массивов, минуя
традиционные средства ЭК.
Основой для поддержки
полнотекстовых БД в ИРБИС64 послужит уже
неоднократно представленная на
международных конференциях «Крым» и «Либком»
система смыслового анализа текстов [2].
Основная идея
автоматизированной системы смыслового
анализа текстов базируется на тенденции
любой информации объединяться в
тематические группы «по интересам». Это
явление отражает тот факт, что различные
отрасли знаний имеют свой внутренний,
присущий им язык (терминологию).
В нескольких работах [3,
4] научно обоснована
возможность использования математической
статистики для выделения естественно-тематических
групп из однородной массы текстового
материала.
Вкратце подходы к решению
задачи смысловой обработки текстов могут
быть сформулированы в виде следующих
этапов:
-
создание полнотекстовой БД из
массива текстов;
-
естественно-тематическая
классификация текстов на основе выделения
значимых терминов предметной области по
признаку превышения общеупотребительной
частоты;
-
представление информации о
распределении слов в текстах в числовом
виде и структуризация этой информации с
помощью алгоритмов решения
слабоформализованных задач.
В результате
использования предлагаемой системы
полнотекстовые электронные ресурсы
библиотеки становятся частью поискового
пространства, доступного читателю
библиотеки. Кроме поиска по словам из
текстов, читатель получает дополнительную
возможность находить тексты, близкие к
заданному образцу. В качестве текста
образца может выступать поисковый запрос
читателя на естественном языке,
произвольный полный текст (внешний по
отношению к БД) или текст из БД.
Помимо конечного пользователя (читателя)
система ориентирована на пользователя-эксперта,
в задачу которого входит предварительная
работа по созданию полнотекстовой БД и
естественно-тематическая классификация
текстов. Кроме того, система позволит
экспертам и специалистам-классификаторам
работать с полнотекстовыми коллекциями
библиотеки в режиме интеллектуального
смыслового анализа текстов. Возможно также
применение системы для проведения
смыслового статистического анализа ЭК
библиотеки с целью извлечения и
формализации скрытого знания [5].
Для практической реализации
полнотекстовых БД и смысловой обработки
текстов в рамках ИРБИС64 планируется
провести следующие доработки программного
обеспечения:
-
включить в АРМ «Администратор»
подсистему создания полнотекстовых БД,
индексации и классификации полных текстов
на основе алгоритмов системы смыслового
анализа текстов;
-
создать специальный АРМ и веб-шлюз,
ориентированные на работу конечного
пользователя с полнотекстовыми БД в режиме
поиска.
Список литературы
-
Бродовский А.И.,
Мазов Н.П., Жижимов О.Л., Сбойчаков К.О. О
новой файловой структуре CDS/ISIS
// Библиотеки и ассоциации в меняющемся мире:
новые технологии и новые формы
сотрудничества: Тр. конф. – М., 2001. – T.1.
– C. 92–97.
-
Сбойчаков К.О.
Перспективы развития ИРБИС в плане
применения системы смыслового анализа
текстов для создания полнотекстовых
хранилищ знаний современной библиотеке//
Библиотеки и ассоциации в меняющемся мире:
новые технологии и новые формы
сотрудничества: Тр. конф. – М., 2003. – T.
1. – C. 122–125.
-
Макагонов П.П.,
Сбойчаков К.О. Интерактивные методы
решения слабо-формализованных задач в
гуманитарных и естественнонаучных
приложениях: (Визуальный эвристический
кластерный анализ) // Материалы симпозиума
по компьютерным приложениям CIC’98,
Мексиканский национальный политехнический
институт. – Мехико, 1998. – C. 346–358. – Aнгл.
яз.
-
Макагонов П.П.,
Александров М.А., Сбойчаков К.О.
Программное обеспечение для создания
предметно-ориентированных словарей и
кластеризации документов в полнотекстовых
базах данных // Компьютерная лингвистика и
интеллектуальная обработка текстов. – Б. г.:
Шпрингер, 2001. – C.
454–456. – Aнгл.
яз.
-
Сбойчаков К.О.
Распределение ключевых слов по рубрикам
ГРНТИ в базе данных Электронного каталога
ГПНТБ России // Библиотеки и ассоциации в
меняющемся мире: новые технологии и новые
формы сотрудничества: Тр. конф. – М., 2004.
|