Бродовский А.И., Сбойчаков К.О.
ГПНТБ России

Новое поколение системы автоматизации библиотек ИРБИС – ИРБИС64: от электронного каталога к полнотекстовым базам данных

Изложены предпосылки и результаты работы по созданию нового поколения ИРБИС – ИРБИС64.
В качестве основного направления развития системы определяется переход от ЭК к полнотекстовым БД.

Система автоматизации библиотек ИРБИС, разработанная в ГПНТБ России, применяется в сотнях библиотек России и других стран СНГ, среди которых библиотеки самого разного профиля и уровня – от сельских до национальных, от школьных до вузовских.

Мы рассказывали о системе на всех предыдущих конференциях «Крым» и на других библиотечных форумах; сведения о ее составе, характеристиках и функциональных возможностях содержатся во многих опубликованных материалах, поэтому сейчас нет необходимости в подробном представлении ИРБИС.

Версия системы, которая распространяется в настоящее время, относится к третьему поколению и условно обозначается как ИРБИС32.

Это сообщение посвящено новому, четвертому поколению системы – ИРБИС64, разработка которого начата в 2001 г.

Можно выделить две группы предпосылок, определивших необходимость этой работы. Первая группа – предпосылки технического и общесистемного характера, основными из которых являются:

Вторая группа – предпосылки функционального характера. Это прежде всего:

 

В качестве основного принципа новой разработки принято положение о преемственности по отношению к ИРБИС32 как на уровне пользовательских функций, так и на уровне содержательной структуры баз данных. Это означало, что было необходимо сохранить основные идеи и наработки информационно-технологического обеспечения системы, а именно – состав и структуру элементов данных, экранные формы ввода, выходные форматы представления данных, алгоритмы формально-логического контроля и т.п., а это, в свою очередь, означало: сохранить неизменным основной язык манипулирования данными системы, так называемый язык форматирования ИРБИС.

Выполнение этих важнейших требований и обусловило направление разработки, которое заключалось в создании оригинального базового программного обеспечения, т.е. фактически в создании собственной СУБД. Такой выбор мог поначалу показаться достаточно самонадеянным и рискованным, но дальнейший ход работы показал обоснованность этого решения – именно разработка оригинального базового программного обеспечения и сохранение прежнего информационно-технологического обеспечения позволили минимизировать затраты на разработку системы в целом.

К началу 2004 г. все основные работы по ИРБИС64 были завершены. Разработаны:

 

В настоящее время завершаются работы по тестированию и опытной эксплуатации системы ИРБИС64. В этом активную помощь нам оказывают продвинутые пользователи ИРБИС32.

В качестве основной задачи развития ИРБИС64, к которой мы приступаем сейчас, определена поддержка полнотекстовых БД с обеспечением классификации и смыслового анализа текстов. Это направление рассматривается разработчиками ИРБИС как основное в концепции развития системы.

Обоснованием актуальности этого направления для нас служит тот факт, что в настоящее время во многих библиотеках нарастающими темпами накапливаются неструктурированные текстовые ресурсы, например, в процессе функционирования систем электронной доставки, когда в той или иной форме создаются электронные копии статей и других документов. Объем этой накапливаемой текстовой информации может быть таким значительным, что задача подготовки их полного библиографического описания (для включения в ЭК) становится крайне затруднительной. Очевидна необходимость применения специальных решений для предоставления пользователям библиотек доступа к многообразию таких электронных текстовых массивов, минуя традиционные средства ЭК.

Основой для поддержки полнотекстовых БД в ИРБИС64 послужит уже неоднократно представленная на международных конференциях «Крым» и «Либком» система смыслового анализа текстов [2].

Основная идея автоматизированной системы смыслового анализа текстов базируется на тенденции любой информации объединяться в тематические группы «по интересам». Это явление отражает тот факт, что различные отрасли знаний имеют свой внутренний, присущий им язык (терминологию).

В нескольких работах [3, 4] научно обоснована возможность использования математической статистики для выделения естественно-тематических групп из однородной массы текстового материала.

Вкратце подходы к решению задачи смысловой обработки текстов могут быть сформулированы в виде следующих этапов:

 

В результате использования предлагаемой системы полнотекстовые электронные ресурсы библиотеки становятся частью поискового пространства, доступного читателю библиотеки. Кроме поиска по словам из текстов, читатель получает дополнительную возможность находить тексты, близкие к заданному образцу. В качестве текста образца может выступать поисковый запрос читателя на естественном языке, произвольный полный текст (внешний по отношению к БД) или текст из БД.

Помимо конечного пользователя (читателя) система ориентирована на пользователя-эксперта, в задачу которого входит предварительная работа по созданию полнотекстовой БД и естественно-тематическая классификация текстов. Кроме того, система позволит экспертам и специалистам-классификаторам работать с полнотекстовыми коллекциями библиотеки в режиме интеллектуального смыслового анализа текстов. Возможно также применение системы для проведения смыслового статистического анализа ЭК библиотеки с целью извлечения и формализации скрытого знания [5].

Для практической реализации полнотекстовых БД и смысловой обработки текстов в рамках ИРБИС64 планируется провести следующие доработки программного обеспечения:


Список литературы

  1. Бродовский А.И., Мазов Н.П., Жижимов О.Л., Сбойчаков К.О. О новой файловой структуре CDS/ISIS // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр. конф. – М., 2001. – T.1. – C. 92–97.

  2. Сбойчаков К.О. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний современной библиотеке// Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр. конф. – М., 2003. – T. 1. – C. 122–125.

  3. Макагонов П.П., Сбойчаков К.О. Интерактивные методы решения слабо-формализованных задач в гуманитарных и естественнонаучных приложениях: (Визуальный эвристический кластерный анализ) // Материалы симпозиума по компьютерным приложениям CIC’98, Мексиканский национальный политехнический институт. – Мехико, 1998. – C. 346–358. – Aнгл. яз.

  4. Макагонов П.П., Александров М.А., Сбойчаков К.О. Программное обеспечение для создания предметно-ориентированных словарей и кластеризации документов в полнотекстовых базах данных // Компьютерная лингвистика и интеллектуальная обработка текстов. – Б. г.: Шпрингер, 2001. – C. 454–456. – Aнгл. яз.

  5. Сбойчаков К.О. Распределение ключевых слов по рубрикам ГРНТИ в базе данных Электронного каталога ГПНТБ России // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр. конф. – М., 2004.