Научные и технические библиотеки №11 2007 год
Содержание:

Линден И. Л., Линден Ф. Ч. Формирование коллекций электронных документов в библиотеках мира: ключевые проблемы и современные тенденции

Сукиасян Э. Р. Классификационные системы и рубрикаторы на образовательных сайтах и порталах Интернета

Антонова С. Г. Издания в структуре образовательного процесса вуза. Некоторые направления совершенствования

Бочарова Е. Н., Васильев А. В., Кочукова Е. В., Наумова В. С. Система централизованного автоматизированного учета отечественной балансовой литературы в ЦБС БЕН РАН

К 50-летию ГПНТБ РОССИИ

Орлова Н. П. ГНБ – ГПНТБ России в моей жизни. Воспоминания с благодарностью

ЮБИЛЕИ

Виберг Л. В. История библиотеки в документах и лицах

Никитина Н. Д., Сорвачева В. Н. Навстречу времени. (К 40-летию Научной библиотеки Чувашского государственного университета им И. Н. Ульянова)

Комарова М. И., Тюхалкина А. Ф. 20 лет сотрудничества

ВЕСТНИК АССОЦИАЦИИ ЭБНИТ. Выпуск 8.

Маршак И. Б. Ежегодная конференция Ассоциации ЭБНИТ. (Обзор работы)

Бродовский А. И. Новые решения в Системе автоматизации библиотек ИРБИС: технология заимствования, полнотекстовые БД, имидж-каталоги

Новый подход к автоматизации технологии обработки изображений документов. Совместный проект компании ABBYY и ГПНТБ России

Мамонтова Е. Г. Проблемы адаптации традиционных библиотечных технологий к программной среде ИРБИС32 (на примере НБ СибГТУ)

Березная Т. И. Принципы Джона Паттерсона и опыт дистрибуции системы ИРБИС в Украине

Пархомчук Т. В. Создание библиографических пособий с помощью системы ИРБИС

НАШИ АВТОРЫ


Новый подход к автоматизации технологии
обработки изображений документов.
Совместный проект компании ABBYY и ГПНТБ России

Технологии распознавания текстов, созданные компанией АВВYY (www.ABBYY.ru), интегрированы в систему управления имидж-каталогами ГПНТБ России. Это обеспечило читателям возможность легкого и быстрого поиска необходимых изданий.

ГПНТБ России обладает огромными фондами – более 7 млн экземпляров отечественных и иностранных изданий по различным отраслям науки и техники, экономике и смежным дисциплинам, в том числе 1,6 млн – на микроносителях, около 3 тыс. - в электронном виде, остальные – на бумаге. Ежегодно в библиотеку поступают около 100 тыс. экземпляров изданий. Особенно большим спросом у читателей пользуется фонд отечественных журналов (около 1 млн единиц хранения) и зарубежных журналов (около
3 млн единиц хранения).

Задача

Совершенно очевидно, что для обеспечения быстрого поиска по столь масштабным фондам необходим современный электронный каталог. Однако ГПНТБ России, как и любая библиотека, существующая свыше 20 лет, располагает большим ретрофондом, т.е. фондом, не отражённым в электронном каталоге. Поэтому задача ретроконверсии карточных каталогов также очевидна и актуальна.

Наиболее эффективный способ решения этой задачи – внедрение так называемого имидж-каталога. Однако большинство существующих решений по созданию имидж-каталогов строятся на основе индексирования каталожных (карточных) разделителей. В таких имидж-каталогах автоматизированный поиск возможен лишь с соответствующей им точностью. Тематический поиск для читателя остается трудновыполнимым. Например, чтобы найти издания, посвящённые искусственному интеллекту, читатель вынужден строить гипотезы, какими могли бы быть названия подобных книг или журналов, и проводить библиографический поиск. Такой способ приемлем лишь для профессионала библиотечного дела, тогда как для большинства читателей это весьма длительное и непродуктивное занятие.

Таким образом, основная задача – предоставить читателю, не искушенному в библиотечном деле, возможность быстрого поиска нужного издания (карточки) по ключевым словам.

Решение

Специалисты ГПНТБ России пришли к выводу: необходимо создать имидж-каталог, способный не просто упорядочивать изображения карточек, но и выполнять полнотекстовый поиск по их содержимому. В этом случае читатель будет избавлен от необходимости библиографического поиска, а для обнаружения всех материалов по интересующей теме понадобятся считанные секунды.

Новое решение было реализовано на основе одного из продуктов семейства ИРБИС, а именно ИРБИС64 Полнотекстовые БД. Этот продукт располагал практически всеми необходимыми качествами, за исключением одного: способностью распознавать текст карточек. Для реализации решения в виде, пригодном к эксплуатации читателями, следовало встроить в систему функции распознавания текста.

Исходя из высокого качества технологий распознавания компании ABBYY и их устойчивой репутации, специалисты ГПНТБ России остановили выбор на продукте ABBYYFineReaderEngine. Это современное средство разработки предназначено для встраивания в Windows-приложения технологий распознавания печатных текстов, рукописных символов, меток и штрих-кодов.

 

ABBYYFineReaderEngine представляет собой набор динамически подключаемых библиотек (DLL). Интерфейс прикладного программирования (API) FineReaderEngine поддерживает стандарт СОМ и позволяет создавать приложения в средах разработки C/C++, VisualBasic и любых других, поддерживающих СОМ-компоненты.

ABBYYFineReaderEngine включает в себя все основные функции системы (сканирования и распознавания) и при этом не имеет графического пользовательского интерфейса. (Впрочем, наличия пользовательского интерфейса в данном случае и не требовалось.)

Результат

В новых модулях ИРБИС, где теперь задействованы технологии ABBYY, процесс обработки строится прежде всего на автоматическом («на лету») распознавании текстов каталожных карточек. Таким способом удалось добиться следующих результатов:

 

·      реализован полнотекстовый поиск. Важно отметить, что он ведётся с ранжированием результатов, с учетом близости слов, морфологии и многих других особенностей текста. За счёт этого, по-прежнему поддерживая возможности библиографического поиска (для профессионалов), можно вести и полноценный тематический поиск. (В результате читатели ГПНТБ России избавлены от необходимости часами просиживать у экранов имидж-каталога, строя предположения – «как же это могло бы называться?».);

·      решение не предъявляет никаких требований к порядку сканирования и размещения образов карточек. Поэтому процесс ретроконверсии карточных каталогов в ГПНТБ России теперь может быть организован так, как удобнее сотрудникам, а не каким-либо программам.

 

Как отмечают создатели новых модулей системы ИРБИС, и сам ABBYYFineReaderEngine, и документация к нему оказались такого высокого качества, что ни разу не возникло необходимости обращаться за консультациями в компанию ABBYY. Новое решение было создано, отлажено и запущено в эксплуатацию совершенно самостоятельно.

 

«Мне кажется, что объединение усилий компании АВВYY и ГПНТБ России привело к созданию принципиально нового подхода к автоматизации технологий обработки изображений документов. Программные продукты АВВYY и Система автоматизации библиотек ИРБИС не только хорошо стыкуются, но и придают смысл изображениям, обеспечивая возможность полностью отказаться от хранения больших объемов документов», – таково мнение авторитетного специалиста – Бориса Исаевича Маршака, первого заместителя генерального директора по научной работе и информатизации ГПНТБ России, исполнительного директора Ассоциации ЭБНИТ.

Перспектива

В ГПНТБ России оптимистически относятся к перспективам развития разработанной системы. В частности, специалисты приняли решение добавить возможность задействовать для поиска вербальные тематические навигаторы (классификаторы). Это позволит читателю ещё свободнее ориентироваться в огромных массивах каталожной информации и ещё быстрее, пользуясь естественным языком, находить интересующую литературу. Примечательно, что новая функция уже реализована на уровне модели. Развитие системы продолжается.

 

Следует подчеркнуть, что результаты ГПНТБ России могут быть достигнуты практически в каждой библиотеке. Поскольку технология распознавания ABBYY теперь интегрирована в ИРБИС64 Полнотекстовые БД, любая библиотека, имеющая потребность в автоматизации своей деятельности, при внедрении этой системы получает в распоряжение возможности быстрого поиска.

 

  
На главную