Новый подход к автоматизации технологии
обработки изображений документов.
Совместный проект компании ABBYY и ГПНТБ России

Технологии распознавания текстов, созданные компанией АВВYY (www.ABBYY.ru), интегрированы в систему управления имидж-каталогами ГПНТБ России. Это обеспечило читателям возможность легкого и быстрого поиска необходимых изданий.

ГПНТБ России обладает огромными фондами – более 7 млн экземпляров отечественных и иностранных изданий по различным отраслям науки и техники, экономике и смежным дисциплинам, в том числе 1,6 млн – на микроносителях, около 3 тыс. - в электронном виде, остальные – на бумаге. Ежегодно в библиотеку поступают около 100 тыс. экземпляров изданий. Особенно большим спросом у читателей пользуется фонд отечественных журналов (около 1 млн единиц хранения) и зарубежных журналов (около
3 млн единиц хранения).

Задача

Совершенно очевидно, что для обеспечения быстрого поиска по столь масштабным фондам необходим современный электронный каталог. Однако ГПНТБ России, как и любая библиотека, существующая свыше 20 лет, располагает большим ретрофондом, т.е. фондом, не отражённым в электронном каталоге. Поэтому задача ретроконверсии карточных каталогов также очевидна и актуальна.

Наиболее эффективный способ решения этой задачи – внедрение так называемого имидж-каталога. Однако большинство существующих решений по созданию имидж-каталогов строятся на основе индексирования каталожных (карточных) разделителей. В таких имидж-каталогах автоматизированный поиск возможен лишь с соответствующей им точностью. Тематический поиск для читателя остается трудновыполнимым. Например, чтобы найти издания, посвящённые искусственному интеллекту, читатель вынужден строить гипотезы, какими могли бы быть названия подобных книг или журналов, и проводить библиографический поиск. Такой способ приемлем лишь для профессионала библиотечного дела, тогда как для большинства читателей это весьма длительное и непродуктивное занятие.

Таким образом, основная задача – предоставить читателю, не искушенному в библиотечном деле, возможность быстрого поиска нужного издания (карточки) по ключевым словам.

Решение

Специалисты ГПНТБ России пришли к выводу: необходимо создать имидж-каталог, способный не просто упорядочивать изображения карточек, но и выполнять полнотекстовый поиск по их содержимому. В этом случае читатель будет избавлен от необходимости библиографического поиска, а для обнаружения всех материалов по интересующей теме понадобятся считанные секунды.

Новое решение было реализовано на основе одного из продуктов семейства ИРБИС, а именно ИРБИС64 Полнотекстовые БД. Этот продукт располагал практически всеми необходимыми качествами, за исключением одного: способностью распознавать текст карточек. Для реализации решения в виде, пригодном к эксплуатации читателями, следовало встроить в систему функции распознавания текста.

Исходя из высокого качества технологий распознавания компании ABBYY и их устойчивой репутации, специалисты ГПНТБ России остановили выбор на продукте ABBYYFineReaderEngine. Это современное средство разработки предназначено для встраивания в Windows-приложения технологий распознавания печатных текстов, рукописных символов, меток и штрих-кодов.

 

ABBYYFineReaderEngine представляет собой набор динамически подключаемых библиотек (DLL). Интерфейс прикладного программирования (API) FineReaderEngine поддерживает стандарт СОМ и позволяет создавать приложения в средах разработки C/C++, VisualBasic и любых других, поддерживающих СОМ-компоненты.

ABBYYFineReaderEngine включает в себя все основные функции системы (сканирования и распознавания) и при этом не имеет графического пользовательского интерфейса. (Впрочем, наличия пользовательского интерфейса в данном случае и не требовалось.)

Результат

В новых модулях ИРБИС, где теперь задействованы технологии ABBYY, процесс обработки строится прежде всего на автоматическом («на лету») распознавании текстов каталожных карточек. Таким способом удалось добиться следующих результатов:

 

·      реализован полнотекстовый поиск. Важно отметить, что он ведётся с ранжированием результатов, с учетом близости слов, морфологии и многих других особенностей текста. За счёт этого, по-прежнему поддерживая возможности библиографического поиска (для профессионалов), можно вести и полноценный тематический поиск. (В результате читатели ГПНТБ России избавлены от необходимости часами просиживать у экранов имидж-каталога, строя предположения – «как же это могло бы называться?».);

·      решение не предъявляет никаких требований к порядку сканирования и размещения образов карточек. Поэтому процесс ретроконверсии карточных каталогов в ГПНТБ России теперь может быть организован так, как удобнее сотрудникам, а не каким-либо программам.

 

Как отмечают создатели новых модулей системы ИРБИС, и сам ABBYYFineReaderEngine, и документация к нему оказались такого высокого качества, что ни разу не возникло необходимости обращаться за консультациями в компанию ABBYY. Новое решение было создано, отлажено и запущено в эксплуатацию совершенно самостоятельно.

 

«Мне кажется, что объединение усилий компании АВВYY и ГПНТБ России привело к созданию принципиально нового подхода к автоматизации технологий обработки изображений документов. Программные продукты АВВYY и Система автоматизации библиотек ИРБИС не только хорошо стыкуются, но и придают смысл изображениям, обеспечивая возможность полностью отказаться от хранения больших объемов документов», – таково мнение авторитетного специалиста – Бориса Исаевича Маршака, первого заместителя генерального директора по научной работе и информатизации ГПНТБ России, исполнительного директора Ассоциации ЭБНИТ.

Перспектива

В ГПНТБ России оптимистически относятся к перспективам развития разработанной системы. В частности, специалисты приняли решение добавить возможность задействовать для поиска вербальные тематические навигаторы (классификаторы). Это позволит читателю ещё свободнее ориентироваться в огромных массивах каталожной информации и ещё быстрее, пользуясь естественным языком, находить интересующую литературу. Примечательно, что новая функция уже реализована на уровне модели. Развитие системы продолжается.

 

Следует подчеркнуть, что результаты ГПНТБ России могут быть достигнуты практически в каждой библиотеке. Поскольку технология распознавания ABBYY теперь интегрирована в ИРБИС64 Полнотекстовые БД, любая библиотека, имеющая потребность в автоматизации своей деятельности, при внедрении этой системы получает в распоряжение возможности быстрого поиска.