Новый подход к автоматизации технологии
обработки изображений документов.
Совместный
проект компании ABBYY и ГПНТБ России
Технологии распознавания текстов, созданные компанией АВВYY (www.ABBYY.ru), интегрированы в систему
управления имидж-каталогами ГПНТБ России. Это обеспечило читателям возможность
легкого и быстрого поиска необходимых изданий.
ГПНТБ России обладает огромными
фондами – более 7 млн экземпляров отечественных и иностранных изданий по
различным отраслям науки и техники, экономике и смежным дисциплинам, в том
числе 1,6 млн – на микроносителях, около 3 тыс. - в электронном виде, остальные
– на бумаге. Ежегодно в библиотеку поступают около 100 тыс. экземпляров
изданий. Особенно большим спросом у читателей пользуется фонд отечественных
журналов (около 1 млн единиц хранения) и зарубежных журналов (около
3 млн единиц хранения).
Задача
Совершенно очевидно, что для
обеспечения быстрого поиска по столь масштабным фондам необходим современный
электронный каталог. Однако ГПНТБ России, как и любая библиотека, существующая
свыше 20 лет, располагает большим ретрофондом, т.е. фондом, не отражённым в электронном
каталоге. Поэтому задача ретроконверсии карточных каталогов также очевидна и
актуальна.
Наиболее эффективный способ
решения этой задачи – внедрение так называемого имидж-каталога. Однако
большинство существующих решений по созданию имидж-каталогов строятся на основе
индексирования каталожных (карточных) разделителей. В таких имидж-каталогах
автоматизированный поиск возможен лишь с соответствующей им точностью. Тематический
поиск для читателя остается трудновыполнимым. Например, чтобы найти издания,
посвящённые искусственному интеллекту, читатель вынужден строить гипотезы,
какими могли бы быть названия подобных книг или журналов, и проводить
библиографический поиск. Такой способ приемлем лишь для профессионала
библиотечного дела, тогда как для большинства читателей это весьма длительное и
непродуктивное занятие.
Таким образом, основная задача –
предоставить читателю, не искушенному в библиотечном деле, возможность быстрого
поиска нужного издания (карточки) по ключевым словам.
Решение
Специалисты ГПНТБ России пришли к
выводу: необходимо создать имидж-каталог, способный не просто упорядочивать
изображения карточек, но и выполнять полнотекстовый поиск по их содержимому. В
этом случае читатель будет избавлен от необходимости библиографического поиска,
а для обнаружения всех материалов по интересующей теме понадобятся считанные
секунды.
Новое решение было реализовано на
основе одного из продуктов семейства ИРБИС, а именно ИРБИС64 Полнотекстовые БД.
Этот продукт располагал практически всеми необходимыми качествами, за
исключением одного: способностью распознавать текст карточек. Для реализации
решения в виде, пригодном к эксплуатации читателями, следовало встроить в
систему функции распознавания текста.
Исходя из высокого качества
технологий распознавания компании ABBYY и их устойчивой
репутации, специалисты ГПНТБ России остановили выбор на продукте ABBYYFineReaderEngine. Это современное средство разработки предназначено для
встраивания в Windows-приложения технологий
распознавания печатных текстов, рукописных символов, меток и штрих-кодов.
ABBYYFineReaderEngine представляет собой набор динамически подключаемых
библиотек (DLL). Интерфейс прикладного программирования (API) FineReaderEngine поддерживает стандарт СОМ
и позволяет создавать приложения в средах разработки C/C++, VisualBasic и любых других, поддерживающих СОМ-компоненты.
ABBYYFineReaderEngine включает в себя все основные функции системы (сканирования
и распознавания) и при этом не имеет графического пользовательского интерфейса.
(Впрочем, наличия пользовательского интерфейса в данном случае и не требовалось.)
Результат
В новых модулях ИРБИС, где теперь
задействованы технологии ABBYY, процесс обработки строится
прежде всего на автоматическом («на лету») распознавании текстов каталожных
карточек. Таким способом удалось добиться следующих результатов:
·
реализован полнотекстовый
поиск. Важно отметить, что он ведётся с ранжированием результатов, с учетом
близости слов, морфологии и многих других особенностей текста. За счёт этого,
по-прежнему поддерживая возможности библиографического поиска (для профессионалов),
можно вести и полноценный тематический поиск. (В результате читатели ГПНТБ России избавлены от необходимости часами
просиживать у экранов имидж-каталога, строя предположения – «как же это могло
бы называться?».);
· решение не предъявляет никаких требований к порядку
сканирования и размещения образов карточек. Поэтому процесс ретроконверсии карточных
каталогов в ГПНТБ России теперь может быть организован так, как удобнее
сотрудникам, а не каким-либо программам.
Как отмечают создатели новых
модулей системы ИРБИС, и сам ABBYYFineReaderEngine, и документация к нему оказались такого высокого качества,
что ни разу не возникло необходимости обращаться за консультациями в компанию ABBYY. Новое решение было создано, отлажено и запущено в
эксплуатацию совершенно самостоятельно.
«Мне кажется, что объединение усилий компании АВВYY и ГПНТБ России привело к
созданию принципиально нового подхода к автоматизации технологий обработки
изображений документов. Программные продукты АВВYY и Система автоматизации библиотек
ИРБИС не только хорошо стыкуются, но и придают смысл изображениям, обеспечивая
возможность полностью отказаться от хранения больших объемов документов», – таково мнение авторитетного специалиста – Бориса Исаевича Маршака, первого заместителя генерального
директора по научной работе и информатизации ГПНТБ России, исполнительного
директора Ассоциации ЭБНИТ.
Перспектива
В ГПНТБ России оптимистически относятся к перспективам
развития разработанной системы. В частности, специалисты приняли решение добавить
возможность задействовать для поиска вербальные тематические навигаторы
(классификаторы). Это позволит читателю ещё свободнее ориентироваться в
огромных массивах каталожной информации и ещё быстрее, пользуясь естественным
языком, находить интересующую литературу. Примечательно, что новая функция уже
реализована на уровне модели. Развитие системы продолжается.
Следует подчеркнуть, что
результаты ГПНТБ России могут быть достигнуты практически в каждой библиотеке.
Поскольку технология распознавания ABBYY теперь интегрирована
в ИРБИС64 Полнотекстовые БД, любая библиотека, имеющая потребность в
автоматизации своей деятельности, при внедрении этой системы получает в
распоряжение возможности быстрого поиска.
|