О. В. Федорец, А. М. Фишер, А. А. Батюшко
ВИНИТИ РАН, Москва
Хранилище полных текстов для доступа пользователей
через электронный каталог поступлений ВИНИТИ
Представлены результаты работы, выполненной в 2005
г., по созданию и наполнению хранилища полных текстов, интегрированного с
электронным каталогом поступлений, который
доступен через Интернет-сайт ВИНИТИ. Изложены основные принципы построения хранилища,
технология обработки и загрузки документов.
Электронный каталог поступлений ВИНИТИ
С 1999 г. в ВИНИТИ ведутся
работы по созданию электронного каталога поступлений научно-технической
литературы. Именно в этом году введена в эксплуатацию «Автоматизированная
система комплектования и регистрации входного потока» (сокращённо АСКР),
информационные массивы которой послужили основой для создания веб-каталога [1; 2].
При обработке входного потока
информационные массивы АСКР пополняются элементами данных, которые можно
извлечь до глубокой содержательной обработки публикаций в отраслевых отделах
ВИНИТИ. Таким образом, по сравнению с реферативными базами ВИНИТИ каталог поступлений
предполагает повышенную оперативность отражения библиографической информации.
Помимо библиографической информации на монографическом уровне массивы данных
АСКР пополняются описаниями статей, авторскими аннотациями и результатами
первичной тематической разметки. Также поддерживается технологическая
информация о канале поступления, месте хранения и технологическом маршруте экземпляра
НТЛ.
Веб-каталог поступлений
модернизирован в 2004 г. и переведён на технологию ASP и веб-сервер MicrosoftIIS. При этом пользовательский интерфейс существенно переделан и приведён
к общему стилевому оформлению, принятому для Интернет-сайта ВИНИТИ. В настоящее
время каталог доступен по адресу http://catalog.viniti.ru/.
В процессе развития в 2004–2005
гг. увеличилась функциональная нагрузка на каталог. Сегодня он не только
объединил спектр разрозненных информационных услуг, в той или иной степени
существовавших до его появления, но и значительно его расширил [3].
Основные достоинства каталога:
- предоставление
полных библиографических указателей с актуальной технологической информацией по
всем изданиям, обработанным в институте;
-
заказ копий страниц
первоисточника для абонентов ВИНИТИ;
-
показ оглавлений выпусков с
авторскими аннотациями для публикаций наиболее популярных среди ученых;
-
поиск по библиографическим
полям, кодам тематической разметки и авторским аннотациям;
-
хранение персонифицированных
пользовательских настроек, обеспечивающих более эффективную работу с каталогом.
Наряду с показом авторских
аннотаций для статей и депонированных научных работ в каталоге реализована
возможность показа собственно текстов статей. Изначально это задумывалось
главным образом для трёх журналов, издаваемых в ВИНИТИ: «Научно-техническая
информация», серии 1 и 2 и «Международный форум по информации». Тексты этих
журналов были и раньше доступны на сайте ВИНИТИ http://www.viniti.ru/, но с полугодовой задержкой. Метод показа полных текстов
оптимизирован, и каталог поступлений взял на себя и эту задачу.
В электронном каталоге появился
новый поисковый критерий «наличие полных текстов», позволяющий искать только те
документы, которые имеют полный текст в базе данных. Если в списке найденных
документов присутствуют записи, связанные с полнотекстовой базой, рядом с ними
появляется пиктограмма «показать страницы статьи».
Форматы документов
В научно-технических областях
знаний тексты электронных документов, как правило, обильно приправлены
формулами, таблицами, рисунками, математическими и прочими специальными
символами в различных кодировках. Кроме этого, на читабельность текста влияют
элементы форматирования: выделение заголовков, нумерованных списков, колонок,
подписей к рисункам и т.п.
В лучшем случае мы имеем дело с
документами в символьном представлении в форматах PDF, HTML, RTF. В худшем случае – с графическими образами страниц, полученными путём
сканирования литературы на бумажном носителе.
В настоящее время подавляющую
часть потока электронных документов составляют графические образы страниц,
полученные с участка сканирования ВИНИТИ. Поскольку главная цель
разрабатываемой информационной системы – предоставить доступ к страницам через
электронный каталог поступлений ВИНИТИ, выбор форматов невелик. Сегодня любой
веб-браузер в состоянии корректно и без установки дополнительных программных
компонентов показывать только три графических формата: GIF (Graphics Interchange Format),
PNG (Portable Network Graphics)
и JPEG (JPEG File Interchange Format).
Формат JPEG рассчитан на цветные фотографии и предусматривает сжатие с потерей
качества, что приводит к «размыванию» мелких элементов изображений и таким
образом – к искаженному восприятию информации читателем.
Графический PDFмог бы оказаться неплохим
вариантом, визуально он выглядит несколько лучше других графических форматов
благодаря более совершенному средству просмотра – утилите AcrobatReader. Пользователь может получить не выбранную им страницу, а целиком
статью, которая загружается в AcrobatReader на его компьютере. С одной стороны, это удобно, с другой – время
отклика системы и трафик через Интернет увеличиваются в несколько раз. Во
многих случаях пользователю достаточно посмотреть одну или две страницы статьи
и не нужно ждать, пока запустится AcrobatReader и статья целиком будет загружена с веб-сайта на его компьютер. Объем
некоторых статей может оказаться весьма значительным (более 10 страниц),
следовательно, этот фактор нельзя не учитывать. Поэтому принято решение хранить
в базе данных и передавать пользователю через Интернет постраничные образы
документов.
Выбор для хранения
отсканированных черно-белых изображений сделан в пользу формата GIF и разрешающей способности 300 точек на дюйм. В перспективе по мере
роста вычислительной мощности клиентских компьютеров можно перейти к формату PNG. Пока что на слабых клиентских компьютерах (с тактовой частотой
процессора менее 1 ГГц) время распаковывания браузером сжатого PNG-файла слишком велико.
Однако
возможности полнотекстового хранилища не ограничены этими форматами. Как мы
покажем ниже, модель данных хранилища рассчитана на первоисточники в различных
форматах, в том числе на использование адресов документов (гиперссылок) для
обращения к внешним ресурсам.
Полнотекстовая база данных
По содержательному признаку
полнотекстовые документы могут быть трех видов: издание в целом, статья или
другая часть издания, отдельная страница издания.
Во всех трёх случаях документ
можно идентифицировать кодом выпуска издания и диапазоном номеров страниц.
Поэтому в базу данных можно загрузить файл любого формата, представляющий любой
вид документа. При этом необходимо указать формат файла (PDF, GIF, PNG и т.д.) и содержательный признак (издание, статья, страница) в
соответствующих полях базы данных, чтобы программное обеспечение веб-каталога
могло настраивать пользовательский интерфейс в зависимости от формата первоисточника.
Если документ хранится в
графическом виде и доступ к нему планируется осуществлять через Интернет, то
наиболее правильным является разбивка его на образы отдельных страниц.
Если документ хранится в
символьном виде (обычно в формате PDF), то наиболее часто используемой практикой в веб-каталогах является
представление одной статьи из журнала или сборника в виде одного PDF-файла.
При проектировании хранилища
важен выбор системы для хранения документов. Очевидно, что библиографические
записи должны быть в базе данных, а где должны размещаться связанные с ними
полнотекстовые документы?
Возможны два варианта: 1)
документ хранится в файловой системе, в базе данных содержится адрес файла; 2)
документ хранится в базе данных.
Выбор варианта хранения является
ключевым при разработке полнотекстового хранилища, по поводу достоинств и
недостатков обоих методов хранения можно найти множество дискуссий на
Интернет-форумах, посвящённых разработке баз данных. Этот вопрос носит
узкоспециальный характер, поэтому сообщим только результат выбора: выбран
второй вариант – документы загружаются непосредственно в базу данных, а именно,
в поля типа imageСУБД MicrosoftSQLServer, предназначенные для хранения больших двоичных объектов.
Вместо документа в
полнотекстовой базе может храниться его адрес на внешнем полнотекстовом
ресурсе. В качестве внешнего ресурса может выступать любой веб-сервер. С
помощью словаря «дескрипторы ресурсов» можно описать любой внешний ресурс,
указав его адрес в локальной или глобальной сети. Таким образом, полнотекстовая
база данных выступает в качестве шлюза, через который электронный каталог
поступлений может обращаться к любому доступному полнотекстовому ресурсу, а не
только к документам, хранящимся внутри системы.
Технология загрузки полных текстов
Технология подготовки и загрузки
полных текстов в хранилище должна обеспечивать решение трёх основных задач:
-
установление связи полнотекстового
документа с библиографическим каталогом;
-
обеспечение точности при
разметке страниц оглавлений журналов и сборников;
-
обеспечение качества
сканирования.
Связь между библиографическими и
полнотекстовыми записями в базе данных устанавливается на этапе загрузки
благодаря соглашениям по наименованию папок и файлов на файловом сервере, с
которого происходит загрузка. К моменту сканирования каждый первоисточник имеет
уникальный идентификатор в базе данных – числовой штрих-код и связанный с ним
идентификатор библиографической записи. Штрих-код приклеен на обложку
первоисточника. В названии папки для хранения результатов сканирования также
присутствует уникальный идентификатор библиографической записи. Оператор
считывает штрих-код ручным сканером, и результаты сканирования (графические
файлы) автоматически копируются в нужную папку.
На участке сканирования
создаются не только графические файлы образов страниц, но и текстовый файл
оглавления. Он получается путём оптического распознавания страниц оглавления
программой FineReader Professional 6.0c последующим ручным редактированием и разметкой полей, размещается в
той же папке, что и образы страниц первоисточника. Затем файл оглавления
загружается в массив описаний статей.
Таким образом программные модули
загрузки оглавлений и образов страниц «узнают» идентификатор библиографической
записи из названия папки на файловом сервере, что позволяет им устанавливать
необходимые связи в базе данных.
Оператор контролирует качество
сканирования и номенклатурное количество страниц. Имя файла должно совпадать с
номером страницы в первоисточнике.
Правильность разметки страниц
оглавлений контролировать труднее, но такие ошибки возникают редко и они не
столь критичны, так как при наличии полнотекстового документа в базе, корректно
связанного с библиографической записью; номера страниц можно исправить без
повторного сканирования первоисточника. Однако неправильные номера страниц в
описаниях статей могут доставить пользователю неудобства.
Автоматизированный контроль
нарушений ссылочной целостности возможно реализовать только для документов в
символьных форматах, из которых можно извлечь текст и сравнить первую страницу,
обычно содержащую название и список авторов, с библиографической записью. Но
сегодня в хранилище загружаются в основном графические образы страниц, для
которых реализовать такой контроль не представляется возможным. Поэтому
приходится полагаться на точность операторов участка сканирования и загрузки
данных.
Текущее наполнение хранилища и перспективы развития
В настоящее время в
полнотекстовую базу данных загружены выпуски следующих журналов, издаваемых в
ВИНИТИ:
Научно-техническая информация, сер. 1. – с 1997 по 2005 г.
Научно-техническая информация, сер. 2 – с 1997 по 2005 г.
Международный форум по информации – с 2004 по 2005 г.
Международный форум по информации и документации – с 2000 по 2004 г.
Свободный доступ к перечисленным
журналам открывается через полгода после выхода в свет.
В 2005 г. в порядке эксперимента
отсканированы и загружены в полнотекстовую базу более 2 тыс. депонированных
работ за 2004 г., которые заняли в базе данных 7,4 Гбайт дискового
пространства.
В 2006 г. в ВИНИТИ разработано
программно-технологическое обеспечение для формирования электронной
полнотекстовой библиотеки депонированных научных работ. Библиографические
описания и аннотации депонированных работ вводятся в производственном режиме по
мере поступления. Сами депонированные работы можно сканировать или получать от
авторов как в печатном, так и в электронном виде, что определяет технологию
формирования полных текстов. По соглашению с авторами можно устанавливать
степень доступности электронной версии депонированной работы через Интернет.
Эти вопросы должны быть прописаны в новой редакции «Положения о депонировании».
Для обеспечения сохранности ретроспективного фонда депонированных научных работ
планируется отсканировать и загрузить его в полнотекстовую базу данных. В
каталоге поступлений по состоянию на март 2006 г. присутствуют более
30 тыс. описаний депонированных в ВИНИТИ работ, из них полные тексты пока
загружены примерно для 7% документов.
Другой
возможный источник наполнения полнотекстовой базы данных – издания ВИНИТИ обзорного характера, проблемно-ориентированные реферативные,
информационные сборники и бюллетени. Их можно было бы с задержкой выставлять в
открытый доступ через каталог поступлений, а также открыть доступ подписчиков к
свежим номерам. Решение этого вопроса находится в компетенции редакционной
коллегии и руководства ВИНИТИ, технические возможности уже имеются. Оригинал-макеты
обзорных изданий ВИНИТИ доступны в электронном виде, поэтому их не придётся
сканировать.
Список использованных источников
1. Егоров В.
С., Шапкин А. В. Каталог поступлений НТЛ как источник новых форм
обслуживания потребителей информационных ресурсов ВИНИТИ // НТИ–2002. Информационное
общество. Интеллектуальная обработка информации. Информационные технологии.
Материалы 6-й Междунар. конф. (16–18 окт. 2002 г.). – М.: ВИНИТИ, 2002. – С.
130–132.
2. Шапкин А. В. Автоматизированная система
комплектования и регистрации входного потока ВИНИТИ. Ч. 1, 2 // НТИ. Сер. 1. –
2005. – № 3. – С. 8–19; № 4. – С. 16–31.
3. Фишер А.
М. Электронный каталог поступлений:
новый информационный ресурс ВИНИТИ // НТИ. Сер. 1. – 2006. – № 2. – С. 17–26.
|