Научные и технические библиотеки №2 2007 год
Содержание:

13-я Международная конференция «Библиотечные и информационные ресурсы в современном мире науки, культуры, образования и бизнеса» – «Крым–2006»
Секция «Мировая информационная инфраструктура, национальные информационные ресурсы и национальные библиотеки, проекты международного сотрудничества»

Гриханов Ю. А. Публичные библиотеки Россиии реформирование бюджетных отношений

Середа О. А. Международная деятельность ГПНТБ России в области МБА и доставки документов: новые технологии обслуживания пользователей

Савельева Л. Д. Информационно-сервисный центр РНБ: особенности функционирования в традиционной и электронной среде

Вербина Н. Ф., Кузина Н. Ю. Российская национальная библиотека в европейских организациях и проектах (на примере Консорциума европейских научных библиотек)

Аслитдинова А. А. Цифровой разрыв и сохранение национального документального наследия

Секция «Автоматизированные и корпоративные библиотечные системы и технологии»

Яцевич Н. А. Автоматизация библиотек: проблемы терминологии

Карауш А. С., Макаревич А. С. Построение информационной системы в МИБС города Томска

Секция «Электронные библиотеки»

ВасильевВ. В., Хливненко Л. В., Сороколетова Н. В. Создайте образ

Писляков В. В. Зачем создавать национальные индексы цитирования?

Федорец О. В., Фишер А. М., Батюшко А. А. Хранилище полных текстов для доступа пользователей через электронный каталог поступлений ВИНИТИ

Сизов Б. Н., Маркарова Т. С. Создание предметно-ориентированных электронных баз данных как одна из актуальных задач развития справочно-информационного обеспечения образования

Крайнова Б. Л., Глухова Е. И. Российские математические электронные ресурсы. Совместный российско-германский проект «Российская электронная математическая библиотека»

Степанов В. К. Формирование цифровых коллекций в традиционных библиотеках

ОБЗОРЫ. РЕЦЕНЗИИ

Антонова С. Г. Библиографоведение: вчера, сегодня, завтра

ИНФОРМАЦИОННЫЕ СООБЩЕНИЯ

Сукиасян Э. Р. «Информационная культура личности: вызовы информационного общества» – Международная научно-практическая конференция


 

О. В. Федорец, А. М. Фишер, А. А. Батюшко

ВИНИТИ РАН, Москва

Хранилище полных текстов для доступа пользователей
через электронный каталог поступлений ВИНИТИ

Представлены результаты работы, выполненной в 2005 г., по созданию и наполнению хранилища полных текстов, интегрированного с электронным каталогом поступлений, который доступен через Интернет-сайт ВИНИТИ. Изложены основные принципы построения хранилища, технология обработки и загрузки документов.

Электронный каталог поступлений ВИНИТИ

С 1999 г. в ВИНИТИ ведутся работы по созданию электронного каталога поступлений научно-технической литературы. Именно в этом году введена в эксплуатацию «Автоматизированная система комплектования и регистрации входного потока» (сокращённо АСКР), информационные массивы которой послужили основой для создания веб-каталога [1; 2].

При обработке входного потока информационные массивы АСКР пополняются элементами данных, которые можно извлечь до глубокой содержательной обработки публикаций в отраслевых отделах ВИНИТИ. Таким образом, по сравнению с реферативными базами ВИНИТИ каталог поступлений предполагает повышенную оперативность отражения библиографической информации. Помимо библиографической информации на монографическом уровне массивы данных АСКР пополняются описаниями статей, авторскими аннотациями и результатами первичной тематической разметки. Также поддерживается технологическая информация о канале поступления, месте хранения и технологическом маршруте экземпляра НТЛ.

Веб-каталог поступлений модернизирован в 2004 г. и переведён на технологию ASP и веб-сервер MicrosoftIIS. При этом пользовательский интерфейс существенно переделан и приведён к общему стилевому оформлению, принятому для Интернет-сайта ВИНИТИ. В настоящее время каталог доступен по адресу http://catalog.viniti.ru/.

В процессе развития в 2004–2005 гг. увеличилась функциональная нагрузка на каталог. Сегодня он не только объединил спектр разрозненных информационных услуг, в той или иной степени существовавших до его появления, но и значительно его расширил [3].

Основные достоинства каталога:

  • предоставление полных библиографических указателей с актуальной технологической информацией по всем изданиям, обработанным в институте;
  • заказ копий страниц первоисточника для абонентов ВИНИТИ;

  • показ оглавлений выпусков с авторскими аннотациями для публикаций наиболее популярных среди ученых;

  • поиск по библиографическим полям, кодам тематической разметки и авторским аннотациям;

  • хранение персонифицированных пользовательских настроек, обеспечивающих более эффективную работу с каталогом.

 

Наряду с показом авторских аннотаций для статей и депонированных научных работ в каталоге реализована возможность показа собственно текстов статей. Изначально это задумывалось главным образом для трёх журналов, издаваемых в ВИНИТИ: «Научно-техническая информация», серии 1 и 2 и «Международный форум по информации». Тексты этих журналов были и раньше доступны на сайте ВИНИТИ http://www.viniti.ru/, но с полугодовой задержкой. Метод показа полных текстов оптимизирован, и каталог поступлений взял на себя и эту задачу.

В электронном каталоге появился новый поисковый критерий «наличие полных текстов», позволяющий искать только те документы, которые имеют полный текст в базе данных. Если в списке найденных документов присутствуют записи, связанные с полнотекстовой базой, рядом с ними появляется пиктограмма «показать страницы статьи».

Форматы документов

В научно-технических областях знаний тексты электронных документов, как правило, обильно приправлены формулами, таблицами, рисунками, математическими и прочими специальными символами в различных кодировках. Кроме этого, на читабельность текста влияют элементы форматирования: выделение заголовков, нумерованных списков, колонок, подписей к рисункам и т.п.

В лучшем случае мы имеем дело с документами в символьном представлении в форматах PDF, HTML, RTF. В худшем случае – с графическими образами страниц, полученными путём сканирования литературы на бумажном носителе.

В настоящее время подавляющую часть потока электронных документов составляют графические образы страниц, полученные с участка сканирования ВИНИТИ. Поскольку главная цель разрабатываемой информационной системы – предоставить доступ к страницам через электронный каталог поступлений ВИНИТИ, выбор форматов невелик. Сегодня любой веб-браузер в состоянии корректно и без установки дополнительных программных компонентов показывать только три графических формата: GIF (Graphics Interchange Format), PNG (Portable Network Graphics) и JPEG (JPEG File Interchange Format).

Формат JPEG рассчитан на цветные фотографии и предусматривает сжатие с потерей качества, что приводит к «размыванию» мелких элементов изображений и таким образом – к искаженному восприятию информации читателем.

Графический PDFмог бы оказаться неплохим вариантом, визуально он выглядит несколько лучше других графических форматов благодаря более совершенному средству просмотра – утилите AcrobatReader. Пользователь может получить не выбранную им страницу, а целиком статью, которая загружается в AcrobatReader на его компьютере. С одной стороны, это удобно, с другой – время отклика системы и трафик через Интернет увеличиваются в несколько раз. Во многих случаях пользователю достаточно посмотреть одну или две страницы статьи и не нужно ждать, пока запустится AcrobatReader и статья целиком будет загружена с веб-сайта на его компьютер. Объем некоторых статей может оказаться весьма значительным (более 10 страниц), следовательно, этот фактор нельзя не учитывать. Поэтому принято решение хранить в базе данных и передавать пользователю через Интернет постраничные образы документов.

Выбор для хранения отсканированных черно-белых изображений сделан в пользу формата GIF и разрешающей способности 300 точек на дюйм. В перспективе по мере роста вычислительной мощности клиентских компьютеров можно перейти к формату PNG. Пока что на слабых клиентских компьютерах (с тактовой частотой процессора менее 1 ГГц) время распаковывания браузером сжатого PNG-файла слишком велико.

Однако возможности полнотекстового хранилища не ограничены этими форматами. Как мы покажем ниже, модель данных хранилища рассчитана на первоисточники в различных форматах, в том числе на использование адресов документов (гиперссылок) для обращения к внешним ресурсам.

Полнотекстовая база данных

По содержательному признаку полнотекстовые документы могут быть трех видов: издание в целом, статья или другая часть издания, отдельная страница издания.

Во всех трёх случаях документ можно идентифицировать кодом выпуска издания и диапазоном номеров страниц. Поэтому в базу данных можно загрузить файл любого формата, представляющий любой вид документа. При этом необходимо указать формат файла (PDF, GIF, PNG и т.д.) и содержательный признак (издание, статья, страница) в соответствующих полях базы данных, чтобы программное обеспечение веб-каталога могло настраивать пользовательский интерфейс в зависимости от формата первоисточника.

Если документ хранится в графическом виде и доступ к нему планируется осуществлять через Интернет, то наиболее правильным является разбивка его на образы отдельных страниц.

Если документ хранится в символьном виде (обычно в формате PDF), то наиболее часто используемой практикой в веб-каталогах является представление одной статьи из журнала или сборника в виде одного PDF-файла.

При проектировании хранилища важен выбор системы для хранения документов. Очевидно, что библиографические записи должны быть в базе данных, а где должны размещаться связанные с ними полнотекстовые документы?

Возможны два варианта: 1) документ хранится в файловой системе, в базе данных содержится адрес файла; 2) документ хранится в базе данных.

Выбор варианта хранения является ключевым при разработке полнотекстового хранилища, по поводу достоинств и недостатков обоих методов хранения можно найти множество дискуссий на Интернет-форумах, посвящённых разработке баз данных. Этот вопрос носит узкоспециальный характер, поэтому сообщим только результат выбора: выбран второй вариант – документы загружаются непосредственно в базу данных, а именно, в поля типа imageСУБД MicrosoftSQLServer, предназначенные для хранения больших двоичных объектов.

Вместо документа в полнотекстовой базе может храниться его адрес на внешнем полнотекстовом ресурсе. В качестве внешнего ресурса может выступать любой веб-сервер. С помощью словаря «дескрипторы ресурсов» можно описать любой внешний ресурс, указав его адрес в локальной или глобальной сети. Таким образом, полнотекстовая база данных выступает в качестве шлюза, через который электронный каталог поступлений может обращаться к любому доступному полнотекстовому ресурсу, а не только к документам, хранящимся внутри системы.

 

Технология загрузки полных текстов

Технология подготовки и загрузки полных текстов в хранилище должна обеспечивать решение трёх основных задач:

  • установление связи полнотекстового документа с библиографическим каталогом;

  • обеспечение точности при разметке страниц оглавлений журналов и сборников;

  • обеспечение качества сканирования.

Связь между библиографическими и полнотекстовыми записями в базе данных устанавливается на этапе загрузки благодаря соглашениям по наименованию папок и файлов на файловом сервере, с которого происходит загрузка. К моменту сканирования каждый первоисточник имеет уникальный идентификатор в базе данных – числовой штрих-код и связанный с ним идентификатор библиографической записи. Штрих-код приклеен на обложку первоисточника. В названии папки для хранения результатов сканирования также присутствует уникальный идентификатор библиографической записи. Оператор считывает штрих-код ручным сканером, и результаты сканирования (графические файлы) автоматически копируются в нужную папку.

На участке сканирования создаются не только графические файлы образов страниц, но и текстовый файл оглавления. Он получается путём оптического распознавания страниц оглавления программой FineReader Professional 6.0c последующим ручным редактированием и разметкой полей, размещается в той же папке, что и образы страниц первоисточника. Затем файл оглавления загружается в массив описаний статей.

Таким образом программные модули загрузки оглавлений и образов страниц «узнают» идентификатор библиографической записи из названия папки на файловом сервере, что позволяет им устанавливать необходимые связи в базе данных.

Оператор контролирует качество сканирования и номенклатурное количество страниц. Имя файла должно совпадать с номером страницы в первоисточнике.

Правильность разметки страниц оглавлений контролировать труднее, но такие ошибки возникают редко и они не столь критичны, так как при наличии полнотекстового документа в базе, корректно связанного с библиографической записью; номера страниц можно исправить без повторного сканирования первоисточника. Однако неправильные номера страниц в описаниях статей могут доставить пользователю неудобства.

Автоматизированный контроль нарушений ссылочной целостности возможно реализовать только для документов в символьных форматах, из которых можно извлечь текст и сравнить первую страницу, обычно содержащую название и список авторов, с библиографической записью. Но сегодня в хранилище загружаются в основном графические образы страниц, для которых реализовать такой контроль не представляется возможным. Поэтому приходится полагаться на точность операторов участка сканирования и загрузки данных.

Текущее наполнение хранилища и перспективы развития

В настоящее время в полнотекстовую базу данных загружены выпуски следующих журналов, издаваемых в ВИНИТИ:

Научно-техническая информация, сер. 1. – с 1997 по 2005 г.

Научно-техническая информация, сер. 2 – с 1997 по 2005 г.

Международный форум по информации – с 2004 по 2005 г.

Международный форум по информации и документации – с 2000 по 2004 г.

Свободный доступ к перечисленным журналам открывается через полгода после выхода в свет.

В 2005 г. в порядке эксперимента отсканированы и загружены в полнотекстовую базу более 2 тыс. депонированных работ за 2004 г., которые заняли в базе данных 7,4 Гбайт дискового пространства.

В 2006 г. в ВИНИТИ разработано программно-технологическое обеспечение для формирования электронной полнотекстовой библиотеки депонированных научных работ. Библиографические описания и аннотации депонированных работ вводятся в производственном режиме по мере поступления. Сами депонированные работы можно сканировать или получать от авторов как в печатном, так и в электронном виде, что определяет технологию формирования полных текстов. По соглашению с авторами можно устанавливать степень доступности электронной версии депонированной работы через Интернет. Эти вопросы должны быть прописаны в новой редакции «Положения о депонировании». Для обеспечения сохранности ретроспективного фонда депонированных научных работ планируется отсканировать и загрузить его в полнотекстовую базу данных. В каталоге поступлений по состоянию на март 2006 г. присутствуют более 30 тыс. описаний депонированных в ВИНИТИ работ, из них полные тексты пока загружены примерно для 7% документов.

Другой возможный источник наполнения полнотекстовой базы данных – издания ВИНИТИ обзорного характера, проблемно-ориентированные реферативные, информационные сборники и бюллетени. Их можно было бы с задержкой выставлять в открытый доступ через каталог поступлений, а также открыть доступ подписчиков к свежим номерам. Решение этого вопроса находится в компетенции редакционной коллегии и руководства ВИНИТИ, технические возможности уже имеются. Оригинал-макеты обзорных изданий ВИНИТИ доступны в электронном виде, поэтому их не придётся сканировать.

Список использованных источников

1. Егоров В. С., Шапкин А. В. Каталог поступлений НТЛ как источник новых форм обслуживания потребителей информационных ресурсов ВИНИТИ // НТИ–2002. Информационное общество. Интеллектуальная обработка информации. Информационные технологии. Материалы 6-й Междунар. конф. (16–18 окт. 2002 г.). – М.: ВИНИТИ, 2002. – С. 130–132.

2. Шапкин А. В. Автоматизированная система комплектования и регистрации входного потока ВИНИТИ. Ч. 1, 2 // НТИ. Сер. 1. – 2005. – № 3. – С. 8–19; № 4. – С. 16–31.

3. Фишер А. М. Электронный каталог поступлений: новый информационный ресурс ВИНИТИ // НТИ. Сер. 1. – 2006. – № 2. – С. 17–26.

 

  
На главную