УДК 025.4.036

Н. Н. Литвинова

Организация интегрированной среды пользователя
для поиска в сетевых удаленных ресурсах

Ресурсная база современной библиотеки включает множество разнообразных электронных ресурсов (ЭР), каждый из которых имеет свою специфику – как по видам включенных документов, так и по возможностям поиска в них.

По степени полноты представления документов в ЭР их можно разделить на три вида:

1. Реферативно-библиографические базы данных, содержащие вторичные документы: библиографические описания первичных документов, которые могут сопровождаться аннотациями или рефератами. Такие БД давно используются в библиотеках; они прошли путь от реализации на традиционных носителях (картотеки), затем на локальных компьютерах и компакт-дисках и в настоящее время – на удаленных серверах в сетевом доступе.

2. Полнотекстовые ЭР, в которых библиографические описания и аннотации/рефераты сопровождаются полными текстами документов. Этот вид ресурсов получил широкое распространение только в электронной среде, где можно хранить и индексировать большие объемы текстовой информации. Типичные примеры – БД статей из периодических изданий, диссертаций, электронных книг и др.

3. Смешанные ЭР, включающие как описания документов только на библиографическом уровне, так и сопровождающиеся полными текстами. Такие продукты характерны для компаний-агрегаторов, которые лицензируют продукцию многих издательств. Крупнейшие агрегаторы на западном рынке – компании EBSCO, ProQuest, Gale, Lexis-Nexis; на российском рынке – Интегрум.

Документ, представленный только на библиографическом уровне в одном продукте, может быть доступен на уровне полного текста в другом продукте, оплаченном библиотекой или находящемся в свободном доступе в Интернете. В этих случаях необходимо предоставить пользователю возможность перехода к полному тексту одним-двумя щелчками мыши.

Для того чтобы это сделать, можно и нужно использовать огромное преимущество World Wide Web (WWW), обеспечившее ему столь стремительное развитие и популярность у пользователей, – возможность связывания гиперссылками различных информационных ресурсов. Естественным решением в среде WWW является широкое внедрение в библиографические записи документов ссылок на их полные тексты.

В последнее время активно развивается также технология внедрения ссылок в списки литературы, включенные в научные работы. Эта технология успешно реализует традиционную модель, при которой изучение той или иной темы, освещаемой автором (авторами) работы, углубляется и расширяется за счет обращения к публикациям, упомянутым в списке литературы. Если раньше каждую такую работу нужно было искать и заказывать в библиотеке, то теперь можно перейти к ней по ссылке (разумеется, если доступ к ней бесплатен или оплачен организацией пользователя). Таким образом, тематически связанные электронные ресурсы образуют интегрированную информационную среду независимо от их локализации в различных электронных ресурсах на сколь угодно удаленных серверах.

Вопрос заключается в том, чтобы решить, какими будут внедряемые ссылки. С момента зарождения веба в нем использовались статичные гиперссылки. Ссылка на информационный ресурс была основана на его URL (Uniform Resource Locator) – адресе страницы в Интернете. Если этот адрес менялся, ссылка переставала работать. Чтобы сделать систему ссылок более надежной, информационное сообщество предложило использовать в них постоянные имена (идентификаторы) ресурсов. Постоянное имя, присвоенное ресурсу в определенном пространстве имен и зарегистрированное в службе, поддерживающей это пространство, становится основой устойчивой, надежной ссылки на ресурс. Служба пространства имен поддерживает базу данных, в которой постоянным именам ресурсов поставлены в соответствие их актуальные сетевые адреса.

В качестве пространства имен используются как традиционные системы идентификации ресурсов (ISSN – для журналов, ISBN – для книг), так и системы, появившиеся в последние годы в связи с обретением относительной самостоятельности электронных публикаций, ранее входивших как части в журналы и книги: статей, глав и т.п. [1].

Особенно важную роль здесь играет DOI (Digital Object Identifier) – идентификатор цифрового объекта. Этот уникальный идентификатор присваивается электронному ресурсу его издателем и служит основой стабильных ссылок, используемых в системе CrossRef (www.crossref.org). Сейчас в эту систему входят около 2,5 тыс. членов (издательств и библиотек), а DOI присвоен уже более 30 млн ресурсов.

CrossRef поддерживает БД, в которой DOI сопоставлены актуальные адреса (URL) соответствующих ресурсов, а также их метаданные. Если пользователь знает DOI необходимого ему документа, он может ввести его в поисковую строку на домашней странице сайта CrossRef и, получив URL этого документа, сразу перейти на страницу с его описанием. На странице http://www.crossref.org/guestquery/ размещена поисковая форма, куда можно ввести метаданные искомого документа и получить его DOI, оформленный как ссылка на документ с помощью префикса http:/dx.doi.org/.

Однако и эта система ссылок не свободна от недостатков. Прежде всего потому, что ее применение опирается на полный контроль информационной среды, на закрытое подмножество ее ресурсов, использующих DOI.

В CrossRef входят издатели – игроки информационного поля, заинтересованные в наведении порядка на нем и готовые платить за это. Членство в CrossRef – платное: ежегодная сумма включает членский взнос и небольшую плату за присвоение DOI каждой публикации. Однако эта сумма может быть достаточно серьезной для небольших бесприбыльных издательств, тем более – для репозитариев открытого доступа. Множество ценных научных ресурсов, размещенных в Интернете, не имеют DOI, поскольку его использование связано с дополнительными организационными и финансовыми затратами.

Другой недостаток CrossRef: DOI присваивается конкретному воплощению научной работы на определенной издательской платформе. Если статья опубликована в журнале издательства, ссылка на основе DOI приведет пользователя к статье на платформе издателя, присвоившего DOI. Если эта же статья включена в продукт агрегатора или в открытый репозитарий публикаций какой-либо организации, пользователь об этом не узнает.

Наконец, третья проблема статичных ссылок всех систем на основе постоянных имен заключается в том, что они не учитывают ситуативный контекст. Ссылка на полный текст приведет пользователя к ресурсу независимо от того, имеет он доступ к его полному тексту или не имеет.

Осознание недостатков статичных ссылок и поиски лучшего решения для внедрения надежных ссылок на ресурсы привели к появлению динамической технологии связывания, основанной на включении в ссылку метаданных работы и последующем поиске ее по этим метаданным. Эта технология вначале внедрялась для связывания разных БД одного производителя ресурсов, затем постепенно производители стали договариваться между собой об общих правилах оформления таких ссылок, чтобы они работали при переходе между разными платформами. Так появился OpenURL.

Идея OpenURL предложена Гербертом ван де Сомпелем и реализована им и его коллегами в Центральной библиотеке Университета Гента (Бельгия) в 1998 г. [2–5]. Основное в этой идее – опора не на заранее заданные, статичные имена и сопоставленные им адреса, а на использование для определения адреса ресурса набора его основных метаданных. Например, для журнальной статьи в этот набор обычно входят ISSN журнала, год издания, номера тома и выпуска, номер страницы, с которой начинается статья. Могут использоваться также авторы, заглавия и другие метаданные, в том числе DOI. Таким образом, адрес ресурса порождается «на лету». Информационный ресурс (например реферативно-библиографическая БД или ЭК библиотеки), для которого формируются динамические ссылки OpenURL на другие ресурсы, называется источником ссылки (link source), а ресурс, к которому адресует ссылка, – целью ссылки (link target).

Разработанный на основе идей Ван де Сомпеля протокол OpenURL обеспечивает стандартизованное извлечение метаданных из источника ссылки и передачу их на сервер, который может «распаковать» полученные метаданные и провести поиск цели ссылки в ресурсах-целях. Соответственно в OpenURL выделяются две части: первая – адрес входа на сервер, которому адресован набор метаданных, составляющий основу описания второй части (в описание входит также идентификатор источника). Эти части разделяются вопросительным знаком.

Пример ссылки, адресованной SFX-серверу Университета Калгари (Канада), с метаданными статьи из журнала “Wildlife Conservation”:

http://sfx.exlibrisgroup.com:9003/calgary?genre=article&ISSN=10484949&titleWildlife%20Conservation&volume
=107&issue=1&date=20040101&atitle=Destination%20Africa%2E&spage=48
&sid=EBSCO:aph
(Адрес сервера – до вопросительного знака.)

В набор метаданных включены: указание на жанр документа (articleстатья); ISSN журнала; название журнала (title – Wildlife Conservation); номера тома и выпуска (volume, issue), дата выхода (date); заглавие статьи (atitle); номер начальной страницы (spage);

sid – идентификатор источника ссылки, а именно базы данных EBSCO Academic Search Premier.

В 2001 г. создана группа для разработки стандарта NISO на OpenURL. Стандарт ANSI/NISOZ39.88-2004 «TheOpenURLFrameworkforContext-SensitiveServices» принят в 2004 г. Приведенная ссылка оформлена в соответствии с этим стандартом.

Как сказано выше, важным достоинством динамических ссылок является то, что они адресуются только тем информационным продуктам, к которым имеют доступ пользователи библиотеки. Таким образом, они становятся «чувствительными к контексту» (context sensitive). Для реализации этого подхода применяется специальный программный продукт, который пионеры его внедрения из Университета Гента назвали SFX (Special Effects). С развитием целого ряда таких продуктов они получили обобщенное название Link Resolver.

Функция Link Resolver – сформировать ссылки только на те ресурсы, к которым имеет доступ авторизованный пользователь библиотеки. Эта функция выполняется на основе базы знаний, содержащей детальную информацию обо всех ресурсах, на которые подписана данная библиотека. Во многих работах в качестве синонима LinkResolver используется термин LinkServer, хотя некоторые авторы рассматривают LinkResolver как составную часть LinkServer, в который входит также база знаний.

Общепринятого перевода термина LinkResolver на русский язык пока нет. В. В. Писляков, руководивший первым в России внедрением сервиса этого класса в библиотеке ГУ ВШЭ, употребляет термин распознающий сервер [6]. Этот термин выглядит достаточно нейтрально и имеет довольно широкое значение, поскольку в нем не отражено, что именно распознается (ссылки, имена, адреса…).

В англоязычной литературе компьютерной тематики употребляются несколько словосочетаний с главным словом resolver(активный субъект действия) и зависимыми словами, обозначающими объекты, на которые направлено действие: nameresolver, addressresolverи др.

Нельзя сказать, что перевод таких словосочетаний устоялся. Resolver обозначает программу, выполняющую действие, называемое resolution. Для перевода resolutionчаще всего используется слово разрешение, но далеко не всегда: например, термин AddressResolutionProtocol, как свидетельствует поиск в Яндексе, переводят примерно c одинаковой частотой как протокол разрешения адресов, и как протокол определения адресов.

Субъект действия также не имеет последовательно применяемого обозначения. Иногда используется естественное, на первый взгляд, название субъекта действия – разрешитель – однокоренное со словом разрешение (как в парах типа «нагревание – нагреватель»), но слово это непривычное, оно лишь недавно (в 2000 г.) включено в толково-словообразовательный словарь Т. Ф. Ефремовой. Название субъекта определитель (от слова определение) отторжения не вызывает и используется шире: определитель имен, определитель адресов. Поэтому мне представляется, что сегодня наиболее удачный вариант для перевода LinkResolverопределитель ссылок. Определитель здесь употребляется в том же значении, как в терминах определитель растений, определитель минералов, подразумевающем процесс определения объекта (растения, минерала) по нескольким известным признакам. Такой же смысл имеет и определение ссылки на ресурс по набору известных метаданных.

База знаний (БЗ) – основа определителя ссылок, от которой более всего зависит качество его работы. Коммерческие продукты, предлагаемые сейчас на западном рынке, учитывают в своих БЗ около сотни тысяч только периодических изданий с подробной информацией об особенностях их представления в информационных продуктах разных провайдеров: хронологических границах, периодах эмбарго, форматах представления и др. Отметим, что в базы знаний включаются не только коммерческие, но и общедоступные ресурсы, такие, как созданные в рамках движения OpenAccess: OAIster и DOAJ (Directory of Open Access Journals). К сожалению, БЗ западных компаний традиционно скудно отражают российскую периодику. Она либо присутствует на уровне тех журналов, которые представляются западными издательствами на своих платформах, либо вообще отсутствует.

Библиотека, использующая определитель ссылок коммерческой компании, «настраивает» ее БЗ, выделяя в ней ресурсы, к которым имеет доступ, и задавая ресурсы-источники и ресурсы-цели. Таким образом, в БЗ формируется подмножество ресурсов, актуальное для данной библиотеки.

Предложенная технология реализации ссылок, чувствительных к контексту, по достоинству оценена информационным и научным сообществом и стала активно развиваться. Разработка SFX куплена международной компанией Ex Libris, известной своими программными решениями для библиотек (электронный каталог ALEPH и др.). В мае 2000 г. компания представила собственный коммерческий продукт – SFX-сервер.

Свои определители ссылок вскоре разработали и другие известные компании. В 2001 г. появились LinkFinderPlus компании Endeavour Information Systems (внедрен на платформе Science Direct компании Эльзевир) и 1 Cate компании Openly Informatics. В последующие годы этот список пополнился еще более чем десятью продуктами этого типа [7].

Определители ссылок обычно обеспечивают следующие типы ссылок:

Определители ссылок быстро завоевали популярность в библиотечно-информационном мире. Библиотеки покупают их, несмотря на высокую стоимость. Существуют два варианта покупки. При первом – библиотека приобретает программный продукт и устанавливает его на своем сервере; при втором – библиотека пользуется определителем ссылок на сервере компании-разработчика и ежегодно оплачивает пользование. Оплата зависит от объема подписки библиотеки и использования дополнительных сервисов (составления сводных списков источников и др.) и составляет несколько тысяч долларов в год; для крупных библиотек – более 10 тыс.

Многие библиотеки предпочитают второй вариант покупки. Он избавляет их от необходимости отслеживать постоянно меняющиеся ЭР, на которые они подписаны: появление в них новых источников, удаление других, изменения в хронологических границах представления периодических изданий, снятие периода эмбарго и др.

Первый вариант использования определителя ссылок тоже достаточно популярен. В его пользу обычно приводятся два соображения. Первое: при всей открытости современного мира многие организации не хотят передавать третьей стороне полную информацию о своей подписке, раскрывая тем самым тематику своих работ. Второе: настройка универсальной БЗ на сервере производителя определителя ссылок – сложный и трудоемкий процесс. Если библиотека или консорциум библиотек готовы взять его на себя и самостоятельно поддерживать актуальность информации о своей подписке, они получают более компактную БЗ, которую полностью контролируют.

Логика размышлений, приводящая к предпочтению первого варианта подписки на коммерческий определитель ссылок, нередко приводит библиотеки к решению вообще отказаться от подписки и разработать собственный программный продукт. Его разработка не столь затратна, как ведение БЗ. По такому пути пошли, например, библиотеки консорциума штата Колорадо. Теперь их продукт GoldRush не только используется библиотеками консорциума, но и предлагается другим библиотекам по ценам, существенно ниже запрашиваемых коммерческими компаниями [8]. Небольшие библиотеки могут также адаптировать общедоступные Link Resolver, например, разработанный в Великобритании под эгидой UKOLN (the UK Office for Library and Information Networking) OpenResolver [9].

Подводя итог всему вышесказанному, можно утверждать, что ведущим подходом к организации эффективного доступа к разнородным информационным ресурсам, к их эффективной интеграции стало внедрение стандарта OpenURL и технологии Link Resolver. Однако конкретное воплощение этого подхода зависит от того, какие приоритеты выстроят для себя библиотеки или их консорциумы, будут ли они полностью ориентироваться на готовые решения или попробуют самостоятельно адаптировать принципиальные решения с максимальным учетом своих потребностей.

В России определители ссылок пока практически не используются. Единственное известное мне успешное внедрение  продукта LinkSource – определителя ссылок компании EBSCOIndustries – осуществлено в библиотеке Государственного университета «Высшая школа экономики» в 2007 г. [10], обладающей богатой коллекцией электронных ресурсов и серьезно занимающейся проблемами управления ЭР.

Однако у российских библиотек немало возможностей использования технологии связывания ссылками разнородных информационных ресурсов, не требующих дополнительных финансовых затрат. Как отмечено выше, особенно актуально внедрение ссылок в электронные ресурсы, содержащие большое количество библиографических записей, не сопровождающихся полными текстами в пределах этих ЭР: реферативно-библиографические БД, БД агрегаторов, системы метапоиска. Многие из них предоставляют возможность встраивания ссылок на ресурсы, доступные данной библиотеке.

Особенно актуальна такая возможность для:

Использование этих возможностей до некоторой степени позволяет компенсировать отсутствие полнофункционального определителя ссылок и сформировать интегрированную среду поиска для пользователей библиотеки.

Список источников

1. The Role of the ISSN in the Electronic Linking Environment. By: Shemberg, Marian. Serials Review, 2003, Vol. 29, Issue 2, p. 89, 8 p.

2. Reference Linking in a Hybrid Library Environment, Part 1: Frameworks for Linking. By Herbert Van de Sompel and Patrick Hochstenbach. – D-Lib Magazine, Volume 5, Number 4. – http://www.dlib.org/dlib/april99/van_de_sompel/04van_de_sompel-pt1.html

3. Reference Linking in a Hybrid Library Environment, Part 2: SFX, a Generic Linking Solution. By Herbert Van de Sompel and Patrick Hochstenbach. –  D-Lib Magazine, Volume 5, Number 4. –http://www.dlib.org/dlib/april99/van_de_sompel/04van_de_sompel-pt2.html

4. Open Linking in the Scholarly Information Environment Using the OpenURL Framework. By Herbert V. de Sompel, Oren Beit-Arie. – D-Lib Magazine, Volume 7, Number 3 <http://www.dlib.org/dlib/march01/vandesompel/03vandesompel.html

5. OpenURL Syntax Description. By  Herbert Van de Sompel, Patrick Hochstenbach, Oren Beit-Arie  – http://www.sfxit.com/openurl/openurl.html>

6. Писляков В. В. Использование онлайновых ресурсов и управление электронной подпиской в библиотеке ГУ-ВШЭ // Университетское управление: практика и анализ. – 2006. № 4 (44). – С. 47–56. (Перепеч. в: Университетские инновации: опыт Высшей школы экономики / Г. Г. Канторович, Я. И. Кузьминов, В. В. Писляков и др.; под ред. Я. И. Кузьминова. – Москва: ГУ-ВШЭ, 2006. – С. 160–178.).

7. October: OpenURL Link Resolvers. By: Ferguson, Christine L., Ferguson, Christine L., Grogg, Jill E., Grogg, Jill E., Computers in Libraries, 10417915, Oct2004, Vol. 24, Issue 9.

8. Gold Rush: Electronic Journal Management System and OpenURL Link Resolver. – Online Libraries & Microcomputers, Dec2002, Vol. 20. Issue 12, p. 4, 5p.

9. OpenResolver source code – ftp://ftp.ukoln.ac.uk/metadata/tools/openresolver

10. Евстигнеева Е. Управление электронной подпиской при помощи инструментов A to Z и LinkSource: опыт библиотеки ГУ-ВШЭ. – http://gpntb.ru/win/inter-events/crimea2007/ cd/62.pdf

11. Литвинова Н. Н. Возможности Link Resolver (определителя ссылок) на примере ScholarSFX – http://elibrary.ru/projects/conference/montenegro2006/presentations/ScholarSFX.ppt