Т. А. Москаленко, Н. А. Мякова
Парламентская библиотека,
Государственная Дума, Москва
Информационно-поисковый тезаурус
Парламентской библиотеки:
этапы разработки, ведение, применение
и дальнейшие перспективы
Многоязычный тезаурус Eurovoc был специально разработан для индексирования и поиска информации в документальных и библиографических базах данных ЕС. Тематически он охватывает все сферы деятельности европейских институтов. В настоящее время этим информационно-лингвистическим средством пользуются Европейский парламент, Бюро официальных публикаций ЕС, парламентские библиотеки, информационно-аналитические и документационные службы ряда европейских стран. В 1995 г., когда Парламентская библиотека начала заниматься проектом перевода тезауруса Eurovoc на русский язык, его официальная версия была представлена на 11 языках, в настоящее время – уже на 21 официальном языке ЕС, а также на албанском, русском, хорватском и украинском.
В 1998 г. в Парламентской библиотеке подготовлена русская версия тезауруса Eurovoc, осуществлен его перевод и адаптация, вышло издание многоязычного представления тезауруса. В 2000 г. проведено поэтапное объединение русской версии с собственным тезаурусом библиотеки. Объем полученного тезауруса оказался более 11 тыс. лексических единиц и около 16, 5 тыс. семантических связей.
В 2001 г. выпущен новый трехтомник информационно-поискового тезауруса (ИПТ), включающего алфавитно-пермутационное, тематическое и многоязычное (на русском, французском, английском языках) представления.
Эта новая редакция тезауруса одобрена на заседании Научно-консультативного совета по систематизации, кодификации законодательства и правовой информации при Председателе Государственной Думы и было рекомендовано продолжить работу в направлении как практического применения тезауруса в парламентских информационных ресурсах, так и дальнейшего его развития для обеспечения информационной, лингвистической и терминологической поддержки законотворческой деятельности депутатов.
В 2004 г.в
Федеральной службе по интеллектуальной собственности, патентам и товарным
знакам осуществлена официальная регистрация
БД Тезаурус Парламентской библиотеки «ЛингваПарл» (свидетельство
№ 2004620218; правообладатель Аппарат Государственной Думы Федерального
Собрания Российской Федерации).
По состоянию на конец апреля 2008 г. в составе ИПТ Парламентской библиотеки около 13 тыс. лексических единиц и около 24 тыс. семантических связей.
Структура ИПТ Парламентской библиотеки аналогична структуре тезауруса Eurovoc, за исключением двух типов новых связей в тезаурусных статьях аскрипторов.
Отличительная черта этой тезаурусной структуры – ее интегральный характер, а именно: соединение двух типов информационно-поисковых языков – предметно-классификационного и дескрипторного. Структура тезауруса на верхнем уровне представлена иерархической классификацией – 21 тематическим разделом и 127 микротезаурусами, входящими в их состав, на нижнем уровне – лексическими единицами и их тезаурусными статьями. В тезаурусных статьях помимо примечания, уточняющего значение и употребление лексической единицы, указываются: тематическая принадлежность дескриптора, отношения условной эквивалентности, иерархические и ассоциативные отношения.
Для дескрипторов ИПТ Парламентской библиотеки, которые являются и дескрипторами Eurovoc, предусмотрены также эквиваленты на английском и французском языках, что позволяет осуществлять поиск в зарубежных поисковых системах (прежде всего ЕС), где используется тезаурус Eurovoc.
Организация содержательной обработки документов в Парламентской библиотеке построена таким образом, чтобы использовать возможности обоих информационно-поисковых языков, содержащихся в тезаурусе. Тезаурус применяется для аналитической обработки всех видов документов, поступающих в фонд библиотеки, и информационного поиска в базах данных: отечественных и зарубежных книг, авторефератов диссертаций, неопубликованных материалов; статей из журналов и сборников; публикаций официальных документов.
По состоянию на конец апреля 2008 г. в электронном каталоге Парламентской библиотеки с помощью тезауруса проиндексировано: около 172 тыс. книг, авторефератов диссертаций и неопубликованных материалов, около 201 тыс. статей, около 286 тыс. публикаций официальных документов.
С использованием названий разделов и микротезаурусов был подготовлен предметно-тематический ряд для представления библиографической информации в Бюллетене новых поступлений Парламентской библиотеки.
При регистрации поступающих запросов в системе контроля за их выполнением осуществляется тематическая классификация запросов в соответствии с перечнем микротезаурусов и ежемесячно подготавливаются тематические рейтинги запросов (в соответствии с разделами тезауруса).
Одним из разделов информационного продуктаПарламентской библиотеки, который называется «Библиодосье к законопроекту», является перечень основных понятий по теме законопроекта: в терминологии тезауруса «ЛингваПарл» на русском языке и в терминологии тезауруса Eurovoc на английском и французском языках.
Постоянно ведется работа по анализу новой лексики, используемой при обработке поступающей в фонд Парламентской библиотеки литературы, тезаурус пополняется новыми лексическими единицами и семантическими отношениями, при необходимости изменяется статус ранее используемых лексических единиц (с соответствующим редактированием базы данных).
Источники пополнения и изменения лексического состава и структуры тезауруса:
· актуализированная официальная версия Eurovoc;
· предложения сотрудников Парламентской библиотеки, занимающихся индексированием документов;
· предложения сотрудников Парламентской библиотеки, занимающихся поиском информации в электронном каталоге библиотеки и во внешних информационных ресурсах;
· анализ запросов пользователей Парламентской библиотеки;
· статистический анализ дескрипторов, использованных при индексировании документов;
· статистический анализ неконтролируемой лексики, использованной при индексировании документов.
Технологически ведение ИПТ Парламентской библиотеки обеспечивается такими процедурами, как:
· поддержание в контрольном состоянии лексического состава и структуры тезауруса;
· актуализация тезауруса для индексирования документов и поиска информации;
· подготовка новых русских версий Eurovoc в соответствии с актуализированными официальными версиями Eurovoc (при необходимости);
· подготовка и актуализация методической документации по использованию тезауруса для индексирования документов и запросов.
Для ведения тезауруса в электронном виде используется специально разработанное программное обеспечение, предполагающее возможность ввода терминов на русском, английском, французском языках с возможностью установления семантических связей, построения тезаурусных статей, необходимых сортировок и печати. По мере накопления новой лексики производится встраивание в структуру тезауруса новых терминов с соответствующими операциями в базе данных ведения тезауруса. Обновленный тезаурус выгружается из специализированной базы данных ведения тезауруса в формате, пригодном для импорта в базу данных, встроенную в базовую автоматизированную систему, используемую при обработке потока изданий и документов. В автоматизированной библиотечно-информационной системе Парламентской библиотеки ИПТ используется при индексировании документов и при поиске информации с возможностью поиска терминов тезауруса по древовидной структуре и списку терминов с навигацией по дереву тезауруса, связям и микротезаурусам.
Одно из направлений оптимизации использования ИПТ Парламентской библиотеки – разработка его Web-представления, обеспечивающего возможность навигации по тезаурусу, в том числе по «дереву» – его иерархической структуре и поиск лексических единиц тезауруса по значимому слову (основе значимого слова), входящему в их состав. Установка Web-представления тезауруса в электронный каталог с удаленным доступом позволит существенно облегчить отбор дескрипторов, составление поискового запроса и, при необходимости, уточнение информационной потребности пользователя.
Web-представление тезауруса также позволит использовать его как терминологический словарь в Автоматизированной системе обеспечения законодательной деятельности Государственной Думы и других электронных ресурсах Государственной Думы.
В 2007 г. Парламентская библиотека завершила пилотный проект по созданию Парламентской электронной библиотеки (ПЭБ). Для организации навигации и поиска информации в ПЭБ, в том числе и при полнотекстовом поиске, используется Тезаурус Парламентской библиотеки «ЛингваПарл». Предусмотрен поиск по тезаурусу и по дереву тезауруса с целью отбора терминов и переноса их в форму для осуществления поиска. При отборе терминов из тезауруса пользователю предоставляется возможность просматривать тезаурусную статью, осуществлять переходы по структуре тезауруса в соответствии с иерархическими и ассоциативными связями. Поиск с использованием терминов тезауруса возможен как по распознанным копиям, так и по атрибутам электронных документов, хранящихся в ПЭБ.