Home page | Каталоги и базы данных

Научные и технические библиотеки

Кириллова О.В., Мазов Н.А.
Объединенный институт геологии, геофизики и
минералогии, Сибирское
отделение РАН, Новосибирск


Проблемы подготовки и распространения
документальных баз данных на английском языке на
примере базы данных по геологии и окружающей
среде Сибири и Дальнего Востока

В последнее время значительно возрос интерес зарубежных специалистов к научным публикациям российских ученых различных тематических направлений. Появившиеся возможности тесного научного сотрудничества с зарубежными учеными ставят задачу донесения до них информации о российских публикациях. Поэтому создание баз данных и других информационных массивов, информирующих зарубежного пользователя о публикациях российских ученых, является в настоящее время одним из новых направлений работы информационных органов. В локальных информационных органах (библиотеках, отделах информации) учреждений и организаций эта работа может ограничиваться созданием баз данных (или текстовых массивов) по публикациям и неопубликованным материалам сотрудников. Идеальным вариантом было бы создание таких тематических баз данных крупными информационными органами России (например ВИНИТИ).

Отсутствие в настоящее время таких БД при наличии потребности в подобной информации создает условия для работы над ними научных организаций. В качестве примера можно привести БД по геологии и окружающей среде Сибири и Дальнего Востока ("Siberian and Far East Geology and Environment" - SIBERGEN), которая создается в Информационно-библиотечном центре Объединенного института геологии, геофизики и минералогии Сибирского отделения РАН. БД подготавливается при частичной финансовой поддержке ЮНЕСКО в течение 3 лет (1995-1997). С 1998 г. БД должна перейти на самоокупаемость.

Для обоснования необходимости создания такой БД и с целью исключения возможного большого дублирования проведен анализ существующих зарубежных БД, включающих информацию о русскоязычной геологической литературе на предмет полноты ее отражения. Для сравнения выбраны БД Current Contents. Ser. Physics, Chemistry and Earth Sciences; РЖ Geological Abstracts как часть БД GeoBase, и БД GeoRef как наиболее представительная БД по геологическим наукам. Анализ показал, что русскоязычная литература отражается в них очень слабо. Current Contents включает только несколько российских журналов, в основном без рефератов. РЖ Geological Abstracts не включает русскую литературу вообще. Более подробно проанализирована БД GeoRef, подготавливаемая Американским геологическим институтом (American Geological Institute) и тиражируемая SilverPlatter Inc. В результате статистического анализа за 10 лет (1986-1995) выяснено, что БД GeoRef содержит только 5,5% литературы на русском языке. По региону, охватываемому БД SIBERGEN (Азиатская часть бывшего СССР), публикации составляют только 1,3%, причем за последние годы (1994, 1995) ссылки на русскоязычную литературу практически отсутствуют. Таким образом, создание обсуждаемой БД следует считать обоснованным.

Разработаны требования (паспорт) на БД, определены основные характеристики и критерии отбора информации, выбрано программное обеспечение, созданы форматы ввода и вывода информации, машиночитаемые носители для распространения, подготовлена реклама.

Из-за полного отсутствия отечественных нормативно-методических разработок в этой области все инструктивные документы пришлось создавать самим. Ориентация на зарубежного пользователя требует выполнения работы на уровне, соответствующем международным стандартам. Поэтому при разработке и описании форматов ввода информации изучались и сравнивались такие коммуникативные форматы, как CCF - Common Communication Format (UNESCO), UNIMARC и МЕКОФ. Для выбора оптимальной структуры записи и представления содержания документа изучались перечисленные выше доступные зарубежные БД.

В качестве основного программного обеспечения выбрана интегрированная ИПС CDS/ISIS/M версии 3.071, адаптированная к задачам проекта со значительными доработками.

В процессе подготовки БД возникало (и продолжают возникать) множество вопросов, касающихся технологической, информационной, лингвистической, программной, кадровой частей, которые требуется решать оперативно в связи с существующими жесткими сроками выпуска БД (4 раза в год с объемом каждого выпуска не менее 500 записей). Перечислим основные проблемы, стоящие перед разработчиками БД.

Главной технологической проблемой остается установление устойчивых связей и получение в определенные сроки подготовленной информации от референтов, редакторов, переводчиков, а также четкий контроль за проходящей по всем уровням подготавливаемой информации. Только по прошествии полутора лет можно сказать, что начинают складываться более или менее устойчивые связи между различными звеньями подготовки БД.

К основной информационной проблеме можно отнести трудности в поиске, отборе и включении в БД неопубликованных источников (отчетов, докладов, диссертаций, карт и других труднодоступных документов).

Одной из основных лингвистических проблем остается терминологическая (лексическая) нормализация поля ключевых слов. При наполнении поля ключевых слов применяется свободное индексирование с минимальной нормализацией представления отобранных терминов. Добиться более точного, правильного и полного отбора ключевых слов и представления их в принятых терминологических выражениях на английском языке можно только с помощью международных тезаурусов. Для данной предметной области это - "Multilingual Thesaurus of Geosciences" (2nd ed.. 1995). В настоящее время для минимальной нормализации терминов применяется БД GeoRef.

Терминологическое расхождение при переводе русскоязычных геологических текстов на английский язык также является серьезной проблемой. Одним из главных требований, предъявляемых к БД, должна быть понятность для потенциального пользователя - зарубежного специалиста. Русские ученые создают свой "специальный" язык, который при калькировании переводчиками может быть совершенно не понятен зарубежному специалисту. Для решения этой проблемы имеются два пути: наличие хорошего научного редактора, знающего и предмет, и английский язык на высоком уровне; сравнение и уточнение "сомнительных" терминов по зарубежным БД (в частности GeoRef) и по специальным словарям.

В части программного обеспечения основной проблемой остается переход от среды MS DOS в среду Windows. (Зарубежные специалисты в основном используют операционную среду Windows.)

Одной из ближайших задач является предоставление БД в Интернет. В этом направлении достигнуты определенные успехи.

И конечно, очень важной остается проблема маркетинга подготавливаемой БД (реклама и продажа). Здесь большую роль играют следующие факторы:

подготовка рекламы, ее размещение в печатных изданиях и в Интернет, рассылка потенциальным покупателям; правильный отбор потенциальных покупателей (фирм, институтов, обществ, университетов и пр.) с расчетом, что они заинтересуются всей включаемой в БД информацией (БД отражает практически все основные тематические разделы геологии и для частного лица, работающего в узкой предметной области, может быть неинтересна); многовариантность подготовки информации для отдельных специалистов по узким направлениям (возможности указываются в рекламе); получение удобных для покупателей видов машиночитаемой информации (CD-ROM, дискета, FTP).

В настоящее время подготовлены 5 выпусков БД "Siberian and Far East Geology and Environment", содержащих около 2 500 документов. Включается в первую очередь новейшая информация, а также журналы - с 1993 г. и книги - с 1990 г. Все выпуски кумулированы на CD-ROM.

Copyright © 1995-97 ГПНТБ России