Home page | Каталоги и базы данных

Научные и технические библиотеки

Соболев В.А.
ВГБИЛ им. М.И. Рудомино, Москва


Транслитерация и проблемы ее использования
в электронных каталогах российских библиотек

Проблемы, связанные с представлением многоязычной библиографической информации в электронной форме, можно считать наиболее актуальными для российских библиотек, комплектующих литературу на иностранных языках (РГБ, ГПНТБ России, ВГБИЛ, ГЦНМБ и многие другие). В настоящее время в них ведутся работы по созданию электронных каталогов при помощи различных библиотечных компьютерных систем, подобных системе TINLIB, которая используется в ВГБИЛ. Эти системы в большинстве своем двуязычные и позволяют вводить библиографическую информацию на русском и английском языках. Однако в библиотеки поступает множество литературы на европейских языках, использующих при написании символов диакритические знаки (не говоря о восточных, проблемы с которыми требуют отдельного рассмотрения). К тому же российские правила библиографического описания зарубежных изданий требуют, чтобы БО включало элементы описания как на языке оригинала, так и на русском, т. е. при вводе необходимо учитывать диакритику Западной и Центральной Европы и нашу кириллицу. В связи с этим возникает проблема определения набора символов, с помощью которых можно вводить многоязычные библиографические описания книг с диакритическими знаками в двуязычную библиотечную систему. Мы решили выяснить, как с этими трудностями справляются зарубежные коллеги.

В настоящее время в США для набора символов в компьютерных системах, работающих в среде MS—DOS, используется стандартная кодовая страница № 437, содержащая кодированное представление символов, которые может воспроизводить компьютер. Первая половина этой страницы заполнена символами основной латиницы от A до Z, а вторая — символами расширенной латиницы, использующими диакритику. Однако в данную страницу невозможно поместить все символы расширенной латиницы, поэтому для ввода диакритических символов, которые не входят в 437 страницу, иногда подключают другие кодовые страницы с недостающей диакритикой. Но не каждая компьютерная библиотечная система позволяет производить такие действия, и зарубежные библиотеки тоже сталкиваются с проблемами набора символов с диакритикой. Такие же кодовые страницы используются во всех европейских странах и содержат как символы родного языка, так и символы основной латиницы. Кириллицу же ни в США, ни в Европе вообще не используют, а транслитерируют с помощью латинского алфавита, что не представляет больших сложностей. Для этого существуют определенные международные стандарты, например стандарт Библиотеки Конгресса США — "ALA-LC Romanization Tables (Transliteration Schemes for Non-Roman Scripts)" или подобный ему — ISO 9:1995.

В России для набора символов используется кодовая страница № 866. Ее первая половина заполнена символами основной латиницы, а вторая содержит символы кириллицы, поэтому невозможно набирать европейскую диакритику, так как именно эта страница символов используется в библиотечных системах нашей страны. Получается, что нельзя использовать уже готовые правила, применяемые зарубежными библиотеками для ввода библиографических описаний европейских изданий с диакритикой. Следовательно, возникает вопрос о транслитерации, которую необходимо проводить в соответствии с определенными правилами и стандартами, что позволяет обмениваться данными разным странам, использующим различные системы письменности или алфавиты. В нашем случае нужно говорить о транслитерации символов расширенной латиницы в основную, так как только ее мы можем вводить в наши электронные каталоги.

Есть ли в мире какие-либо стандарты или правила для подобной транслитерации? Оказывается — нет. Существует специальный подкомитет ISO — ISO/TC46/SC2, занимающийся разработкой стандартов по транслитерации и транскрипции, но все эти стандарты связаны с транслитерацией нероманских шрифтов в расширенную латиницу, что нам совершенно не подходит. В настоящее время нет никаких стандартов на транслитерацию латиницы, а подкомитет ISO лишь собирается в ближайшее время рассмотреть возможность начала такой работы. Поэтому большинству библиотек, которые сталкиваются с подобными проблемами, и у нас и за границей приходится изобретать свои собственные правила. Для этого используют несколько способов: транскрипцию, т. е. звуки определенного языка изображаются при помощи системы знаков и символов конверсионного языка; транслитерацию, при которой вместо диакритических символов используют диграфы, т. е. вместо символа с диакритическим знаком набирается сначала диакрит, а затем сама буква; вводят информацию, опуская всю диакритику.

Два первых способа позволяют наиболее точно и полно сохранить форму оригинальной системы письменности и ее обратимость, однако у них очень много недостатков.

Во-первых, информация становится совершенно неудобочитаема. Трудно прочитать текст, в котором вместо привычных глазу букв идет набор каких-то значков и символов.

Во-вторых, в российских системах невозможно изобразить все диакриты, их просто нет на наших клавиатурах и в нашей 866-й кодовой странице, поэтому придется изобретать свои правила, а не применять уже существующие стандарты.

Так, в библиотечной системе РГБ для ввода каждого диакритического знака необходимо использовать комбинацию из трех символов. Например, для ввода Г набирают A | $, для ввода Ж набирают A | %. При этом просмотр записей осуществляется без диакритики — на экране компьютера и в том и в другом случае отображается только символ А. В самой системе поиск происходит с использованием такого же ввода трех символов, а диакритические символы можно увидеть лишь при выводе данных на печать.

В-третьих, для транскрипции нет никаких стандартов: сколько библиотек, столько и способов транскрипции.

В связи с вышеизложенным пока, видимо, наиболее целесообразным является способ набора библиографических данных в электронной форме без учета диакритических знаков расширенной латиницы, просто опуская их и не применяя никаких правил транслитерации. Однако при необходимости можно использовать диакритические символы в библиографических описаниях, предназначенных для печати (т. е. для каталожных карточек). Такая возможность существует, например, в системе TINLIB, используемой ВГБИЛ. Всю информацию, введенную в эту систему, можно затем вывести в отдельный файл в виде библиотечных карточек и отредактировать с добавлением диакритики в любом текстовом редакторе, а потом распечатать. В нашей библиотеке для этого применяется обычный, всем хорошо известный редактор Лексикон, который специально доработан, чтобы облегчить библиотекарю ввод диакритических символов в каталожную карточку. В настоящее время в таком доработанном Лексиконе мы можем набирать библиографические описания практически на всех европейских языках, даже на греческом. Такой процесс достаточно удобен (по крайней мере наши библиотекари его очень хорошо освоили и активно используют) и позволяет представить библиографическую информацию как в электронном, так и в печатном виде.

Конечно, все три способа имеют многочисленные недостатки, но замены им нет. Альтернативой может стать применение стандарта UNICODE, который позволяет представлять в электронной форме тексты на всех языках мира, но до сих пор, к сожалению, ни одна библиотечная система его не использует и все считают делом будущего. Пока же ведутся активные работы (например в ВГБИЛ) по внедрению UNICODE в библиотечном деле, российским библиотекам можно использовать один из вышеперечисленных способов.

Copyright © 1995-97 ГПНТБ России