Home page | Каталоги и базы данных

Научные и технические библиотеки

Зайцева Е.М., Фуралев О.А.,
Маслякова В.М., Тужилкова Т.С., Караджи О.В.
ГПНТБ России, Москва


Элементы технологии Автоматизированной системы
словарного и лингво-процессорного обеспечения

Прежде чем начать рассмотрение наиболее сложной и, на наш взгляд, интересной части технологии Автоматизированной системы словарного и лингвопроцессорного обеспечения (АССО) - технологии лингвопроцессорного обслуживания документных баз данных (ДБД) и ведения грамматических словарей и тезаурусов, напомним, что основными объектами АССО являются информационно-языковые словари (ИЯ-словари), используемые при индексировании документов и/или запросов, а также грамматические словари (ГС), применяемые лингвистическими процессорами. К числу ИЯ-словарей АССО относятся используемые в АС ГПНТБ России рубрикаторы НТИ, таблицы других информационных классификаций и тезаурусы. В число ГС АССО входят грамматический словарь основ именных форм, словари аббревиатур и фамилий, употребляемых в вербальных ПОДах, а также ряд диагностических словарей различного вида и назначения.

Каждый ИЯ-словарь представлен в виде БД (ППП CDS/ISIS), являющейся по существу ИПС, обеспечивающей быстрый поиск словарных статей по многим элементам данных этих статей. ГС сосредоточены в одной грамматической БД (GBD) и различаются в ней по кратким обозначениям словарей. GBD также является информационно-поисковой системой.

Физической единицей словарной БД АССО является запись словарной статьи соответствующего словаря. Основным элементом данных (ЭД) записи является заглавная лексическая единица словарной статьи. В рубрикаторных БД - это код заглавной рубрики словарной статьи РНТИ; в тезаурусе - заглавный термин словарной статьи тезауруса; в грамматических словарях - лексические единицы, которым посвящены словарные статьи соответствующих словарей (основы, аббревиатуры, фамилии, диагностические формы и т. д.). Все прочие ЭД словарной статьи принято называть в АССО подзаглавными. В РНТИ - это наименование заглавной рубрики, коды и наименования справочно-ссылочных рубрик, индексы УДК и т. д.; в тезаурусной статье - код свертки, состояния и конкретизации понятийного значения заглавного термина (КССК), форма сравнения заглавного термина, вышестоящие, синонимические, нижестоящие и ассоциативные термины, их КССК и формы сравнения, а также ряд других ЭД.

КССК, играющие важную роль при тезаурусной фильтрации ключевых терминов, имеют следующее строение. Начало кода - свертка термина, т. е. упорядоченная по алфавиту цепочка начальных диад словоформ термина. Далее следует указатель состояния термина (в текущий момент): =П - пассивный термин, т. е. не употребленный в соответствующей ДБД ни в одном из ПОДов на ИЯ ключевых терминов; =А - активный термин, т. е. употребленный хотя бы в одном из ПОДов на этом ИЯ. Если термин многозначный, то в конце кода через знак = дается код (конкретизатор), который с точностью до категории понятия и, если необходимо, с точностью до рубрики верхнего уровня ГРНТИ указывает конкретное значение термина. В грамматическом словаре основ именных форм в качестве подзаглавных ЭД выступает полный набор элементов грамматических данных, обеспечивающий работу процессоров грамматического анализа назывных фраз.

Контроль вербальных ПОДов производится в 2 этапа:

  • 1-й - лексикографический контроль (ЛГК),
  • 2-й - терминологический контроль (ТК).

Целевая установка ЛГК - полная лексикографическая безошибочность результирующих вербальных ПОДов.

Целевая установка ведения грамматических словарей - полное (100%) грамматико-словарное покрытие вербальных ПОДов.

Целевая установка терминологического контроля ПОДов на ИЯ ключевых терминов - их полная безошибочность.

Целевая установка ведения тезаурусов:

  • полное покрытие обработанных и созданных в АССО ПОДов на ИЯ ключевых терминов множеством заглавных терминов словарных статей тезаурусов с учетом конкретных значений многозначных терминов;
  • не менее чем 80%-я полнота словарных статей в части рядов вышестоящих и синонимических терминов;
  • не менее чем 60%-я полнота словарных статей в части рядов нижестоящих терминов;
  • полная актуальность состояний всех тезаурусных терминов.

Рассматриваемый технологический комплекс АССО подразделяется на три последовательно реализуемые технологические линии (ТЛ):

  • ТЛ1 - ТЛ лексикографического контроля вербальных ПОДов и ведения ГС;
  • ТЛ2 - ТЛ трансляции ПОДов с ИЯ предметных рубрик (ПР) на ИЯ ключевых терминов (КТ);
  • ТЛ3 - ТЛ терминологического контроля ПОДов на ИЯ КТ и ведения тезаурусов обслуживаемых ДБД (каждая ДБД имеет свой отдельный тезаурус). Допускается параллелизм обслуживания нескольких документальных БД, имена которых имеют обозначение ххх.

Информационное взаимодействие АССО с обслуживаемыми ДБД осуществляется через соответствующие ISO-файлы локальной сети АС ГПНТБ России. Каждая из перечисленных ТЛ реализуется последовательностью своих основных сеансов, названия которых даны в меню соответствующих ТЛ. Вход в меню требуемой ТЛ производится из исходного меню CDS/ISIS/ASSO. В меню каждой ТЛ, кроме основных, указаны также названия вспомогательных сеансов, проводимых в нестандартных ситуациях. Моментом начала цикла является момент приема (импорта) из ISO-файла ДБД ххх в транзитную БД АССО TRxxx очередного поступления записей с вербальными ПОДами. В этих записях, кроме самих ПОДов, содержатся их условные адреса в ДБД ххх (MFN записи либо шифр хранения документа).

1-й сеанс ТЛ1 - считывание из БД TRxxx всех вхождений в ПОДы ключевых словоформ (КСФ), соответствующих им условных адресов в ДБД и MFN записей в БД TRxxx. Ключевые словоформы фактографических конструкций и фрагменты в круглых скобках игнорируются.

2-й сеанс - первичная обработка считанных КСФ, включающая анализ и фиксацию видов простых КСФ (в том числе простых частей сложносоставных КСФ), отсев неконтролируемых КСФ, определение словарного типа КСФ и формирование основ именных КСФ путем отсечения окончаний у этих КСФ.

3-й сеанс - внутренняя фильтрация полученного массива КСФ, в результате которой множество вхождений КСФ сжимается до множества единичного представительства КСФ, т. е. вместо нескольких КСФ с одной и той же основой в результирующем массиве сохраняется только одна из них, сопровождаемая данными о местоположениях в БД TRxxx других вхождений КСФ с той же основой.

4-й сеанс - первичная грамматико-словарная фильтрация массива основ. В этом сеансе производится проверка наличия основ хотя бы в одном из трех грамматических словарей - словаре основ именных словоформ, словаре аббревиатур и словаре фамилий, употребляемых в вербальных ПОДах. КСФ, обнаруженные в словарях, отсеиваются. Оставшиеся КСФ являются либо безошибочными и одновременно новыми для ГС, либо ошибочными, об отраженности которых в ГС пока ничего не известно.

5-й сеанс - формирование БД для визуального контроля оставшихся КСФ, создания записей новых грамматико-словарных статей, исправления ошибочных КСФ и формирования данных для оповещения руководителей служб индексирования документов (либо администраторов ДБД) об ошибочных вербальных ПОДах. В записи этой БД с типовым именем LKxxx к уже имеющимся данным добавляются контексты соответствующих словоформ, необходимые для определения истинных (контекстных) значений этих словоформ при их визуальном анализе.

6-й сеанс ЛГК - визуальный анализ ГС-неопознанных словоформ. Здесь устанавливается (иногда с учетом контекста), является данная словоформа ошибочной или нет. Если да, то в отведенном для этого поле дается ее исправленный вид. Если при этом представленное в записи значение кода словарного типа не дает однозначного указания на словарь, то этот код уточняется (для однозначной ориентированности вторичной ГС-фильтрации).

7-й сеанс - формирование записей сообщений об обнаруженных в процессе ЛГК ошибочных словоформах. Эти записи формируются в БД с типовым именем xxxTR и включают ошибочную словоформу, ее исправленный вид и условные адреса ее вхождений в соответствующей ДБД. Эти записи просматриваются руководителями соответствующих служб индексирования документов либо администраторами ДБД (при индексировании документов вне ГПНТБ) и используются для исправления вербальных ПОДов в ДБД.

8-й сеанс - повторная ГС-фильтрация словоформ (проводится только при наличии ошибочных словоформ). В этой фильтрации участвуют только исправленные формы. Те из них, которые обнаруживаются в соответствующем ГС, отсеиваются. В итоге в БД LKxxx остаются только записи с безошибочными формами, отсутствующими в ГС.

9-й сеанс - формирование новых ГС-записей и пополнение БД GBD. ЭД новых ГС-записей вносятся в отведенные для этого поля записей БД LKxxx. Эта операция осуществляется сотрудником службы ведения словарей в режиме корректуры. По окончании этой работы производится пополнение БД GBD (экспорт-импорт через соответствующий ISO-файл) и актуализация ее инверсного файла. После этого находящееся в TRxxx поступление вербальных ПОДов оказывается полностью грамматико-словарно покрытым при условии лексикографической безошибочности этих ПОДов. Поэтому заключительной операцией данного сеанса (если обнаружены ошибки в словоформах) является корректура вербальных ПОДов в БД TRxxx.

Общий итог проведения сеансов ТЛ1 - обеспеченность правильной обработки ПОДов при проведении сеансов следующей ТЛ.

ТЛ2 в технологии АССО имеет наиболее высокий уровень автоматизации - все ее сеансы, кроме заключительного, контрольного, являются автоматическими.

1-й сеанс - считывание из БД TRxxx ключевых словоформ, содержащихся в ПОДах на ИЯ предметных рубрик (ПР).

2-й сеанс - предварительная обработка каждой ключевой словоформы, включая отсечение окончаний, нахождение в БД GBD грамматических характеристик полученных основ и проведение с использованием этих характеристик морфологического анализа.

3-й сеанс - синтаксический анализ ПР, их сегментирование и формирование канонизированных терминов. Каждый полученный сегмент включает все исходные словоформы одного и только одного термина. Главная управляющая словоформа термина (вершина) приводится в форме именительного падежа единственного числа (множественного числа при отсутствии единственного). Согласованные определения приводятся в аналогичной форме и размещаются в препозиции к вершине. Несогласованное определение в исходной форме размещается в постпозиции к вершине. Такая форма представления КТ называется в АССО канонической.

4-й сеанс - формирование ПОДов на ИЯ КТ и включение их в отведенные поля соответствующих записей БД TRxxx.

5-й сеанс - визуальный анализ ПОДов на ИЯ КТ. Этот анализ делается путем сопоставления исходных ПОДов с результирующими ПОДами на ИЯ КТ при просмотре записей БД TRxxx. При этом ошибки трансляции, встречающиеся в текущем состоянии системы весьма редко, исправляются, ведется их учет, а также анализ причин возникновения.

По завершении формирования в БД TRxxx ПОДов на ИЯ КТ осуществляется переход к выполнению сеансов ТЛ3.

1-й сеанс - считывание ключевых терминов из БД TRxxx и формирование записей в БД TKxxx по каждому из КТ. Элементы фактографических конструкций и фрагменты ПОДов, заключенные в круглые скобки, опускаются. В формируемые записи включаются относительные адреса КТ в ДБД ххх и в TRxxx, а также минимальные контексты КТ.

2-й сеанс - внутренняя фильтрация КТ. Цель сеанса - исключить дублирующие КТ. В начале сеанса строятся формы сравнения КТ, имеющие вид упорядоченных по алфавиту цепочек основ слов, образующих КТ. Простым сравнением этих форм производится выявление дублирующих терминов-хождений и исключение соответствующих записей из БД ТКххх. При этом оставшиеся записи тех КТ, которые имеют дубли, пополняются относительными адресами местонахождения в БД TRxxx дублирующих КТ. В эти же записи переносятся из БД TRxxx соответствующие минимальные контексты КТ.

3-й сеанс - тезаурусная фильтрация КТ. Эта фильтрация представляет собой многошаговый процесс поиска в БД соответствующего тезауруса (БД xxxIT) по каждому КТ, оставшемуся в TKxxx. Поиск ведется с использованием ранее построенных форм сравнения КТ. Сначала поиск ограничен только заглавными терминами словарных статей тезауруса. Если КТ оказывается среди однозначных заглавных терминов, то он из дальнейшего рассмотрения исключается - из ТКххх исключается его запись. Если при этом данный заглавный термин оказался пассивным (П), то он переводится в активное состояние (А). Если КТ является в тезаурусе многозначным заглавным термином и все его значения активны, то этот КТ также исключается из дальнейшего рассмотрения. Если многозначный КТ не является в тезаурусе вполне активным, то в запись этого КТ (БД ТКххх) включается соответствующее значение указателя состояния КТ в тезаурусе (УСТ).

Если КТ отсутствует среди заглавных терминов, то поиск по нему проводится среди подзаглавных терминов, т. е. среди вышестоящих, синонимических, нижестоящих и ассоциативных. При этом в ситуациях неполной определенности, аналогично случаю заглавного термина, в записи КТ включаются соответствующие значения УСТ. Итог сеанса - БД ТКххх с исключенными записями отфильтрованных на данном этапе КТ, в которой оставшиеся записи снабжены соответствующими значениями УСТ. Этот код является средством обратной связи в схеме дальнейшего диалогового взаимодействия "человек-машина".

4-й сеанс - визуальный анализ результатов первичной тезаурусной фильтрации КТ. Здесь прежде всего идет проверка КТ на их правильность. В записях ошибочных КТ в отведенном поле даются их исправленные формы. Полученные значения УСТ заменяются такими значениями, которые однозначно определяют машинные действия при вторичной тезаурусной фильтрации. При замене значений УСТ многозначных терминов производится анализ имеющихся в записях КТ их контекстов и делаются конкретизирующие уточнения КССК.

5-й сеанс - вторичная тезаурусная фильтрация и формирование макетов записей новых словарных статей тезауруса. Здесь фильтрация производится с использованием исправленных КТ и измененных в предыдущем сеансе значений УСТ и КССК. По этим уточненным данным осуществляется дополнительный отсев КТ, а по оставшимся КТ в отведенных для этого полях записей БД ТКххх формируются макеты записей новых словарных статей данного тезауруса.

6-й сеанс - визуальный анализ результатов 5-го сеанса и завершение построения записей новых словарных статей. Здесь производится просмотр сформированных макетов записей, исключение из машинносформированных подзаглавных рядов тех терминов, которые оказались ложно включенными, и наоборот, включение в ряды недостающих терминов, извлекаемых для этого из подходящих словарно-справочных пособий.

7-й сеанс - пополнение БД хххIT записями новых словарных статей тезауруса. Пополнение производится экспортом записей новых словарных статей из БД ТКххх в соответствующий ISO-файл и импортом из него в БД xxxIT, после чего инверсный файл этой БД актуализируется. Кроме того, здесь же производится корректура ПОДов на ИЯ КТ в БД TRxxx (практически весьма редко) и экспорт этих ПОДов в соответствующий ISO-файл для их включения в записи ДБДххх.

8-й сеанс - активизация подзаглавных терминов БД xxxIT и заключительная актуализация файла словаря этой БД. В записях БД xxxIT производится выявление тех пассивных подзаглавных терминов, которые имеются среди активных заглавных терминов. Такие подзаглавные термины переводятся в состояние "активный" путем простой замены в их КССК значения =П значением =А. После этого производится заключительная актуализация инверсного файла БД xxxIT. Этим сеансом завершается ТЛ3, а вместе с тем завершается и единичный цикл данной технологии.

Рассмотренная нами часть технологии АССО находится сейчас в опытно-промышленной эксплуатации. Реально выявляются ошибки в вербальных ПОДах, пополняются грамматические словари и тезаурусы. Фильтрационная мощность грамматических словарей составляет приблизительно 95%, что вполне достаточно для перевода технологии в состояние промышленной эксплуатации. Фильтрационная мощность тезауруса пока еще мала - приблизительно 50% (в среднем по трем ДБД). Принятым в АССО критерием возможности перехода к этапу промышленной эксплуатации по данному параметру является достижение 70%-й фильтрационной мощности тезауруса.

Выявлено, что число орфографически ошибочных вербальных ПОДов составляет около 1%. Вместе с тем выяснено, что значительное число входных ПОДов построено с нарушением методических правил индексирования и информационно-языкового синтаксиса. Кроме того, в процессе опытно-промышленной эксплуатации выявлен ряд алгоритмических недостатков, устранить которые намечено к моменту перехода к промышленной эксплуатации данной части технологии АССО.

Намечено также заменить в 1998 г. существующий интерфейс данной технологии более технологичным и усовершенствовать аппарат статистического анализа инженерно-лингвистических характеристик вербальных ПОДов, а также характеристик динамики грамматических словарей и тезаурусов. Это позволит использовать АССО не только как одну из функциональных подсистем АС ГПНТБ России, но и как научно-исследовательский полигон, дающий в реальном режиме времени поступления ПОДов уникальные и статистически достоверные данные для развития теории и усовершенствования практики лингвистического обеспечения АИС.

Copyright © 1995-97 ГПНТБ России