NTB_12

Индикаторный метод компьютерного свертывания
в процессе обучения
аналитико-синтетической переработке информации

Пожалуй, ни в каких областях своего применения компьютерные технологии не встречаются с такими трудностями, как при решении семантических задач. Частным, но наиболее распространенным случаем такого приложения является автоматизация процессов аналитико-синтетической переработки информации (компьютерное свертывание/развертывание), к которым относятся индексирование, аннотирование, реферирование, конспектирование, фрагментирование, перевод и другие формы информационного анализа и синтеза. Трудности прежде всего обусловлены сложностью, а иногда и невозможностью формализации и алгоритмизации мыслительных процессов, сопровождающих указанные разновидности анализа и синтеза в их «ручном», традиционном варианте.

В чем же тут принципиальная сложность? Известно, что в общем случае формализация – это представление внутреннего содержания во внешней форме: внешняя форма, относясь к уровню явлений, определяется сущностью содержания, т.е. внутренней формой материального объекта. В сфере информационных процессов (знания) отношение внешней и внутренней форм более сложно. Внешняя форма, т.е. знаковая, – материальна и объективна; внутренняя форма, т.е. смысл, – идеальна и субъективна, а объективностью обладает лишь в том смысле, что является отражением объективных, инвариантных, общих отношений материального мира. В этих условиях формализация информационных процессов сводится к изысканию в форме, т.е. плане выражения (в его лексике, грамматике, структуре, архитектонике и т.д.), элементов, через которые можно было бы выразить план содержания (смысл, семантику) того или иного текста и тем самым осуществить обработку (преобразование) семантической информации без обращения к смыслу данного текста. Предполагается, что данная процедура должна привести к результату, близкому по своему качеству к результату, получаемому (в общем случае) при содержательной обработке тех же текстов. Никогда (опять же в общем случае и в ближайшем будущем) качество машинной обработки информации не будет выше качества интеллектуальной обработки, поскольку языки и алгоритмы, помогающие машине «мыслить», всегда будут беднее естественного языка и алгоритмов, на которых мыслит человек.

Работы в области автоматизации семантических процессов ведутся уже около полувека (практически с появлением первых ЭВМ) и за этот период прошли несколько периодов бурных надежд и горьких разочарований.

Особую эйфорию пережил машинный перевод, однако метафоричность полисемичных языков выявила всю сложность скорого решения этой проблемы. Сейчас существует уже целый ряд двух и более язычных автоматов-переводчиков; большой популярностью пользуется электронный переводчик Promt 98, разработанный фирмой ПРОМТ (С.-Петербург), но качество этих переводов пока еще не сопоставимо с качеством интеллектуальных переводов. Однако и это значительное достижение; хотя реализация любых семантических процессов с помощью ЭВМ «всегда хуже», тем не менее она избавляет от огромных затрат человеческого труда, времени и нервов.

Большие успехи достигнуты в области индексирования (и соответственно – информационного поиска, поскольку это ключевая операция поискового процесса). Но эпоха дескрипторных языков, на которые возлагались большие надежды как на наиболее семантически сильные информационно-поисковые языки (ИПЯ), постепенно уходит. Дескрипторные языки, рожденные для обслуживания автоматизированных информационно-поисковых систем (ИПС), по мере совершенствования и развития средств компьютерной техники и программного обеспечения уступили свое лидирующее место языкам ключевых слов (по сути, естественным языкам), поскольку оказались менее конкурентоспособными из-за плохой тематической совместимости. Это была, конечно, пиррова победа, так как неучет в языке ключевых слов парадигматических отношений привел при поиске к резкому снижению качественных показателей работы ИПС.

К третьему направлению автоматизированного свертывания относятся работы по автоматическому реферированию. Это направление занимает как бы промежуточное положение между минимальным уровнем свертывания – переводом и максимальным – индексированием. Однако автоматическое реферирование по своему характеру очень специфично, поскольку сводится к экстрагированию (извлечению) из документов минимальных релевантных фрагментов [1], некоторая совокупность которых и образует широкий спектр вторичных документов – различные виды аннотаций, рефератов, реферативных аннотаций, самостоятельных фрагментов, конспектов и их синтезированных производных – реферативных указателей, дайджестов, реферативных обзоров, квазихрестоматий и т.д. Эти вторичные документы, являющиеся результатом аналитико-синтетической переработки первичного документного потока, рассчитаны на удовлетворение как частных (индивидуальных), так и типовых (потенциальных) информационных потребностей различных категорий специалистов науки, техники и производства.

История применения вычислительной техники для реферирования насчитывает уже около 40 лет и связана с именами таких исследователей, как Г.П. Лун, Г. Эдмунсон, В.Е. Берзон, И.П. Севбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления – квазиреферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт (квазиреферат), и собственно автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), в большей или меньшей степени изоморфных первичным документам (или их частям).

Второе направление – более перспективное – в настоящее время представлено экспериментальными исследованиями и до широкой реализации еще не дошло. Квазиреферирование обладает той особенностью по сравнению с собственно реферированием, что основывается на анализе поверхностно-синтетических отношений в тексте, выраженных в нем и не требующих обращения к глубинно-синтаксическим процессам, изученность которых еще явно недостаточна для описания имманентных свойств любого текста.

В рамках квазиреферирования в свою очередь обычно выделяют три основных направления:

Из перечисленных методов до уровня «промышленной» реализации дошли лишь статистические. Так, в широко известном текстовом процессоре Microsoft Word 2000 представлена функция «Автореферат», которая обеспечивает формирование серии рефератов из фраз, наиболее информативных с точки зрения вхождения в них наиболее высокоранговых слов. При этом пользователь может устанавливать размерный порог свертывания первичного документа от 50 до 10% его объема. Авторы программного обеспечения предупреждают пользователей: полученный в результате применения данного метода текст реферата является лишь грубым наброском и его, как правило, приходится дополнять и править. Последнее не самое отрицательное в этом методе, так как почти каждый квазиреферат подлежит некоторой стилистической доводке; хуже другое: очень часто присутствие во фразе (фразах) высокоранговых слов не обеспечивает ее высокую информативность, а совокупность фраз – смысловое единство нового текста.

Кроме того, полученный по упомянутому методу вторичный документ не имеет функциональной ориентированности, т.е. это ни аннотация, ни реферат, ни фрагмент, а типичный квазиреферат – некоторое отдаленно изоморфное текстовое образование и об избирательности свертывания здесь не может быть и речи. Тем не менее от статистического метода реферирования ни в коем случае нельзя отказываться – он должен занять свою нишу в общем русле автоматизированного свертывания, однако при этом нужно достаточно точно определить (также формализованным, т.е. машинным способом) видовую принадлежность документов, наиболее чувствительных к данному методу. Статистические рефераты могут получить широкое распространение в области автоматического индексирования. К сожалению, функция «Автореферат» работает лишь с рядом европейских и азиатских языков (всего 11), в число которых русский язык не входит.

В отличие от предыдущих способов квазисвертывания индикаторный метод располагает возможностью функциональной индикации фраз первичного документа, его аспектного структурирования с помощью применяемого для экстрагирования лексического аппарата. Работы в этом направлении велись в течение ряда лет (1980-е – начало 1990-х гг.), в частности, коллективом разработчиков ЛГИК им. Н.К. Крупской и ВНИИ «Информэлектро» под руководством В.П. Леонова и Д.Г. Лахути. К сожалению, с наступлением эры демократического либерализма эти исследования по известным причинам постепенно затухли.

Суть индикаторного метода заключается в использовании словарей маркеров, индикаторов и коннекторов (лексический аппарат свертывания), насчитывающих свыше 1 500 лексических единиц так называемой неключевой внетематической лексики, и формул выбора, отражающих требования к различным видам вторичных документов для машинного экстрагирования фраз, которые относятся к различным содержательным аспектам документов (в нашем случае научно-технических статей). Совокупности таких фраз, определенным образом упорядоченных, и образуют различные виды вторичных документов – основного средства информационного обслуживания.

В основе идеи свертывания источников информации на базе неключевой лексики лежит представление о том, что фразы текста, особенно делового и научно-технического, выполняют не только внетекстовую функцию (фраза как отражение некоторой экстралингвистической реальности – о чём и что говорится), но и внутритекстовую, грамматико-стилистическую (фраза как способ отражения этой экстралингвистической реальности в виде некоторой целостной композиции, имеющей свою логику, структуру, архитектонику, обладающей определённой модальностью – как, каким образом говорится).

Такая двойственность фраз письменного текста обусловлена, в частности, необходимостью перехода речи от многомерного плана содержания к одномерному, линейному плану выражения, а также отсутствием автора сообщения непосредственно в процессе коммуникативного акта. Отсюда применение на письме определенных синтаксических конструкций ( фреймов по М. Минскому), введение в речь словесных клише, штампов, уточнений, связок и прочих метаинформативных элементов. Таким образом, большинство фраз текста не только номинативны, но и функциональны, причем определенным синтаксическим конструкциям, «выполненным» из лексики внетематического (неключевого) слоя, соответствуют определенные типы фраз, относящиеся к различным содержательным аспектам или выполняющие модально-оценочные функции. Особенностью словарей, составленных из неключевого слоя лексики, в отличие от словарей ключевой лексики (в частности дескрипторных словарей) является быстрая насыщаемость (закрытость) первых и практическая «незакрываемость» вторых.

К элементам лексического аппарата свертывания, применяемым в процедурах индикаторного метода, относятся маркеры, индикаторы и коннекторы.

Маркеры (им принадлежит основная роль) – это отдельные слова или словосочетания, обеспечивающие однозначную идентификацию фраз, принадлежащих к различным смысловым (содержательным) аспектам текста. Существуют два типа содержательных аспектов (их называют иногда сетками): первый тип отражает структуру (логику) вида документа (например, статьи, патентного описания, методического пособия и т.д.), второй тип – структуру (логику) той или иной области знания или группы объектов. Так, в качестве сетки первого типа можно привести следующий перечень аспектов:

Подобная структура документа (чаще всего статьи) отражает, как правило, логику исследования (разработки).

Пример сетки второго типа (для статей по медицине):

Сеток второго типа может быть достаточно много – все зависит от специфики области знания.

В исследованиях коллективов «Информэлектро» и ЛГИК им. Н.К. Крупской применялась преимущественно сетка первого типа. Разработанный ими словарь маркеров включает более полутора тысяч лексических единиц и организован в двух вариантах – алфавитном и поаспектном: в алфавите маркерных статей и этих же статей, сгруппированных по отдельным содержательным аспектам. Маркерная статья включает в себя ядерный элемент, его синонимы и лексические сопровождения ядерного элемента (или его синонимов). Ядерное слово выделено полужирным. Например:

Анализ - а. ПВР + В				Последний - а. ПП
с.	Вычисления	л.с.	Выявлять	с.	Последнее время
	Данные		Доказывать		Настоящее время
	Результаты		Позволять		Прежде
	Измерения		Показывать	л.с.	Наблюдаться
	Испытания		Предлагать		Отмечаться
	Исследования		и т.д.		Появляться
	Нами				Существовать
	и т.д.

Маркеры в свою очередь подразделяются на три группы: маркеры, идентифицирующие фразы, относящиеся к аннотативным аспектам содержания – ПВР, ПП, ЦУ (MI); реферативные маркеры, ориентированные на экстрагирование фраз, включаемых в рефераты -–ИВР, Оц ИВР, Оп ПВР, Рек, В (МII); фрагментирующие маркеры, предназначенные для экстрагирования фраз, включаемых в рефераты-фрагменты – другая сетка (MIII).

Индикаторы – лексические единицы, призванные выполнять преимущественно модально-оценочные функции, – с содержательными аспектами четко не связаны, а отражают отношение автора к рассматриваемому в документе вопросу. Они подразделяются на подытоживающие, акцентирующие, констатирующие, оценочно-вероятностные, иллюстрирующие и др. Например: итак, следовательно, следует подчеркнуть, важным представляется, существенным является, главное в и многие другие. Индикаторы не являются ведущим средством экстрагирования фраз, а имеют вспомогательное значение, дополняют и уточняют формулу выбора – поисковое предписание в процедурах свертывания.

Коннекторы – лексические единицы, обеспечивающие межфразовые связи. Известно, что законченным смыслом (автосемантичностью) чаще всего обладают не отдельные предложения, а некоторая их совокупность – минимальный релевантный фрагмент. Нередки случаи, когда маркированное предложение является синсемантичным – в нем основной предмет рассмотрения заменен местоименным словом или словосочетанием. В этом случае для устранения смысловой неполноценности (синсемантичности) фразы к нему необходимо присоединить выше– или нижестоящую фразу (или фразы). Функцию сигнала о смысловой неполноте предложения и выполняют коннекторы, которые разделены нами на левые, отсылающие к вышестоящей фразе (аналогичный, данный, этот, такой, описанный, изложенный и др.), и правые, уточняющие, добавляющие ( более того, вместе с тем, кроме того, в частности, тем самым и др.), требующие присоединения нижестоящей фразы [2].

Перечисленные выше элементы лексического аппарата свертывания реализуются в процессе свертывания с помощью формул выбора текста. В них в символьной форме фиксируются элементы лексического аппарата, отвечающие требованиям экстрагирования фраз для различных видов вторичных документов. Таким образом, структура (схема) формулы выбора, организованная по фасетному принципу, включает в себя последовательность маркеров и индикаторов, соответствующих моделям различных видов вторичных документов.

Например, формула выбора, соответствующая модели краткой аннотации, должна включать в себя маркеры, ориентированные на аспект ПВР; полная аннотация – маркеры, ориентированные на аспекты ПВР, ЦУ и ПП и констатирующие и обобщающие индикаторы (в случае необходимости); реферативная аннотация – на ПВР, Оц ПВР, В, Р, Рек и оценочные, сравнительные, обобщающие, констатирующие и результирующие индикаторы (в случае необходимости) и т.д. Соответствующие им формулы выбора в символьной форме будут иметь вид:

где MI, MII, MIII – соответственно группы аннотативных, реферативных и фрагментирующих маркеров; И – символ индикатора; К – символ коннектора; цифры, идущие за маркерами и индикаторами, обозначают порядковые номера лексических единиц по соответствующим словарям.

Индикаторы имеют факультативное значение, ими варьируют в процессе итерационного поиска в зависимости от промежуточных результатов.

Приведенные выше теоретические и методические посылки легли в основу подготовки и разработки лабораторных работ «Подготовка вторичных документов методом автоматизированного свертывания первичных документов, поступающих в электронной форме» по курсу «Информационный анализ/синтез».

Цель лабораторной работы – привить студентам навыки использования возможностей компьютерной техники, в частности текстового процессора Word 2000, а также сокращенных версий словарей маркеров, индикаторов и коннекторов для автоматизированного извлечения из текстов документов минимальных релевантных фрагментов и синтезирования из них различных видов вторичных документов: аннотаций, рефератов и реферативных аннотаций. Работа носит экспериментальный характер, поскольку не преследует цели получить заранее фиксированные результаты и симулирует реальный процесс экстрагирования лишь на ограниченном числе документов (2–4) и только по некоторым формулам выбора.

Материальное обеспечение каждого студента для выполнения лабораторной работы включает: компьютер, приложение Microsoft Word 2000, дискету, на которой записаны полные тексты первичных документов, подлежащих автоматизированному свертыванию, сокращенные версии словарей маркеров и индикаторов и формулы выбора, ориентированные на несколько типовых разновидностей вторичных документов. Каждому студенту предоставляется методичка по выполнению операций свертывания.

Суть работы сводится к тому, что студент с помощью поисковых процедур составленного им поискового предписания производит цветовую разметку фраз первичного документа, выведенного на экран монитора. При беглом просмотре эта разметка ориентирует студента-референта в аспектной структуре документа и позволяет выделять фразы и фрагменты, релевантные задаче свертывания документа по конкретной формуле выбора. Выделенные фрагменты текста последовательно направляются в Копилку [3], откуда затем выводятся на экран для формирования подготавливаемого вторичного документа.

Если качество полученного документа не устраивает студента, он должен с помощью словарей модифицировать поисковое предписание и снова произвести процедуру экстрагирования.

В целом процедура экстрагирования сводится к выполнению следующих операций.

Руководствуясь одной из формул выбора и данными словаря маркеров (а если формула требует – и словаря индикаторов), студент письменно составляет поисковое предписание, включающее соответствующие формуле маркеры. Затем производит поиск и окрашивание лексических единиц поискового предписания, для чего следует:

Ввести фрагменты текста, имеющие окрашенные лексические единицы, в Копилку, для чего:

Вывести на экран содержимое Копилки в целях формирования вторичного документа, для чего:

В зависимости от стоящих перед референтом задач в процессе свертывания документов можно использовать как отдельные формулы выбора, так и всю их совокупность. Однако не следует ожидать, что по каждой из формул, примененных для экстрагирования, будет получен удовлетворительный результат: очень многое зависит от характера, вида, размера и структуры документа. Большинство статей и не нуждается в свертывании по всему комплексу формул выбора.

Выше в краткой форме представлено современное состояние работ в области информационного анализа/синтеза и сформулированы некоторые теоретические и методические подходы к решению проблем компьютерного реферирования. Однако рамки задачи автоматизированного свертывания документного потока должны рассматриваться значительно шире. Речь идет о создании системы сплошного слежения за документным потоком с целью максимального раскрытия и использования его ресурсов для решения задач развития науки, техники, культуры.

Не секрет, что в системе информационных коммуникаций наблюдается постоянное недоиспользование накопленных обществом знаний со всеми вытекающими отсюда негативными последствиями. Причина этого прежде всего в несовершенстве средств поиска информации (несмотря на широкое внедрение в эту сферу средств компьютерной техники) и методов аналитико-синтетической переработки первичного документального потока. Специалисту в действительности нужны не документы, а информация – факты, концепции и др. Однако информации очень много вообще, но крайне мало в частности.

Такое положение обусловлено диалектическим противоречием между избыточностью конкретного документа за счет его многоаспектности и недостаточностью документного потока в целом за счет явления рассеяния. Работы в области информационного анализа/синтеза и призваны, в известных рамках, снять это противоречие. Их конечная цель – максимальное использование когнитивных (познавательных) возможностей первичного документа за счет машинного «разбиения» его на самостоятельные минимальные релевантные фрагменты, утилизируемые затем в гипотетической пока еще базе знаний, обращение к которой позволило бы в значительной степени снизить необходимость использования первичного потока.

Предложенная нами лабораторная работа является лишь первой ступенькой в реализации идеи компьютерного свертывания, которая должна постепенно трансформироваться в серию лабораторных работ, направленных на получение более репрезентативных результатов прежде всего за счет дальнейшего совершенствования лексического аппарата свертывания, использования для поиска минимальных релевантных фрагментов сложных условий поиска и макросов процессора Word, а также других систем, к примеру «Артефак». В качестве первичного документного потока в электронной форме планируется широкое привлечение ресурсов Интернета.

Данная лабораторная работа актуальна при подготовке студентов новой специальности 351400 «Прикладная информатика в социально-культурной сфере», а также других отделений библиотечно-информационного факультета.

[1] Под минимальным релевантным фрагментом понимается единица текста – предложение, некоторая их совокупность, абзацы, суперсинтаксические целые и т.п., обладающие смыслом и имеющие самостоятельное значение вне контекста документа, из которого они извлечены.

[2] Различают две разновидности коннекторов: анафорические (безоценочные) и логико-смысловые (оценочные). Первые являются заместителями антецедента в предложении, характеризуют смысловую неполноту и всегда выполняют в нем роль того или иного члена предложения и функцию межфразовой связи. Вторые (логико-смысловые) в структуру предложения не входят, но наряду с функцией межфразовой связи выполняют роль функциональной идентификации предложения. Именно поэтому логико-смысловые коннекторы «переведены» нами в разряд индикаторов как их разновидность.

[3] Копилка – специально выделенный объем памяти, позволяющий накапливать отбираемую информацию из различных фрагментов конкретного текста или текстов. Разработчиками текстового процессора Word создана специальная подпрограмма, которая позволяет извлекать накопленную информацию из этой памяти и вставлять ее в необходимый документ в соответствии с желаниями пользователя.

[4] Коннектеры в данной лабораторной работе не включаются в процедуру экстрагирования, поскольку «работают» только в автоматическом (а не в автоматизированном) режиме. В принципе количество коннектеров – величина постоянная, они списком включаются в поисковое предписание, составленное по каждой формуле выбора.