Home page | Каталоги и базы данных

Научные и технические библиотеки


 

УДК 002.53/55

Блюменау Д.И., Афанасова Л.Н.

Индикаторный метод компьютерного свертывания
в процессе обучения
аналитико-синтетической переработке информации

Пожалуй, ни в каких областях своего применения компьютерные технологии не встречаются с такими трудностями, как при решении семантических задач. Частным, но наиболее распространенным случаем такого приложения является автоматизация процессов аналитико-синтетической переработки информации (компьютерное свертывание/развертывание), к которым относятся индексирование, аннотирование, реферирование, конспектирование, фрагментирование, перевод и другие формы информационного анализа и синтеза. Трудности прежде всего обусловлены сложностью, а иногда и невозможностью формализации и алгоритмизации мыслительных процессов, сопровождающих указанные разновидности анализа и синтеза в их «ручном»,  традиционном варианте.

В чем же тут принципиальная сложность? Известно, что в общем случае формализация – это представление внутреннего содержания во внешней форме: внешняя форма, относясь к уровню явлений, определяется сущностью содержания, т.е. внутренней формой материального объекта. В сфере информационных процессов (знания) отношение внешней и внутренней форм более сложно. Внешняя форма, т.е. знаковая, – материальна и объективна; внутренняя форма, т.е. смысл, – идеальна и субъективна, а объективностью обладает лишь в том смысле, что является отражением объективных, инвариантных, общих отношений материального мира. В этих условиях формализация информационных процессов сводится к изысканию в форме, т.е. плане выражения (в его лексике, грамматике, структуре, архитектонике и т.д.), элементов, через которые можно было бы выразить план содержания (смысл, семантику) того или иного текста и тем самым осуществить обработку (преобразование) семантической информации без обращения к смыслу данного текста. Предполагается, что данная процедура должна привести к результату, близкому по своему качеству к результату, получаемому (в общем случае) при содержательной обработке тех же текстов. Никогда (опять же в общем случае и в ближайшем будущем) качество машинной обработки информации не будет выше качества интеллектуальной обработки, поскольку языки и алгоритмы, помогающие машине «мыслить», всегда будут беднее естественного языка и алгоритмов, на которых мыслит человек.

Работы в области автоматизации семантических процессов ведутся уже около полувека (практически с появлением первых ЭВМ) и за этот период прошли несколько периодов бурных надежд и горьких разочарований.

Особую эйфорию пережил машинный перевод, однако метафоричность полисемичных языков выявила всю сложность скорого решения этой проблемы. Сейчас существует уже целый ряд двух и более язычных автоматов-переводчиков; большой популярностью пользуется электронный переводчик Promt 98, разработанный фирмой ПРОМТ (С.-Петербург), но качество этих переводов пока еще не сопоставимо с качеством интеллектуальных переводов. Однако и это значительное достижение; хотя реализация любых семантических процессов с помощью ЭВМ «всегда хуже», тем не менее она избавляет от огромных затрат человеческого труда, времени и нервов.

Большие успехи достигнуты в области индексирования (и соответственно – информационного поиска, поскольку это ключевая операция поискового процесса). Но эпоха дескрипторных языков, на которые возлагались большие надежды как на наиболее семантически сильные информационно-поисковые языки (ИПЯ), постепенно уходит. Дескрипторные языки, рожденные для обслуживания автоматизированных информационно-поисковых систем (ИПС), по мере совершенствования и развития средств компьютерной техники и программного обеспечения уступили свое лидирующее место языкам ключевых слов (по сути, естественным языкам), поскольку оказались менее конкурентоспособными из-за плохой тематической совместимости. Это была, конечно, пиррова победа, так как неучет в языке ключевых слов парадигматических отношений привел при поиске к резкому снижению качественных показателей работы ИПС.

К третьему направлению автоматизированного свертывания относятся работы по автоматическому реферированию. Это направление занимает как бы промежуточное положение между минимальным уровнем свертывания – переводом и максимальным – индексированием. Однако автоматическое реферирование по своему характеру очень специфично, поскольку сводится к экстрагированию (извлечению) из документов минимальных релевантных фрагментов [1], некоторая совокупность которых и образует широкий спектр вторичных документов – различные виды аннотаций, рефератов, реферативных аннотаций, самостоятельных фрагментов, конспектов и их синтезированных производных – реферативных указателей, дайджестов, реферативных обзоров, квазихрестоматий и т.д. Эти вторичные документы, являющиеся результатом аналитико-синтетической переработки первичного документного потока, рассчитаны на удовлетворение как частных (индивидуальных), так и типовых (потенциальных) информационных потребностей различных категорий специалистов науки, техники и производства.

История применения вычислительной техники для реферирования насчитывает уже около 40 лет и связана с именами таких исследователей, как Г.П. Лун, Г. Эдмунсон, В.Е. Берзон, И.П. Севбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления – квазиреферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт (квазиреферат), и собственно автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), в большей или меньшей степени изоморфных первичным документам (или их частям).

Второе направление – более перспективное – в настоящее время представлено экспериментальными исследованиями и до широкой реализации еще не дошло. Квазиреферирование обладает той особенностью по сравнению с собственно реферированием, что основывается на анализе поверхностно-синтетических отношений в тексте, выраженных в нем и не требующих обращения к глубинно-синтаксическим процессам, изученность которых еще явно недостаточна для описания имманентных свойств любого текста.

В рамках квазиреферирования в свою очередь обычно выделяют три основных направления:

  • статистические методы, основанные на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений…) прежде всего по частоте встречаемости слов в тексте; в результате ранжирования лексики в том или ином документе они определяют слова с высоким рангом и их сочетаемость в различных фразах и по этим показателям оценивают информативность данных фраз; в другом случае на основе функционирования различного типа повторов всем предложениям присваивается функциональный вес, определяемый числом слов данного предложения, связанных со словами других предложений, и на основе выбранного критерия (порога) осуществляется экстрагирование фраз с наибольшим функциональным весом;

  • позиционные методы, опирающиеся на предположение о том, что информативность предложения находится в зависимости от его позиции (места) в тексте документа; однако они «работают» относительно удовлетворительно на строго структурированных документах типа стандартов, патентных описаний и т.п., а в остальных случаях применяются лишь в сочетании с другими методами, поскольку в чистом виде не обладают необходимой репрезентативностью результатов;

  • индикаторные методы, основанные на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами – маркерами, индикаторами и коннекторами, образующими лексический аппарат данного способа экстрагирования.

Из перечисленных методов до уровня «промышленной» реализации дошли лишь статистические. Так, в широко известном текстовом процессоре Microsoft Word 2000 представлена функция «Автореферат», которая обеспечивает формирование серии рефератов из фраз, наиболее информативных с точки зрения вхождения в них наиболее высокоранговых слов. При этом пользователь может устанавливать размерный порог свертывания первичного документа от 50 до 10% его объема. Авторы программного обеспечения предупреждают пользователей: полученный в результате применения данного метода текст реферата является лишь грубым наброском и его, как правило, приходится дополнять и править. Последнее не самое отрицательное в этом методе, так как почти каждый квазиреферат подлежит некоторой стилистической доводке; хуже другое: очень часто присутствие во фразе (фразах) высокоранговых слов не обеспечивает ее высокую информативность, а совокупность фраз – смысловое единство нового текста.

Кроме того, полученный по упомянутому методу вторичный документ не имеет функциональной ориентированности, т.е. это ни аннотация, ни реферат, ни фрагмент, а типичный квазиреферат – некоторое отдаленно изоморфное текстовое образование и об избирательности свертывания здесь не может быть и речи. Тем не менее от статистического метода реферирования ни в коем случае нельзя отказываться – он должен занять свою нишу в общем русле автоматизированного свертывания, однако при этом нужно достаточно точно определить (также формализованным, т.е. машинным способом) видовую принадлежность документов, наиболее чувствительных к данному методу. Статистические рефераты могут получить широкое распространение в области автоматического индексирования. К сожалению, функция «Автореферат» работает лишь с рядом европейских и азиатских языков (всего 11), в число которых русский язык не входит.

В отличие от предыдущих способов квазисвертывания индикаторный метод располагает возможностью функциональной индикации фраз первичного документа, его аспектного структурирования с помощью применяемого для экстрагирования лексического аппарата. Работы в этом направлении велись в течение ряда лет (1980-е – начало 1990-х гг.), в частности, коллективом разработчиков ЛГИК им. Н.К. Крупской и ВНИИ «Информэлектро» под руководством В.П. Леонова и Д.Г. Лахути. К сожалению, с наступлением эры демократического либерализма эти исследования по известным причинам постепенно затухли.

Суть индикаторного метода заключается в использовании словарей маркеров, индикаторов и коннекторов (лексический аппарат свертывания), насчитывающих свыше 1 500 лексических единиц так называемой неключевой внетематической лексики, и формул выбора, отражающих требования к различным видам вторичных документов для машинного экстрагирования фраз, которые относятся к различным содержательным аспектам документов (в нашем случае научно-технических статей). Совокупности таких фраз, определенным образом упорядоченных, и образуют различные виды вторичных документов – основного средства информационного обслуживания.

В основе идеи свертывания источников информации на базе неключевой лексики лежит представление о том, что фразы текста, особенно делового и научно-технического, выполняют не только внетекстовую функцию (фраза как отражение некоторой экстралингвистической реальности – о чём и что говорится), но и внутритекстовую, грамматико-стилистическую (фраза как способ отражения этой экстралингвистической реальности в виде некоторой целостной композиции, имеющей свою логику, структуру, архитектонику, обладающей определённой модальностью – как, каким образом говорится).

Такая двойственность фраз письменного текста обусловлена, в частности, необходимостью перехода речи от многомерного плана содержания к одномерному, линейному плану выражения, а также отсутствием автора сообщения непосредственно в процессе коммуникативного акта. Отсюда применение на письме определенных синтаксических конструкций ( фреймов по М. Минскому), введение в речь словесных клише, штампов, уточнений, связок и прочих метаинформативных элементов. Таким образом, большинство фраз текста не только номинативны, но и функциональны, причем определенным синтаксическим конструкциям, «выполненным» из лексики внетематического (неключевого) слоя, соответствуют определенные типы фраз, относящиеся к различным содержательным аспектам или выполняющие модально-оценочные функции. Особенностью словарей, составленных из неключевого слоя лексики, в отличие от словарей ключевой лексики (в частности дескрипторных словарей) является быстрая насыщаемость (закрытость) первых и практическая «незакрываемость» вторых.

К элементам лексического аппарата свертывания, применяемым в процедурах индикаторного метода, относятся маркеры, индикаторы и коннекторы.

Маркеры (им принадлежит основная роль) – это отдельные слова или словосочетания, обеспечивающие однозначную идентификацию фраз, принадлежащих к различным смысловым (содержатель­ным) аспектам текста. Существуют два типа содержательных аспектов (их называют иногда сетками): первый тип отражает структуру (логику) вида документа (например, статьи, патентного описания, методического пособия и т.д.), второй тип – структуру (логику) той или иной области знания или группы объектов. Так, в качестве сетки первого типа можно привести следующий перечень аспектов:

  1. Известный вариант решения (ИВР).

  2. Недостатки и оценка известного варианта решения (ОцИВР).

  3. Постановка проблемы (целевая установка) (ПП, ЦУ).

  4. Предлагаемый вариант решения (ПВР).

  5. Особенности предлагаемого варианта решения (Ос ПВР).

  6. Оценка предлагаемого варианта решения (Оц ПВР).

  7. Экспериментальная проверка (ЭП).

  8. Экономическая эффективность (ЭЭ).

  9. Область применения (ОП).

  10. Выводы (В). Результаты (Р). Рекомендации (Рек).

Подобная структура документа (чаще всего статьи) отражает, как правило, логику исследования (разработки).

Пример сетки второго типа (для статей по медицине):

  1. Постановка проблемы (или состояние вопроса).

  2. Этиология.

  3. Патогенез.

  4. Клиническая картина.

  5. Дифференциальная диагностика.

  6. Показания к лечению.

  7. Лечение.

  8. Отдаленные результаты лечения.

  9. Сопутствующие заболевания.

  10. Профилактика.

  11. Выводы и т.п.

Сеток второго типа может быть достаточно много – все зависит от специфики области знания.

В исследованиях коллективов «Информэлектро» и ЛГИК им. Н.К. Крупской применялась преимущественно сетка первого типа. Разработанный ими словарь маркеров включает более полутора тысяч лексических единиц и организован в двух вариантах – алфавитном и поаспектном: в алфавите маркерных статей и этих же статей, сгруппированных по отдельным содержательным аспектам. Маркерная статья включает в себя ядерный элемент, его синонимы и лексические сопровождения ядерного элемента (или его синонимов). Ядерное слово выделено полужирным. Например:

Анализ - а. ПВР + В

 

 Последний - а. ПП

с.

 Вычисления

л.с.

Выявлять

с.

Последнее время

Данные

Доказывать

Настоящее время

Результаты

Позволять

Прежде

Измерения

Показывать

л.с.

Наблюдаться

Испытания

Предлагать

Отмечаться

Исследования

и т.д.

Появляться

Нами

 

Существовать

и т.д.

 

 

Примечание: а – аспект, на который «работает» маркер; с – синонимы; л.с. – лексическое сопровождение ядерного элемента.

Пример: «Анализ … показывает», или «Данные … позволяют», или
«Нами… предложен» и т.д.; «В последнее время отмечается», «В настоящее время существует» и т.д.

Маркеры в свою очередь подразделяются на три группы: маркеры, идентифицирующие фразы, относящиеся к аннотативным аспектам содержания – ПВР, ПП, ЦУ (MI); реферативные маркеры, ориентированные на экстрагирование фраз, включаемых в рефераты -–ИВР, Оц ИВР, Оп ПВР, Рек, В (МII); фрагментирующие маркеры, предназначенные для экстрагирования фраз, включаемых в рефераты-фрагменты – другая сетка (MIII).

Индикаторы – лексические единицы, призванные выполнять преимущественно модально-оценочные функции, – с содержательными аспектами четко не связаны, а отражают отношение автора к рассматриваемому в документе вопросу. Они подразделяются на подытоживающие, акцентирующие, констатирующие, оценочно-вероятностные, иллюстрирующие и др. Например: итак, следовательно, следует подчеркнуть, важным представляется, существенным является, главное в и многие другие. Индикаторы не являются ведущим средством экстрагирования фраз, а имеют вспомогательное значение, дополняют и уточняют формулу выбора – поисковое предписание в процедурах свертывания.

Коннекторы – лексические единицы, обеспечивающие межфразовые связи. Известно, что законченным смыслом (автосемантично­стью) чаще всего обладают не отдельные предложения, а некоторая их совокупность – минимальный релевантный фрагмент. Нередки случаи, когда маркированное предложение является синсемантичным – в нем основной предмет рассмотрения заменен местоименным словом или словосочетанием. В этом случае для устранения смысловой неполноценности (синсемантичности) фразы к нему необходимо присоединить выше– или нижестоящую фразу (или фразы). Функцию сигнала о смысловой неполноте предложения и выполняют коннекторы, которые разделены нами на левые, отсылающие к вышестоящей фразе (аналогичный, данный, этот, такой, описанный, изложенный и др.), и правые, уточняющие, добавляющие ( более того, вместе с тем, кроме того, в частности, тем самым и др.), требующие присоединения нижестоящей фразы [2].

Перечисленные выше элементы лексического аппарата свертывания реализуются в процессе свертывания с помощью формул выбора текста. В них в символьной форме фиксируются элементы лексического аппарата, отвечающие требованиям экстрагирования фраз для различных видов вторичных документов. Таким образом, структура (схема) формулы выбора, организованная по фасетному принципу, включает в себя последовательность маркеров и индикаторов, соответствующих моделям различных видов вторичных документов.

Например, формула выбора, соответствующая модели краткой аннотации, должна включать в себя маркеры, ориентированные на аспект ПВР; полная аннотация – маркеры, ориентированные на аспекты ПВР, ЦУ и ПП и констатирующие и обобщающие индикаторы (в случае необходимости); реферативная аннотация – на ПВР, Оц ПВР, В, Р, Рек и оценочные, сравнительные, обобщающие, констатирующие и результирующие индикаторы (в случае необходимости) и т.д. Соответствующие им формулы выбора в символьной форме будут иметь вид:

  1. 16, 18, 28; И-1;

  2. 8, 13, 16, 29, 37; И-1,3;

  3. 16, 18, 28; MII-4, 7, 25, 31, 32; И-1, 3, 4, 5, 8; К-1,

где MI, MII, MIII – соответственно группы аннотативных, реферативных и фрагментирующих маркеров; И – символ индикатора; К – символ коннектора; цифры, идущие за маркерами и индикаторами, обозначают порядковые номера лексических единиц по соответствующим словарям.

Индикаторы имеют факультативное значение, ими варьируют в процессе итерационного поиска в зависимости от промежуточных результатов.

Приведенные выше теоретические и методические посылки легли в основу подготовки и разработки лабораторных работ «Подготовка вторичных документов методом автоматизированного свертывания первичных документов, поступающих в электронной форме» по курсу «Информационный анализ/синтез».

Цель лабораторной работы – привить студентам навыки использования возможностей компьютерной техники, в частности текстового процессора Word 2000, а также сокращенных версий словарей маркеров, индикаторов и коннекторов для автоматизированного извлечения из текстов документов минимальных релевантных фрагментов и синтезирования из них различных видов вторичных документов: аннотаций, рефератов и реферативных аннотаций. Работа носит экспериментальный характер, поскольку не преследует цели получить заранее фиксированные результаты и симулирует реальный процесс экстрагирования лишь на ограниченном числе документов (2–4) и только по некоторым формулам выбора.

Материальное обеспечение каждого студента для выполнения лабораторной работы включает: компьютер, приложение Microsoft Word 2000, дискету, на которой записаны полные тексты первичных документов, подлежащих автоматизированному свертыванию, сокращенные версии словарей маркеров и индикаторов и формулы выбора, ориентированные на несколько типовых разновидностей вторичных документов. Каждому студенту предоставляется методичка по выполнению операций свертывания.

Суть работы сводится к тому, что студент с помощью поисковых процедур составленного им поискового предписания производит цветовую разметку фраз первичного документа, выведенного на экран монитора. При беглом просмотре эта разметка ориентирует студента-референта в аспектной структуре документа и позволяет выделять фразы и фрагменты, релевантные задаче свертывания документа по конкретной формуле выбора. Выделенные фрагменты текста последовательно направляются в Копилку  [3], откуда затем выводятся на экран для формирования подготавливаемого вторичного документа.

Если качество полученного документа не устраивает студента, он должен с помощью словарей модифицировать поисковое предписание и снова произвести процедуру экстрагирования.

В целом процедура экстрагирования сводится к выполнению следующих операций.

Руководствуясь одной из формул выбора и данными словаря маркеров (а если формула требует – и словаря индикаторов), студент письменно составляет поисковое предписание, включающее соответствующие формуле маркеры. Затем производит поиск и окрашивание лексических единиц поискового предписания, для чего следует:

а) по команде меню «Правка – Заменить…» в диалоговом окне «Найти» ввести лексическую единицу (например результат). Если лексическая единица может быть не только словом, но и частью слова (например под), то необходимо установить флажок в поле «Только слово целиком»;

б) в поле «Найти» двойным щелчком выделить лексическую единицу и по команде <Ctrl-C> скопировать ее в буфер;

в) в поле «Заменить на» щелкнуть мышью и по команде <Ctrl-V> вставить из буфера лексическую единицу;

г) в нижней части диалогового окна нажать кнопку «Формат» и выбрать пункт «Шрифт»;

д) в диалоге «Заменить шрифт» на вкладке «Шрифт» найти поле «Цвет текста», щелкнуть по кнопке списка этого поля и выбрать цвет, соответствующий типу лексической единицы: маркеры – красный, индикаторы – зеленый, коннекторы [4] – синий, ключевые слова – желтый. Нажать кнопку «ОК». На вкладе «Заменить» нажать кнопку «Заменить все». Введенная лексическая единица будет найдена в тексте статьи и получит окраску назначенным цветом;

е) повторить действия пунктов ад для всех остальных лексических единиц, включенных в поисковое предписание.

Ввести фрагменты текста, имеющие окрашенные лексические единицы, в Копилку, для чего:

а) выделить всю фразу, имеющую окрашенную лексическую единицу, и выполнить команду <Ctrl-F3>; фрагмент будет вырезан и сохранен в Копилке. (Примечание: после маркеров Результаты, Выводы, Рекомендации, выделяется весь последующий текст – до нового раздела или списка литературы и приложений);

б) для возврата фрагмента в текст на панели «Стандартная» нажать кнопку «Отменить»;

в) повторить действия пунктов а и б для всех фраз, соответствующих конечной задаче.

Вывести на экран содержимое Копилки в целях формирования вторичного документа, для чего:

а) по команде <Ctrl-End> перейти в конец текста первичного документа и вызвать из Копилки содержимое командой <Ctrl-Shift-F3>;

б) отредактировать сформированный вторичный документ;

в) после подготовки всей совокупности вторичных документов по исходным первоисточникам представить результаты преподавателю.

В зависимости от стоящих перед референтом задач в процессе свертывания документов можно использовать как отдельные формулы выбора, так и всю их совокупность. Однако не следует ожидать, что по каждой из формул, примененных для экстрагирования, будет получен удовлетворительный результат: очень многое зависит от характера, вида, размера и структуры документа. Большинство статей и не нуждается в свертывании по всему комплексу формул выбора.

 

Заключение

Выше в краткой форме представлено современное состояние работ в области информационного анализа/синтеза и сформулированы некоторые теоретические и методические подходы к решению проблем компьютерного реферирования. Однако рамки задачи автоматизированного свертывания документного потока должны рассматриваться значительно шире. Речь идет о создании системы сплошного слежения за документным потоком с целью максимального раскрытия и использования его ресурсов для решения задач развития науки, техники, культуры.

Не секрет, что в системе информационных коммуникаций наблюдается постоянное недоиспользование накопленных обществом знаний со всеми вытекающими отсюда негативными последствиями. Причина этого прежде всего в несовершенстве средств поиска информации (несмотря на широкое внедрение в эту сферу средств компьютерной техники) и методов аналитико-синтетической переработки первичного документального потока. Специалисту в действительности нужны не документы, а информация – факты, концепции и др. Однако информации очень много вообще, но крайне мало в частности.

Такое положение обусловлено диалектическим противоречием между избыточностью конкретного документа за счет его многоаспектности и недостаточностью документного потока в целом за счет явления рассеяния. Работы в области информационного анализа/синтеза и призваны, в известных рамках, снять это противоречие. Их конечная цель – максимальное использование когнитивных (познавательных) возможностей первичного документа за счет машинного «разбиения» его на самостоятельные минимальные релевантные фрагменты, утилизируемые затем в гипотетической пока еще базе знаний, обращение к которой позволило бы в значительной степени снизить необходимость использования первичного потока.

Предложенная нами лабораторная работа является лишь первой ступенькой в реализации идеи компьютерного свертывания, которая должна постепенно трансформироваться в серию лабораторных работ, направленных на получение более репрезентативных результатов прежде всего за счет дальнейшего совершенствования лексического аппарата свертывания, использования для поиска минимальных релевантных фрагментов сложных условий поиска и макросов процессора Word, а также других систем, к примеру «Артефак». В качестве первичного документного потока в электронной форме планируется широкое привлечение ресурсов Интернета.

Данная лабораторная работа актуальна при подготовке студентов новой специальности 351400 «Прикладная информатика в социально-культурной сфере», а также других отделений библиотечно-информационного факультета.


Список литературы

  1. Автоматизация индексирования и реферирования документов // Информатика. Сер. «Итоги науки и техники». М.: ВИНИТИ, 1983. Т.7. 246 с.

  2. Блюменау Д.И. О некоторых направлениях формализации инфопроцессов // Проблемы инфовзаимодействия. Новосибирск, 1993. С.206–223.

  3. Блюменау Д.И. Проблемы связывания научной информации. Л.: Наука, 1982. 166 с.

  4. Блюменау Д.И., Гендина Н.И., Добронравов И.С., Лахути Д.Г., Леонов В.П., Федоров Е.Б. Формализованное реферирование с использованием словесных клише (маркеров). НТИ. Сер.2. 1981. №2. С.16–20.

  5. Блюменау Д.И., Перевозчикова К.В., Сергеева О.С. Неключевая лексика и ее функции в алгоритмических процедурах избирательного свертывания научно-технических текстов. НТИ. Сер.2. 1988. №12. С.38–45.

  6. Гиндин С.И. Методы автоматизированного фрагментирования текста, отражающиеся на характеристике внутреннего состава фрагментов // Семиотика и информатика. М.: ВИНИТИ, 1977. Т.9. С.35–84.

  7. Горькова В.И., Борохов Э.А. Реферат в системе научной коммуникации. Направления совершенствования лингвистических и структурных характеристик // Информатика. Сер. «Итоги науки и техники». М.: ВИНИТИ, 1987. Т.11. 232 с.


[1] Под минимальным релевантным фрагментом понимается единица текста – предложение, некоторая их совокупность, абзацы, суперсинтаксические целые и т.п., обладающие смыслом и имеющие самостоятельное значение вне контекста документа, из которого они извлечены.

[2] Различают две разновидности коннекторов: анафорические (безоценочные) и логико-смысловые (оценочные). Первые являются заместителями антецедента в предложении, характеризуют смысловую неполноту и всегда выполняют в нем роль того или иного члена предложения и функцию межфразовой связи. Вторые (логико-смысловые) в структуру предложения не входят, но наряду с функцией межфразовой связи выполняют роль функциональной идентификации предложения. Именно поэтому логико-смысловые коннекторы «переведены» нами в разряд индикаторов как их разновидность.

[3] Копилка – специально выделенный объем памяти, позволяющий накапливать отбираемую информацию из различных фрагментов конкретного текста или текстов. Разработчиками текстового процессора Word создана специальная подпрограмма, которая позволяет извлекать накопленную информацию из этой памяти и вставлять ее в необходимый документ в соответствии с желаниями пользователя.

[4] Коннектеры в данной лабораторной работе не включаются в процедуру экстрагирования, поскольку «работают» только в автоматическом (а не в автоматизированном) режиме. В принципе количество коннектеров – величина постоянная, они списком включаются в поисковое предписание, составленное по каждой формуле выбора.


Copyright © 1995-2001 ГПНТБ России