Home page | Каталоги и базы данных

025.4.036

Бродовский А.И.,

Макагонов П.П.,

Очагова Л.Н.,

Сбойчаков К.О.

Информационно-поисковая система
для работы с полнотекстовой базой данных
по проблеме “Устойчивое развитие
городов” на основе ИРБИС

Разработана Информационно-поисковая система, используемая в справочных целях, в процессе принятия управленческих решений, подготовки нормативных актов. Предназначена для работ, связанных с вопросами экономики, экологии, социальных проблем. База данных является полнотекстовой, сопровождается поисковыми словарями, широким набором сервисных средств для работы с данными. Разработана методика статистической обработки данных для анализа сходства текстов при принятии решений.

НАЗНАЧЕНИЕ И ОБЩАЯ ХАРАКТЕРИСТИКА

База данных “Устойчивое развитие городов” подготовлена к конференции 1999 г. "Устойчивое Развитие Городов"(Мэрия Москвы) и предназначена для специалистов, связанных с вопросами экономики, экологии и социальных проблем города. Она содержит монографии, учебники, статьи, доклады по городскому хозяйству, планированию, финансово-бюджетным отношениям, региональному развитию, научному и информационному обеспечению управления городом. Рекомендуется применение накопленной информации при принятии управленческих решений, подготовке или корректировке нормативных актов, для учебных и справочных целей.

База данных может быть пополнена и скорректирована в процессе работы самим пользователем, что в дальнейшем облегчит поиск и работу с конкретным документом.

На основе Интегрированной Библиотечно-информационной Системы ИРБИС в базе данных реализованы:

  • набор сервисных средств ввода,
  • набор рабочих листов,
  • средства для импорта данных,
  • разветвленный рубрикатор записей,
  • встроенные средства для статистической обработки данных;
  • широкие возможности поиска (в том числе поиск по образцу),
  • средства для глобальной (групповой) корректировки баз данных,
  • набор выходных форм и т.д.

Полнотекстовая база данных включает в себя:

  • минимальное формализованное библиографическое описание каждого текста (автор, главный редактор (для авторского коллектива), название работы, год и место издания, для статей также название периодического издания, том, выпуск и месяц издания, принадлежность к рубрике);
  • собственно текст работы;
  • поисковый образ текста.

Исходным материалом для построения полнотекстовой базы данных служит накопленная текстовая информация, сохраняемая в виде файлов, которая может включать в себя документы различного рода, начиная с коротких резюме до электронных изданий книг, журналов и т.д. Полнотекстовая база данных представляет собой библиографическую БД с отсылками на полнотекстовые файлы.

Под поисковым образом понимается перечисление слов из словаря предметной области (предметной подобласти) с указанием числа употреблений каждого слова в этом тексте. Предметная область “Устойчивое развитие городов” оказалось слишком широкой, поэтому было решено составить словари по каждой из рубрик БД. Рубрикатор приведен в Приложении 1. Однако поскольку по ряду рубрик число эталонных файлов и их объем оказались не достаточно большими (не репрезентативными), то было решено ограничиться составлением (на первом этапе) словарей восьми предметных областей. (См. таб.1).

Тексты для рубрик:

  • Устойчивое развитие – словари, справочники, учебники;
  • Информационное обеспечение;
  • Информация для конкретных регионов

остались без словарей, но все малочисленные тексты из этих рубрик распределены по другим.

Словарь каждой предметной области создан на основе эталонных файлов, составляющих ядро базы данных.

Таблица 1

№ рубрики

Название рубрики

Число источников

01.

Природные и техногенные чрезвычайные ситуации и безопасность.

52

02.

Охрана природы и экология

181

03.

Управление регионами

67

04.

Экономика и финансы регионов

71

05.

Экономика города

69

06.

Социальная сфера

61

07.

Законодательство и права человека

31

09.

Научные основы устойчивого развития.

43

В число эталонных файлов и первой версии базы данных вошли:

  • изданные в апреле 1999 года книги академиков Л.И. Абалкина “Спасти Россию”, Д.С. Львова “Путь в XXI век”,
  • книга академика Н.Н. Моисеева “С мыслями о будущем России”,
  • избранные выступления мэра Москвы Ю.М.Лужкова,
  • книга Л.А. Велихова “Основы городского хозяйства. Общее учение о городе, его управлении, финансах и методах хозяйства”,
  • учебник “Устойчивое развитие города” А.Н. Тетиора,
  • книга В.И. Голованова “Управление и самоуправление в крупном городе: теория, опыт, организация”,
  • книга И.Д. Иванова “Европа регионов”,
  • статьи ряда ученых, подготовленные к нашей конференции,
  • труды конференции “Безопасность и устойчивое развитие крупных городов” (Москва, 2 — 4 апреля 1996),
  • Экологический профиль Москвы за 1998 год, подготовленный в рамках программы “Устойчивое развитие городов”,
  • статьи из журнала “Экология городов”, издаваемого Союзом Российских Городов,
  • отдельные выпуски Комитета по телекоммуникациям и средствам массовой информации Правительства Москвы “Правительство — город — люди”, “СИМПТОМ”, “Пульс”,
  • Локальная версия выставочного сервера Центра "Москва" (www. mosexpo.ru),
  • Сайт выставки “Социальные, экономические и экологические аспекты устойчивого развития городов”.

В целом данная разработка может рассматриваться как автоматизированная технология отбора текстового материала по запросу, контекст которого определяется пользователем — это может быть библиографический поиск, поиск по образцу, поиск по ключевым словам и т. д. Результатом служит сортированный список документов и граф, определяющий связи между ними.

В настоящее время в базе содержится около 600 документов, составляющих более 6 000 страниц или 300 печатных листов. Для окончательной версии уже подготовлены более 4 000 страниц, и этот список является открытым. В подготовке документов для ввода в базу большое участие принимали студенты Международного Университета Тадорашко К.П. и Юсипов Н.А.

Фактически, составителям базы данных пришлось столкнуться с проблемой отсутствия метабазы по теме “Устойчивое развитие городов”. Конкретно задача создания метабазы состоит в выявлении всех мест хранения информации по указанной теме, информационных потоков, сайтов в сети Internet, всего пула экспертов, российских и международных организаций, прошедших и планируемых конференций, семинаров, симпозиумов, образовательных учреждений и т.д. В данном случае при отсутствии метабазы отбор документов для данной базы пришлось провести опираясь на коллективное мнение членов Научного совета программы “Устойчивое развитие городов” с учетом согласия авторов или главных редакторов изданий разрешить размещение их материалов в ядре базы.

Разработка математического обеспечения
для анализа сходства текстов

Общие положения

Тема исследования фактически ориентирована на попытку автоматизировать процесс кластеризации текстов.

Отнесение к одному и тому же кластеру производится на основе близости текстов (документов) в пространстве специального списка слов. Этот список слов назовем словарем предметной области — DOD и обозначим L(Dom). В список слов предметной области включаем только те слова из базы текстов предметной области, для которых относительная частота в текстах предметной области статистически значимо превышают относительную частоту этих слов в общеупотребительной лексике.

Задачи подобного типа возникают при анализе различных работ:

  • рефераты статей и тезисы докладов большой конференции;
  • аннотации работ, поступающих в (полнотекстовую) базу данных,
  • поток писем в один адрес.

В каждой из ситуаций они решаются в различных режимах.

Программа должна помочь эксперту в работе по классификации текста на принадлежность его предметной области.

Далее рассмотрение ведется в контексте частотных списков слов общеупотребительной лексики — L(Com) или предметной области — L(Dom). Для каждого из них выделим высокочастотную, среднечастотную и низкочастотную части.

Слова из высокочастотной части списка слов предметной области в большинстве своем лежат в среднечастотной части списка слов общеупотребительной лексики.

В этом случае относительная частота F(T(r), W(j)) в тексте T(r) каждого слова W(j) из низкочастотной части как L(Com), так и — L(Dom) много выше, чем относительная частота этого слова в частотных списках общеупотребительной и предметной лексики.

i(Com) — ранг слова в конкретном списке слов общеупотребительной лексики,

i(Dom) — ранг слова в конкретном списке слов лексики предметной области,

i(Gen) — абстрактный номер слова в алфавитном списке слов языка, как генеральной совокупности.

Тогда условие i(Com) >> i(Dom) означает, что слово чуждо для предметной области;

i(Com) << i(Dom) — слово является типичным для предметной области.

Алгоритм формирования словаря предметной области

1.Для каждого из эталонных текстов составляется частотный список слов со следующими ограничениями:

1.1.Все слова нормализованы таким образом, что при подсчете статистики не имеют значения падежное окончание, признак рода и числа, для глаголов — признак времени, рода и числа; числа учитываются только в буквенном написании; одно и двухбуквенные слова учитываются только до момента составления частотного списка всей базы (и определения ранга — порядкового номера слова в списке), а затем удаляются.

1.2.Для каждого слова складываются абсолютные частоты его употребления в различных текстах, подсчитывается относительная частота слова во всех текстах и коэффициент Джини — характеристика, которая является некоторым аналогом стандартного отклонения частоты слова по всем текстам (методика расчета коэффициента Джини дается ниже) — далее производится упорядочивание слов в частотном списке.

Методика составления частотных списков по каждой из предметных подобластей остается той же, что и для общего частотного списка.

1.3.Для каждого слова в частотном списке базы данных предметной области (подобласти) ищется относительная частота употребления данного слова в словаре общеупотребительной лексики — F(L(D(s)),W(j)).

1.4.Все слова частотного списка базы данных проверяются на возможность включения в словарь предметной области. Для этого отбираются слова, удовлетворяющие критериям (применяемым в порядке перечисления) :

  • стоп словарь для ненужных слов;
  • список эксклюзивных слов (безусловного выбора);
  • превышение минимального числа словоупотреблений (по всем текстам в совокупности);
  • превышение общеупотребительной частоты (база данных общеупотребительной лексики COMON подготовлена заранее);
  • количество значимых текстов в % по отношению к заданному (число текстов где найдено слово) ;

Из отобранных слов остаются те, для которых коэффициент Джини меньше заданного критического значения. Начальное критическое значение для коэффициента Джини К определяется равным 0.8, т.е.:

F(L(D(s)),W(j)) > K* F(L(Com),W(j))

2.Редуцированный список слов из частотного словаря базы требует дальнейшей обработки для исключения случайно попавших слов, связанных с возможной репрезентативностью выбранных эталонных текстов.

3.Для составления поискового образа каждого файла (текста) базы данных в программном продукте предусмотрено обнаружение в тексте всех слов из словаря предметной области с учетом приведения их к нормализованному виду и с указанием на число употреблений каждого слова.

Степень близости определяется по формуле расстояния между поисковыми образами в пространстве слов предметной области (либо с учетом словоупотреблений для каждого слова , либо без него).

Вычисление степени близости текстов реализовано в манхэттенской метрике, в евклидовой метрике и с помощью неметрического критерия
1-Cor (коэффициент корреляции). Реализована визуализация результатов в виде графа с узлами, соответствующими отобранным текстам, и с дугами, среди которых видимыми можно сделать только те, которые короче заданных. Таким образом, по заданному образцу текста можно найти в базе данных сходные тексты в рамках одного или нескольких словарей предметной области. Также можно провести анализ на схожесть текстов, уже находящихся в базе данных.

Методика расчета коэффициента Джини

Для каждого слова составляется вектор, размерность которого равна числу текстов. Компоненты вектора — это число употреблений данного слова в каждом из текстов базы или подбазы. Компоненты вектора упорядочиваются по возрастанию. Затем строится кривая накопленных частот и все ее значения нормируются суммарным числом употребления слова в базе данных. Полученная кривая также может быть представлена вектором той же размерности, что и исходный. Затем строится второй вектор той же размерности. Первая компонента вектора равна среднему значению числа употреблений заданного слова во всех текстах базы. Вторая компонента равна удвоенному среднему, третья — утроенному и т.д. Затем вычисляется сумма разностей каждой из компонент второго и первого векторов и делится на сумму всех компонентов второго вектора. Эта величина называется коэффициентом Джини. В случае, если все употребления данного слова находятся в одном тексте, а остальные тексты базы его не содержат, то коэффициент Джини достигает максимального значения, близкого к единице. Если слово употребляется с одинаковой частотой во всех текстах базы, то коэффициент Джини равен нулю. Если коэффициент Джини меньше критического значения, то употребление слова будет считаться достаточно равномерно распределенным по базе.


Copyright © 1995-1999 ГПНТБ России