Home page | Каталоги и базы данных | |||||||||||||||||||||||||||
025.4.036 Бродовский А.И., Макагонов П.П., Очагова Л.Н., Сбойчаков К.О. Информационно-поисковая система Разработана Информационно-поисковая система, используемая в справочных целях, в процессе принятия управленческих решений, подготовки нормативных актов. Предназначена для работ, связанных с вопросами экономики, экологии, социальных проблем. База данных является полнотекстовой, сопровождается поисковыми словарями, широким набором сервисных средств для работы с данными. Разработана методика статистической обработки данных для анализа сходства текстов при принятии решений. НАЗНАЧЕНИЕ И ОБЩАЯ ХАРАКТЕРИСТИКА База данных “Устойчивое развитие городов” подготовлена к конференции 1999 г. "Устойчивое Развитие Городов"(Мэрия Москвы) и предназначена для специалистов, связанных с вопросами экономики, экологии и социальных проблем города. Она содержит монографии, учебники, статьи, доклады по городскому хозяйству, планированию, финансово-бюджетным отношениям, региональному развитию, научному и информационному обеспечению управления городом. Рекомендуется применение накопленной информации при принятии управленческих решений, подготовке или корректировке нормативных актов, для учебных и справочных целей. База данных может быть пополнена и скорректирована в процессе работы самим пользователем, что в дальнейшем облегчит поиск и работу с конкретным документом. На основе Интегрированной Библиотечно-информационной Системы ИРБИС в базе данных реализованы:
Полнотекстовая база данных включает в себя:
Исходным материалом для построения полнотекстовой базы данных служит накопленная текстовая информация, сохраняемая в виде файлов, которая может включать в себя документы различного рода, начиная с коротких резюме до электронных изданий книг, журналов и т.д. Полнотекстовая база данных представляет собой библиографическую БД с отсылками на полнотекстовые файлы. Под поисковым образом понимается перечисление слов из словаря предметной области (предметной подобласти) с указанием числа употреблений каждого слова в этом тексте. Предметная область “Устойчивое развитие городов” оказалось слишком широкой, поэтому было решено составить словари по каждой из рубрик БД. Рубрикатор приведен в Приложении 1. Однако поскольку по ряду рубрик число эталонных файлов и их объем оказались не достаточно большими (не репрезентативными), то было решено ограничиться составлением (на первом этапе) словарей восьми предметных областей. (См. таб.1). Тексты для рубрик:
остались без словарей, но все малочисленные тексты из этих рубрик распределены по другим. Словарь каждой предметной области создан на основе эталонных файлов, составляющих ядро базы данных. Таблица 1
В число эталонных файлов и первой версии базы данных вошли:
В целом данная разработка может рассматриваться как автоматизированная технология отбора текстового материала по запросу, контекст которого определяется пользователем — это может быть библиографический поиск, поиск по образцу, поиск по ключевым словам и т. д. Результатом служит сортированный список документов и граф, определяющий связи между ними. В настоящее время в базе содержится около 600 документов, составляющих более 6 000 страниц или 300 печатных листов. Для окончательной версии уже подготовлены более 4 000 страниц, и этот список является открытым. В подготовке документов для ввода в базу большое участие принимали студенты Международного Университета Тадорашко К.П. и Юсипов Н.А. Фактически, составителям базы данных пришлось столкнуться с проблемой отсутствия метабазы по теме “Устойчивое развитие городов”. Конкретно задача создания метабазы состоит в выявлении всех мест хранения информации по указанной теме, информационных потоков, сайтов в сети Internet, всего пула экспертов, российских и международных организаций, прошедших и планируемых конференций, семинаров, симпозиумов, образовательных учреждений и т.д. В данном случае при отсутствии метабазы отбор документов для данной базы пришлось провести опираясь на коллективное мнение членов Научного совета программы “Устойчивое развитие городов” с учетом согласия авторов или главных редакторов изданий разрешить размещение их материалов в ядре базы. Разработка математического
обеспечения Общие положения Тема исследования фактически ориентирована на попытку автоматизировать процесс кластеризации текстов. Отнесение к одному и тому же кластеру производится на основе близости текстов (документов) в пространстве специального списка слов. Этот список слов назовем словарем предметной области — DOD и обозначим L(Dom). В список слов предметной области включаем только те слова из базы текстов предметной области, для которых относительная частота в текстах предметной области статистически значимо превышают относительную частоту этих слов в общеупотребительной лексике. Задачи подобного типа возникают при анализе различных работ:
В каждой из ситуаций они решаются в различных режимах. Программа должна помочь эксперту в работе по классификации текста на принадлежность его предметной области. Далее рассмотрение ведется в контексте частотных списков слов общеупотребительной лексики — L(Com) или предметной области — L(Dom). Для каждого из них выделим высокочастотную, среднечастотную и низкочастотную части. Слова из высокочастотной части списка слов предметной области в большинстве своем лежат в среднечастотной части списка слов общеупотребительной лексики. В этом случае относительная частота F(T(r), W(j)) в тексте T(r) каждого слова W(j) из низкочастотной части как L(Com), так и — L(Dom) много выше, чем относительная частота этого слова в частотных списках общеупотребительной и предметной лексики. i(Com) — ранг слова в конкретном списке слов общеупотребительной лексики, i(Dom) — ранг слова в конкретном списке слов лексики предметной области, i(Gen) — абстрактный номер слова в алфавитном списке слов языка, как генеральной совокупности. Тогда условие i(Com) >> i(Dom) означает, что слово чуждо для предметной области; i(Com) << i(Dom) — слово является типичным для предметной области. Алгоритм формирования словаря предметной области 1.Для каждого из эталонных текстов составляется частотный список слов со следующими ограничениями: 1.1.Все слова нормализованы таким образом, что при подсчете статистики не имеют значения падежное окончание, признак рода и числа, для глаголов — признак времени, рода и числа; числа учитываются только в буквенном написании; одно и двухбуквенные слова учитываются только до момента составления частотного списка всей базы (и определения ранга — порядкового номера слова в списке), а затем удаляются. 1.2.Для каждого слова складываются абсолютные частоты его употребления в различных текстах, подсчитывается относительная частота слова во всех текстах и коэффициент Джини — характеристика, которая является некоторым аналогом стандартного отклонения частоты слова по всем текстам (методика расчета коэффициента Джини дается ниже) — далее производится упорядочивание слов в частотном списке. Методика составления частотных списков по каждой из предметных подобластей остается той же, что и для общего частотного списка. 1.3.Для каждого слова в частотном списке базы данных предметной области (подобласти) ищется относительная частота употребления данного слова в словаре общеупотребительной лексики — F(L(D(s)),W(j)). 1.4.Все слова частотного списка базы данных проверяются на возможность включения в словарь предметной области. Для этого отбираются слова, удовлетворяющие критериям (применяемым в порядке перечисления) :
Из отобранных слов остаются те, для которых коэффициент Джини меньше заданного критического значения. Начальное критическое значение для коэффициента Джини К определяется равным 0.8, т.е.: F(L(D(s)),W(j)) > K* F(L(Com),W(j)) 2.Редуцированный список слов из частотного словаря базы требует дальнейшей обработки для исключения случайно попавших слов, связанных с возможной репрезентативностью выбранных эталонных текстов. 3.Для составления поискового образа каждого файла (текста) базы данных в программном продукте предусмотрено обнаружение в тексте всех слов из словаря предметной области с учетом приведения их к нормализованному виду и с указанием на число употреблений каждого слова. Степень близости определяется по формуле расстояния между поисковыми образами в пространстве слов предметной области (либо с учетом словоупотреблений для каждого слова , либо без него). Вычисление степени близости текстов
реализовано в манхэттенской метрике, в
евклидовой метрике и с помощью неметрического
критерия Методика расчета коэффициента Джини Для каждого слова составляется вектор, размерность которого равна числу текстов. Компоненты вектора — это число употреблений данного слова в каждом из текстов базы или подбазы. Компоненты вектора упорядочиваются по возрастанию. Затем строится кривая накопленных частот и все ее значения нормируются суммарным числом употребления слова в базе данных. Полученная кривая также может быть представлена вектором той же размерности, что и исходный. Затем строится второй вектор той же размерности. Первая компонента вектора равна среднему значению числа употреблений заданного слова во всех текстах базы. Вторая компонента равна удвоенному среднему, третья — утроенному и т.д. Затем вычисляется сумма разностей каждой из компонент второго и первого векторов и делится на сумму всех компонентов второго вектора. Эта величина называется коэффициентом Джини. В случае, если все употребления данного слова находятся в одном тексте, а остальные тексты базы его не содержат, то коэффициент Джини достигает максимального значения, близкого к единице. Если слово употребляется с одинаковой частотой во всех текстах базы, то коэффициент Джини равен нулю. Если коэффициент Джини меньше критического значения, то употребление слова будет считаться достаточно равномерно распределенным по базе. |
|||||||||||||||||||||||||||
Copyright © 1995-1999 ГПНТБ России |