Home page | Каталоги и базы данных

Сборник научных трудов


 

УДК 025.4.036

К.О. Сбойчаков

Описание автоматизированной системы
классификации текстов

Краткое описание системы автоматического структурирования потока текстовой информации на основе визуального эвристического анализа выделения естественных тематических групп.

Для организации эффективного смыслового поиска целесообразно предварительное структурирование потоков информации. Создание полнотекстовых БД с поиском по ключевым словам позволяет частично решить эту проблему. Однако при увеличении размеров такой БД эффективность поиска, очевидно, падает. Ручная классификация требует больших материальных затрат, и скорость ее существенно меньше, чем скорость поступления новой информации. Поэтому актуальным является автоматизация (до какого-то предела) процесса классификации и структуризации информации. Такой классификацией будет естественная тематическая классификация информации.

Идея естественной тематической классификации основана на тенденции любой информации объединятся в группы по интересам. Это явление просто отражает тот факт что различные отрасли знаний, количество которых увеличивается (структуризация отраслей, междисциплинарные течения которые не объединяют разные направления а организуют новые и т.) имеют свой слэнг или, говоря на языке лингвиста, свой подъязык. В данной статье доказывается возможность использовать математический аппарат визуального эвристического анализа для автоматического выделения естественных тематических групп из случайной однородной массы текстового материала (например набора статей из различных журналов).

Для достижения поставленной цели необходимо было решить ряд взаимосвязанных задач:

  1. Формализация представления данных до вида, пригодного для численных и графических методов анализа.

  2. Формирование алгоритмов визуального кластерного анализа данных, представленных в виде 2мерных таблиц.

  3. Создание автоматизированной системы классификации документов в полнотекстовой БД организация входного потока документов на стадии эксплуатации созданной БД (поиск по образцу)

Будем называть подъязыком множество специальных терминов и слов окружения для этих терминов которые употребляются в некой сравнительно узкой, монотематической области знаний

Проблемно ориентированным словарем будем называть выборку из совокупности слов данного подъязыка сделанную на базе исходного материаламассива текстов) - ПОС.

Поисковым образом документа будем называть список слов из проблемно ориентированного словаря которые содержатся в данном тексте ПОД.

Автоматизированная система классификации текстов ("Эвристический кластерный анализ текстов Visual HCA for texts") состоит из трех программ:

  1. Программы "Администратор" для создания, технического обслуживания полнотекстовых БД и подготовки численных 2-мерных таблиц для графических методов анализа с целью классификации документов БД.

  2. Программы "Эвристика" для визуального эвристического анализа 2-мерных числовых таблиц.

  3. Программы "Информационная система" для ведения вторичных описаний и поиска в полнотекстовой БД. Эта программа представляет из себя существенно упрощенный вариант каталогизатора "ИРБИС", дополненный функцией поиска документов, схожих заданному, в заранее определенном контексте.

Полнотекстовая БД создается в программе "Администратор" на основе массива текстов в WIN кодировке в стандарте СУБД ISIS. На первом этапе документы БД содержат только имя текстового файла и количество слов в тексте. Словарь БД составляют слова извлеченные из текстов и усеченые до формы корень+суффикс. Таким образом, слова из текстов непосредственно не попадают в массив БД, а сохраняются в отдельном сортированном списке. Это связано с ограничением ISIS на размер записи (32 Kb). Далее в программе "Администратор" создается базовый словарь (БС) из слов, частота встречаемости которых во всех текстах БД, превышает общеупотребительную частоту. Общеупотребительная частота извлекается из заранее созданного частотного списка слов на базе большого массива газетной лексики (2 млн. слов). Слова, не найденные в словаре общеупотребительной лексики заносятся в отдельный списокдля последующей корректуры Их частота приравнивается к числу словоупотреблений, деленному на объем выборки словаря общеупотребительной лексики. Это могут быть обрывки слов (переносы) или слова просто не вошедшие в словарь общеупотребительной лексики ввиду их узко-прикладного значения (аббревиатуры,термины и т.).

На основе базового словаря строится предметно ориентированный словарь БД, который в программе "Администратор" называется словарь нулевой рубрики. При этом в каждую запись БД записывается код нулевой рубрики (0). Понятие предметно ориентированный словарь (ПОС) описывается выше. Здесь довольно будет сказать что фактически - это список слов из базового словаря, отобранных программой "Администратор" на основе заданных пользователем (экспертом-аналитиком) критериев отбора. По порядку применения критерии отбора располагаются в следующей последовательности:

  • максимальное число значимых текстов - максимально допустимое число текстов, в которых втретилось слово. Этот критерий позволяет выделить слова, специфичные только для части текстов;

  • минимальное число значимых текстов - минимальное число значимых текстов Этот критерий фактически совпадает с нижней статистической границей встречаемости слова, отбрасывая, кроме того, слова, специфичные для малого (по сравнению с исходным) количества текстов.

  • превышение заданной относительной частоты. Относительная частота, это частота встречаемости слова, деленная на общеупотребительную частоту слова.

Предметно ориентированный словарь (ПОС) служит основным инструментом классификации текстов. Изменяя параметры отбора слов в ПОС, эксперт имеет возможность следить за устойчивостью выбранной модели классификации. Одновременно с созданием ПОС программа "Администратор" рассчитывает 2-мерные числовые таблицы для визуального эвристического анализа в программе "Эвристика".

  • Матрица текст\слово элементы которой это число словоупотреблений для слов из ПОС в каждом тексте БД.

  • Матрица текст\текст элементы которой это число слов из ПОС встречающихся в данной паре текстов, нормированное на 1 (по диагонали 1).

  • Матрица слов\слово, элементы которой это число текстов, содержащих данную пару слов, нормированное на 1 (по диагонали 1).

Далее эти матрицы анализируются в программе "Эвристика" с целью разбиения документов БД на естественно тематические рубрики.

В зависимости от размеров БД стратегия классификации может быть разной. Если количество текстов сравнительно невелико (меньше, чем количество слов в ПОС) следует анализировать матрицу текст\текст.

Устойчивые группы найденные в результате работы программы "Эвристика" и будут естественно тематическими рубриками, к разбиению на которые тяготеет данная БД. Если число текстов существенно превышает число слов ПОС (объем ПОС 100-200 слов), то следует анализировать матрицу слово\слово с тем чтобы организовать подсловари рубрик (физически это списки слов из ПОС) и использовать эти подсловари для разбиения текстов на рубрики в программе "Администратор" (в режиме "Распределение текстов по рубрикам"). В данном режиме программа "Администратор" создает матрицу текст\рубрика, используя либо рубрики БД (коды рубрик из документов БД), либо набор подсловарей рубрик, созданных программой "Эвристика" или заданных экспертом по своему выбору.

После разбиения текстов БД на группы в программе "Администратор" необходимо назначить каждой группе текстов поименованную рубрику, код которой записывается в БД После этого для каждой рубрики определяется свой ПОС по описанной выше методике. Процедура разбиения на подрубрики может продолжаться, таким образом, далее. В результате тексты разбиваются по естественно тематической иерархии рубрик.

Конечно исходная выборка для создания многотематического рубрикатора, должна быть достаточно велика чтобы быть статистически значимой. Для исследования же структуры монотематического плана (например, описание характера недавно возникшей отрасли знаний, определения групп докладов конференций) достаточно иметь несколько сотен текстов среднего размера (~10Kb).

После создания естественно тематических групп и ПОС для каждой группы в программе "Информационная система" можно искать в БД документы, сходные данному, таким образом, сразу определяя, к какой рубрике следует причислить текст из потока новых поступлений.

Величина сходства (релевантность) одного текста другому рассчитывается в контексте выбранного ПОС(или нескольких ПОС). Слова из данного ПОС ищутся в тексте-образце Найденные слова образуют пространство, в котором тексты из БД могут сравниваться с заданным. Релевантность одного текста другому таким образом, есть коррелляция строк в матрице текст\слово. Доля слов в предметной области запроса - это процент слов из выбранного ПОС найденных в тексте-образце. Если эта величина мала (<10%) можно считать что текст принадлежит другой тематической группе. Определить, к какой тематической группе принадлежит текст-образец, можно по списку релевантных ему документов для ПОС нулевой рубрики. Распределение документов БД по рубрикам (ПОС) можно получить по списку релевантных документов, не задавая текст-образец.


Copyright © 1995-2001 ГПНТБ России