Залужская М.В. Интернет в библиотеке, 2003 год
Содержание:

Бредихин О.Д.
Реализация доступа к полнотекстовым базам данных на примере фонда авторефератов диссертация ГПНТБ России

Волкова К.Ю.
Проблема измерения качества в библиотеках: применение к оценке Web-сайтов

Евстигнеева Г.А.
Зарубежный опыт развития альтернативных структур создания и распространения электронных научных публикаций

Елфимова Г.С.
Рекомендации по созданию информационных ресурсов Интернет, доступных для незрячих пользователей

Залужская М.В.
Анализ обслуживания пользователей ГПНТБ России электронными ресурсами в Интернет-среде (на примере Научной Электронной Библиотеке)

Линдеман Е.В.
Особенности организации и технологии корпоративных работ по созданию информационных ресурсов в развивающемся Московском библиотечном консорциуме на современном этапе

Лобанова Э.Ш.
Еще раз о международных машиночитаемых форматах

Маршак М.Б.
Возможности использования базовых принципов работы поискового апарата систем автоматизации библиотек в информационно-поисковых системах Интернета

Рагимова М.А.
Все, что вы можете узнать о Сводном каталоге в Интернет

Сбойчаков К.О.
Автоматизированная система смысловой обработки текстов в Интернет

Скородумов В.А., Соколовский В.В.
Обзор задач и методов смысловой обработки электронных данных

Юдин В.В., Соколова Ю.В.
Обучение с использованием дистанционных технологий: перспективы и реалии


УДК 025.4.036

В.А. Скородумов
канд. пед. наук, зав. сектором НТО-32 ГПНТБ России

В.В. Соколовский
аспирант МГУКИ

Обзор  задач  и  методов  смысловой обработки  электронных  данных

Приведен обзор задач и методов смысловой обработки электронных данных применительно к системе библиотечно-информационного обслуживания. Рассмотрены практические приложения задачи формализации структуры знаний, содержащихся в тексте.

Проблемы успешного использования и поддержки большого массива данных, накопленных в электронном виде, становятся актуальными во всех сферах деятельности современного человеческого общества. Эти сферы – экономика и бизнес, наука, промышленность, сфера обслуживания, правоохранительная деятельность и государственная безопасность. В той или иной из перечисленных сфер деятельности потребность в смысловой обработке электронных данных определяется более или менее узким кругом задач смысловой обработки. Особо следует упомянуть систему библиотечно-информационного обслуживания, основным объектом которой является информация. Как следствие этого (а также, учитывая, что самым распространенным способом хранения информации становится хранение информации в электронном виде), круг задач смысловой обработки электронных данных для этой сферы деятельности наиболее широк. Для больших массивов данных особенно важными становятся компьютерные методы смысловой обработки электронных документов.

Рассмотрим наиболее актуальные задачи, решаемые с помощью методов семантического анализа. Обычно, методы смысловой обработки рассматривают применительно к текстовым документам. Семантический анализ текста, согласно работе [1], включает в себя ряд практически важных задач (рис. 1). Одной из таких задач является контекстно-свободный поиск информации [2], ее смысл заключается в нахождении всех текстов из некоего массива, написанных на естественном языке и «похожих» на заданный текст-образец. Наиболее важной задачей является извлечение информации из текстов и представление ее в виде формальной системы знаний. Наряду с извлечением информации существует и обратная задача генерации правильно построенных текстов. Еще две известные задачи обработки текстовой информации – автоматическое реферирование и автоматизированный машинный перевод.

Рис. 1. Задачи семантического анализа текстов

Помимо задач, специфичных для текстовой информации, существует ряд задач, касающихся автоматического извлечения из «сырых данных» любого типа (как правило, из реляционных баз данных) потенциально полезных закономерностей. Эти задачи объединены общим названием «добыча знаний» (data mining [3], рис. 2). Наиболее часто встречается задача классификации – отнесение объектов базы данных к заранее определенным категориям. Вторая задача – прогнозирование, заключается в том, чтобы предсказать по значениям одних полей объекта значения остальных. Третья задача – кластеризация, то есть выделение подгрупп объектов с близкими свойствами. Четвертая задача – нахождение исключений, то есть, поиск объектов, которые своими характеристиками выделяются из общей массы. Пятая задача – поиск связанных свойств объекта. От задачи предсказания значения поля поиск связанных свойств отличается тем, что заранее неизвестно, какие именно поля взаимосвязаны. Похоже это и на задачу кластеризации, но не по множеству объектов, а по множеству признаков. Соответствующие задачи «добычи знаний», относящиеся к обработке текстовой информации, объединены общим англоязычным термином text mining.

Рис. 2. Задачи «добычи знаний» (data mining)

К методам смысловой обработки данных относятся также экспертные системы [4]. Можно выделить следующие основные классы задач, решаемых с помощью экспертных систем: диагностика, прогнозирование, идентификация, управление, проектирование, мониторинг. Экспертные системы - это прикладные системы искуственного интеллекта, в которых база знаний представляет собой формализованные эмпирические знания высококвалифицированных специалистов (экспертов) в какой либо узкой предметной области. Экспертные системы предназначены для замены экспертов (при решении задач) в силу их недостаточного количества, недостаточной оперативности в решении задачи или в опасных (вредных) для них условиях. Наиболее широко встречающиеся области деятельности, где используются экспертные системы: медицина, вычислительная техника, военное дело, микроэлектроника, радиоэлектроника, юриспруденция, экономика, экология, геология (поиск полезных ископаемых), математика.

Рис. 3. Задачи, решаемые с помощью экспертных систем

 

Рассмотрим подробнее, какие из перечисленных классов задач характерны для системы библиотечно-информационного обслуживания, и существующие методы их решения. Задача контекстно-свободного поиска информации является одной из основных. Самым простым методом является поиск по формальному признаку – сходство словарного состава запроса и отбираемых документов. Наиболее качественные системы предусматривают расширение запроса морфологическими словоформами, а также синонимами из предоставленного разработчиками словаря. Основа такого подхода – следующее суждение: если документы похожи по словарному составу, то с большой долей вероятности, они похожи и по смысловому содержанию. Сейчас качественное развитие методов поиска может заключаться в смене критерия сходства от «сходства по словарному составу» к сходству по другим признакам, которые могли бы точнее отразить сходство смыслового содержания. Таким критерием может быть сходство семантической структуры текстов и запроса. Таким образом, задача поиска оказывается связанной с задачей извлечения информации из текста и представления ее в виде формальной системы знаний. Традиционными являются методы представления семантической структуры текста в виде семантической сети или фреймов.

Автоматическое реферирование также является одной из задач, необходимой для системы библиотечно-информационного обслуживания. Главное различие между различными системами реферирования состоит в том, что они, по существу, формируют – краткое изложение, либо набор выдержек [5]. Метод составления выдержек, предполагает акцент на выделение характерных фрагментов. В большинстве методов применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, и другими. Главное преимущество линейной модели заключается в простоте ее реализации. Основным недостатком является то, что выделение предложений, не учитывающее взаимоотношений между ними, приводит к формированию бессвязных рефератов. Такой текст трудно читать. В отличие от линейной модели в методах подбора выдержек, для подготовки краткого изложения информации требуются мощные вычислительные ресурсы для систем обработки естественных языков. Метод формирования краткого изложения предполагает два основных подхода. Первый опирается на традиционный лингвистический метод синтаксического разбора предложений. Строится дерево разбора, после чего сокращаются его ветви на основании некоторых структурных критериев, таких как скобки или встроенные условные или подчиненные предложения. Второй подход к составлению краткого изложения уходит корнями в системы искусственного интеллекта и опирается на понимание естественного языка. Синтаксический разбор также входит составной частью в такой метод анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные репрезентативные структуры всей исходной информации, которые аккумулируются в текстовой базе знаний. В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов. Таким образом, для обоих типов подходов метода формирования краткого изложения задача автоматического реферирования оказывается разбитой на две: представление текста в виде его формального описания (после чего происходит выбор ключевого, главного в тексте) и обратная задача – генерация правильно построенного текста на естественном языке.

Автоматизированный машинный перевод не является традиционной услугой системы библиотечно-информационного обслуживания в силу чрезвычайной сложности задачи получения качественного перевода. Однако, по своей сути, эта задача относится к библиотечной сфере – предоставить пользователю подходящую информацию в подходящем виде. Наиболее перспективным на данный момент является метод решения этой задачи аналогично методу автоматического реферирования. Сначала, для текста, который необходимо перевести, происходит синтаксический разбор, затем текст представляется в виде его формального описания. После чего, на основании формального описания генерируется текст на нужном языке.

Методы решения задач, относящихся к «добыче знаний», с давних пор используются в системе библиотечно-информационного обслуживания [6]. Разбиение массива электронных документов на кластеры – известный метод, для сужения области поиска документов по запросу. Классификация – позволяет относить вновь поступающие в базу документы к тому или иному из существующих кластеров с тем, чтобы не запускать слишком часто процесс кластеризации всех документов, требующий больших временных затрат. Существует множество методов кластеризации, например процесс нахождения клик, метод одной связи, кластеризация вокруг выборочных документов, однократная кластеризация и другие. Разные методы обладают сильно различающимися сложностью, требованиями к вычислительным мощностям, и, соответственно, позволяют добиться разных результатов. Однако все они сводятся к классификации объектов (например, электронных документов) на группы (кластерам) по сходству между ними. Свойствами, по которым можно определить сходство или несходство между электронными документами являются слова, входящие в документ. Сходство вычисляется как расстояние в пространстве свойств. Есть разные подходы для вычисления расстояния в пространстве свойств. Наиболее распространенными из них являются евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, степенное расстояние и другие. Поскольку, как уже упоминалось, свойствами электронных документов являются слова, входящие в документ, полезной для системы библиотечно-информационного обслуживания является также и такая задача «добычи данных» как поиск связанных свойств. Решение этой задачи позволяет выявить термины, связанные с той или иной тематикой научных текстов. Все три упомянутые задачи – кластеризация, классификация (в узком смысле слова) и поиск связанных свойств являются различными сторонами более общей задачи – классификации в широком смысле слова.

Последним из перечисленных выше методов смысловой обработки являются экспертные системы. Экспертные системы позволяют на основе базы знаний автоматизировано (без участия человека) принять решение. Такие задачи системе библиотечно-информационного обслуживания тоже есть. Например, в рассмотренной выше задаче автоматического реферирования для метода краткого изложения текста требуется принятие решения о том, какие из знаний, изложенных в тексте, являются важными, а какие можно опустить.

Таким образом, приходим к выводу, что круг задач и методов смысловой обработки электронных данных для сферы библиотечно-информационного обслуживания является достаточно широким. В него входят почти все известные задачи смысловой обработки. Некоторые из задач, например формализация структуры знаний, содержащихся в тексте, являются базовыми для решения многих других задач смысловой обработки. Что делает их решение особо приоритетным.


Литература

  1. Селезнев К. Обработка текстов на естественном языке. // Открытые системы, № 12, 2003.

  2. Игумнов Е. Основные концепции и подходы при создании контекстно-поисковых систем на основе реляционных баз данных.
    http://www.citforum.ru/database/articles/search_sys.shtml.

  3. Коржов В. Data mining по-русски. // Computerworld, № 34, 2000.

  4. Халанова М., Потоцкая Т. и др. Информационные технологии в управлении
    http://econom.nsu.ru/manag1/kms/index.html.

  5. Удо Хан, Индерджиет Мани Системы автоматического реферирования// Открытые системы, № 12, 2000.

  6. Сбойчаков К.О. Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки, автореферат диссертации на соискание ученой степени к.т.н., Москва, 2003.

  
На главную