Залужская М.В. Интернет в библиотеке, 2003 год
Содержание:

Бредихин О.Д.
Реализация доступа к полнотекстовым базам данных на примере фонда авторефератов диссертация ГПНТБ России

Волкова К.Ю.
Проблема измерения качества в библиотеках: применение к оценке Web-сайтов

Евстигнеева Г.А.
Зарубежный опыт развития альтернативных структур создания и распространения электронных научных публикаций

Елфимова Г.С.
Рекомендации по созданию информационных ресурсов Интернет, доступных для незрячих пользователей

Залужская М.В.
Анализ обслуживания пользователей ГПНТБ России электронными ресурсами в Интернет-среде (на примере Научной Электронной Библиотеке)

Линдеман Е.В.
Особенности организации и технологии корпоративных работ по созданию информационных ресурсов в развивающемся Московском библиотечном консорциуме на современном этапе

Лобанова Э.Ш.
Еще раз о международных машиночитаемых форматах

Маршак М.Б.
Возможности использования базовых принципов работы поискового апарата систем автоматизации библиотек в информационно-поисковых системах Интернета

Рагимова М.А.
Все, что вы можете узнать о Сводном каталоге в Интернет

Сбойчаков К.О.
Автоматизированная система смысловой обработки текстов в Интернет

Скородумов В.А., Соколовский В.В.
Обзор задач и методов смысловой обработки электронных данных

Юдин В.В., Соколова Ю.В.
Обучение с использованием дистанционных технологий: перспективы и реалии


 

УДК 025.4.036:004.738.5

К.О. Сбойчаков
старший научный сотрудник НИО ГПНТБ России

Автоматизированная  система 
смысловой обработки  текстов  в  Интернет

Статья продолжает описание алгоритмов работы автоматизированной системы смысловой обработки текстов [1,2,3,4] (далее Visual HCA for texts). Представлены алгоритмы определения тематического контекста и расчета релевантности найденных текстов запросу пользователя Интернет к полнотекстовой базе данных, созданной в системе. Иллюстрацией работы алгоритмов служат полнотекстовые базы данных статей конференции «Крым» и статей сборника «Научные и технические библиотеки» ГПНТБ России.

Электронные фонды современной библиотеки с нарастающими темпами накапливают неструктурированные текстовые ресурсы. Причем объем накопленной текстовой информации может быть таким значительным, что задача подготовки их полного библиографического описания становится крайне затруднительной. Очевидна необходимость применения специальных технических решений для предоставления пользователям библиотеки доступа к многообразию электронных текстовых массивов.

Система Visual HCA for texts предлагает методику создания полно-текстовых баз данных на основе текстовой информации, накопленной в электронном виде. В статье [2] показано, что задача смыслового анализа текстов включает следующие основные этапы:

  1. создание полнотекстовой базы данных;

  2. классификация текстов по тематической принадлежности;

  3. числовая оценка меры сходства текстов.

Для реализации первого этапа – создание полнотекстовой базы данных – была использована система автоматизации библиотек ИРБИС. С целью включения в систему ИРБИС алгоритмов смысловой обработки текстов была разработана новая структура хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64 [6].

В рамках реализации второго этапа – классификация текстов – были проведены теоретические исследования и сделаны выводы о возможности применения методов математической статистики для решения этой задачи [2]. В статье [5] показано, что задача классификации текстов относится к слабоформализованным и должна решаться с помощью эвристических (предусматривающих участие эксперта) алгоритмов. Специально для решения таких задач была разработана и реализована система визуального эвристического анализа числовых данных, которая доказала свою эффективность при решении практических вопросов в различных научных областях.

Важным аспектом системы автоматизированного анализа текстов является тот факт, что все специальные подробности применения математической статистики скрыты от пользователя и для работы с системой требуется только знание предметной области полнотекстовой базы данных. Достоверность работы автоматизированной системы смыслового анализа текстов обеспечивается алгоритмами числовой оценки меры близости текстов, составляющими последний, третий этап решения общей задачи. В статье [3] показано, что основным инструментом смыслового сравнения текстов являются предметно-ориентированные словари, содержащие слова с повышенной частотой встречаемости. Набор таких словарей составляет естественно-тематический классификатор полнотекстовой базы данных.

Алгоритм сравнения текстов и числовой оценки их близости, заключается в подборе такой тематической группы в классификаторе базы данных, предметно-ориентированный словарь которой наиболее широко представлен в данном тексте. Среднее значение числа слов из предметно-ориентированного словаря, присутствующих в текстах из данной тематической группы, колеблется в широких пределах. Набор таких слов данного текста с номером i из предметно-ориентированного словаря с номером j как ПОСij. Конкретное значение ПОСij сильно зависит от объема предметно-ориентированного словаря. Фактически ПОСij – это словарь, описывающий данный текст i в контексте тематической группы с индексом j. Такие словари принято называть поисковым образом текста.

Рис. 1. Интернет доступ к полнотекстовой базе данных

 

В результате использования предлагаемой системы полнотекстовые электронные ресурсы библиотеки становятся частью поискового пространства, доступного читателю библиотеки. Кроме поиска по словам из текстов, читатель получает дополнительную возможность находить тексты, близкие к заданному образцу. В качестве текста образца может выступать поисковый запрос читателя на естественном языке, произвольный полный текст (внешний по отношению к базе данных) или текст из базы данных. На рис. 1 демонстрируется поиск текстов в полнотекстовой базе данных статей международной конференции «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества» («Крым 2002–2003»). В качестве текста-образца выступает статья Я.Л. Шрайберга и М.В. Гончарова «Состояние и перспективы развития сетевых информационных технологий и средств теледоступа в библиотеках России» из сборника НТБ ГПНТБ России за 1998 г. Для определения наиболее близкого тематического контекста для текста-образца для каждого тематического индекса j рассчитываются значения: Rj, которое будем называть релевантностью текста-образца тематической группе с индексом j.

Rj = ПОСj / NNj

где:

ПОСj – число слов из предметно-ориентированного словаря с индексом j, присутствующих в тексте-образце;

NNj – общее число слов в предметно-ориентированном словаре с номером j.

При поиске близких текстов пользователь системы (читатель) получает наиболее близкий тематический контекст для текста-образца и отсортированный по значению релевантности список найденных текстов (нумерованный список).

Рис. 2. Результаты поиска согласно релевантности запросу

 

Применение смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке рассматривается разработчиками ИРБИС в качестве одного из основных положений концепции развития системы.


Литература

  1. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний современной библиотеке// Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр. конф.– М., 2003. – T. 1. – C. 122–125.

  2. Описание автоматизированной системы классификации текстов// Информационные технологии в библиотеках и информационное сообщество. – М.: ГПНТБ России, 2001. – С. 47–51.

  3. Программное обеспечение для создания предметно-ориентированных словарей и кластеризации документов в полнотекстовых базах данных // Компьютерная лингвистика и интеллектуальная обработка текстов.– Б.г.: Шпрингер, 2001.– C. 454–456. – Aнгл. яз. – В соавт. с П.П. Макагоновым, М.А. Александровым.

  4. Поиск схожих текстов в полнотекстовых базах данных по заданному образцу // Материалы симпозиума по компьютерным приложениям CIC’98. – Мехико, 1999. – C. 17–29. – Aнгл. яз. – В соавт. с П.П. Макагоновым, М.А. Александровым.

  5. Интерактивные методы решения слабо-формализованных задач в гуманитарных и естественно научных приложениях: (Визуальный эвристический кластерный анализ) // Материалы симпозиума по компьютерным приложениям CIC’98, Мексиканский Национальный Политехнический институт. – Мехико, 1998. – C. 346–358. – Aнгл. яз. – В соавт. с П.П. Макагоновым.

  6. О новoй файловой структуре CDS/ISIS // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр. конф.– М., 2001.–T. 1.–C. 92–97. – В соавт. с А.И. Бродовским, Н.Α. Мазовым, О.Л. Жижимовым.

  
На главную