Научные и технические библиотеки №3 2008 год
Содержание:

Секция «Информационно-лингвистическое обеспечение библиотечно-информационных систем»

Гендина Н. И. Лингвистические средства проектирования контента веб-сайтов

Секция «Информационное и инновационное обеспечение процессов образования, научных исследований и управления»

Аноприенко А. Я., Петрова А. А. Библиотека и университет: тысячелетнее развитие и вызовы XXI века

Зверевич В. В. Приключения британского дизайна в России. Организация информационного обеспечения учебного процесса в Британской высшей Школе дизайна

Секция «Использование Интернета и Интернет-технологий в библиотечно-информационной практике»

Гендина Н. И., Колкова Н. И., Алдохина О. И. Использование формализованных методов при подготовке текста для веб-сайтов учреждений культуры

Торлин И. Г. Ресурсы веб-сайтов публичных библиотек Украины: компромисс предлагаемого и ожидаемого

Панкова Е. В., Косинова С. А. Интернет-сайт среднего профессионального учебного заведения: эффективность поиска в Интернете

ПРОБЛЕМЫ ИНФОРМАЦИОННОГО ОБЩЕСТВА

Земсков А. И. Некоторые особенности работы с электронными документами. (Окончание)

ОПЫТ РАБОТЫ

Баженова И. Д., Сороколетова Н. В. Проблемы формирования сводной электронной базы данных статей в корпоративной среде

ЮБИЛЕИ

Столяров Ю. Н. Н. С. Карташов – специалист, учёный, педагог. (К 80-летию со дня рождения)

ИНФОРМАЦИОННЫЕ СООБЩЕНИЯ

Маршак И. Б. Одиннадцатая Международная конференция и выставка «LIBCOM»

Шапошников К. А. Международный обучающий семинар «Вторая школа сканирования»

Памяти Моргенштерна

Соколов А.В. Исаак Григорьевич Моргенштерн – библиограф, интеллигент, гуманист


УДК 02(063)

14-я Международная конференция
«Библиотечные и информационные ресурсы
в современном мире науки, культуры, образования и бизнеса» – «Крым–2007»

(9–17 июня 2007, Автономная Республика Крым, Украина)

Н. И. Гендина

НИИ информационных технологий социальной сферы
Кемеровского государственного университета культуры и искусств

Лингвистические средства проектирования контента веб-сайтов

Рассмотрены возможности использования лингвистических средств оптимизации разработки и повышения качества контента веб-сайтов. Определены функции и области применения лингвистических средств в технологиях сайтостроения.

Постановка проблемы

В последние годы наблюдается динамичный рост Интернет-ресурсов, важнейшим видом которых являются веб-сайты. Создание веб-сайтов стало носить массовый характер и обострило проблему их качества. Однако эмпирический характер создания сайтов, отсутствие теоретического обоснования решений, принимаемых при их разработке, значительно снижают качество создаваемых электронных ресурсов.

Проведенные в НИИ информационных технологий социальной сферы Кемеровского государственного университета культуры и искусств (КемГУКИ) исследования контента сайтов образовательных учреждений (вузов культуры и искусств, федеральных образовательных сайтов), музеев, библиотек, органов исполнительной власти выявили ряд общих недостатков, значительно снижающих эффективность создаваемых Интернет-ресурсов [15]. Выявленные недостатки свидетельствуют о том, что проблема качества сайтов носит комплексный характер и включает вопросы как программно-технического, организационного, так и семантического характера.

Цель доклада – проанализировать возможности лингвистических средств для оптимизации разработки и повышения качества контента создаваемых веб-сайтов. Подчеркну новизну постановки вопроса: ни в публикациях, посвященных проектированию, разработке и созданию сайтов, ни в микропотоке документов по лингвистическому обеспечению не содержится обоснования целесообразности и определения областей применения лингвистических средств при создании сайтов.

Выявление возможностей использования лингвистических средств для оптимизации разработки и повышения качества контента создаваемых веб-сайтов требует ответа на вопросы:

  • какие положения теории лингвистического обеспечения могут найти применение при разработке контента сайтов и на каких этапах;
  • какие именно лингвистические средства и для чего целесообразно использовать при разработке веб-сайтов;
  • какие функции выполняют лингвистические средства в процессе сайтостроительства;
  • каковы преимущества их использования при разработке контента сайтов.

Предлагаемый подход

Чтобы получить целостную картину использования лингвистических средств в ходе сайтостроения, используем метод аналогий, согласно которому проектирование веб-сайта рассматривается как частный случай проектирования автоматизированной информационной системы (АИС). В соответствии с таким подходом проектированию сайта присущи все основные стадии и этапы разработки АИС, закрепленные в ГОСТ 34.601–90 «ИТ. Комплекс стандартов на АС. Автоматизированные системы. Стадии создания».

На основе анализа нормативных и учебных изданий, посвященных проектированию АИС, на кафедре технологии автоматизированной обработки информации КемГУКИ созданы обобщенная характеристика и детальный перечень стадий и этапов создания сайта, подробно описанные в [6]. Проведено исследование содержания работ на каждой из этих стадий и этапов в целях получения системного представления о месте и роли лингвистических средств при разработке и оптимизации контента сайтов.

Как показали результаты исследования, лингвистические средства могут быть использованы на всех трех стадиях проектирования сайтов – предпроектной, проектной и послепроектной. Однако их применение к этапам проектирования носит избирательный характер. Рассмотрим, какие именно лингвистические средства и с какой целью могут использоваться в ходе проектирования контента сайта.

Результаты анализа использования
лингвистических средств на предпроектной стадии

Предпроектная стадия разработки сайта включает обследование предметной области, в рамках которой создается сайт, разработку его концептуальной модели и технического задания. На данном этапе лингвистические средства могут быть использованы как инструмент формализации, позволяющий определить семантические (отраслевые, тематические, предметные, проблемные) и формальные (хронологические, территориальные, языковые, типо-видовые и др.) границы контента сайта.

Результат этого этапа – построение логико-понятийной схемы предметной области, для которой создается сайт (например «Дополнительное образование детей», «Информационно-коммуникационные технологии в образовании» и т.п.) или объекта сайтостроения (этнографический музей, вузовская библиотека, университет культуры и искусств, администрация области, района, города и др.). Решать эту задачу наиболее целесообразно с помощью различных иерархических классификационных ИПЯ: ББК, УДК, ДКД, ГРНТИ, отраслевых и проблемных классификаторов, рубрикаторов. Именно эта группа ИПЯ позволяет очертить семантические границы разрабатываемого контента сайта, определить важнейшие логические отношения типа «род–вид», «целое–часть», установить взаимосвязи и иерархические отношения в пределах создаваемого контента. Наряду с иерархическими классификационными ИПЯ на этом этапе могут найти применение дескрипторные ИПЯ тезаурусного типа, позволяющие устранить синонимию в используемом понятийно-терминологическом аппарате и определить вышестоящие и нижестоящие термины ключевых понятий, раскрывающих создаваемый контент сайтов.

Результатом использования лингвистических средств на этом этапе является разработка логико-понятийной схемы предметной области в виде иерархически упорядоченного перечня рубрик, иерархического древа (графа), таблицы и/или дескрипторные статьи ключевых понятий, отражающих контент создаваемого сайта.

Для формализации представления о составе категорий потенциальных пользователей сайта может быть использована такая группа общероссийских классификаторов, как классификаторы информации о населении и кадрах: Общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов, Общероссийский классификатор информации о населении, Общероссийский классификатор информации по социальной защите населения и др.

Один из важнейших видов работ в ходе предпроектного обследования – определение состава и анализ имеющихся сайтов в заданной предметной области. Анализ контента уже имеющихся сайтов, аналогичных типу и функциональному назначению разрабатываемого сайта, представляет чрезвычайно важную задачу, так как позволяет выявить достоинства и недостатки существующих веб-ресурсов и на этой основе разработать собственную концептуальную модель контента сайта.

Как показали проведенные нами исследования, анализ имеющихся сайтов в заданной предметной области наиболее рационально проводить, используя разработанную в теории лингвистического обеспечения технологию создания лексико-семантической основы ИПЯ. Как известно, важнейшие этапы создания любого ИПЯ – это отбор лексических единиц, нормализация лексики, систематизация лексики, оформление организационной структуры ИПЯ. Последовательное выполнение этих этапов позволяет осуществить анализ сайтов-аналогов. Методика анализа предусматривает выявление рубрик, отражающих контент обследуемых сайтов; устранение синонимии и многозначности в формулировке рубрик; ранжирование выявленных и нормализованных рубрик по частоте их встречаемости; определение «типовой модели» контента анализируемых сайтов на основе частоты встречаемости.

Важнейший этап, завершающий предпроектную стадию разработки контента сайта – создание информационного образа объекта сайтостроения. Термин информационный образ объекта сайтостроения введен нами с целью формализации разработки контента сайта и преодоления эмпирического подхода, господствующего в современной практике сайтостроения.

Информационный образ – это максимально полный, упорядоченный с использованием фасетного и/или иерархического принципов перечень характеристик (атрибутов и аспектов), которые дают целостное представление об объекте сайтостроения и позволяют моделировать контент сайта в зависимости от его общих и специфических функций. Как следует из данного определения, моделирование контента сайта опирается на такие лингвистические средства, как иерархические и/или фасетные классификации, выступающие в роли логического «каркаса», позволяющего обозначить границы контента сайта, определить его объем, содержание и структуру, установить его связи с другими понятиями. Наряду с уточнением границ контента сайта, информационный образ позволяет обеспечивать решение целого ряда других важных задач: определения состава рубрик, отражающих контент сайта; распределения рубрик по уровням вложения; установления взаимосвязей рубрик.

Проведенные исследования показали, что в основу создания информационного образа также может быть положена технология разработки лексико-семантической основы ИПЯ, которая в этом случае будет включать:

1. Выявление и отбор лексических единиц, выражающих основные характеристики объекта сайтостроения. Именно от качества выполнения этого этапа во многом зависит и качество создаваемого веб-ресурса. Основными источниками отбора лексики при этом являются: уже существующие ИПЯ, располагающие фиксированным словарем; классификационные ИПЯ (УДК, ББК, ДКД, ГРНТИ, классификаторы); дескрипторные ИПЯ (дескрипторные словари, информационно-поисковые тезаурусы); методические рекомендации открытой энциклопедии «Рубрикана», размещенной на веб-сайте «Рубикон»; массив нормативных, справочных, учебных, научных документов по темати­ке создаваемого сайта. Принципиально важно подчеркнуть, что все эти источники отбора лексики должны использоваться одновремен­но, в комплексе.

2. Нормализация выявленных лексических единиц реализуется посредством двух операций: 1) представлением лексических единиц в единообразной грамматической форме (морфологический уровень); 2) устранением синонимии и полисемии (семантический уровень).

3. Систематизация лексических единиц заключается в их группировке, упорядочении и установлении между ними смысловых связей (парадигматических отношений).

4. Интеграция лексических единиц в информационный образ объекта сайтостроения соответствует по своей сути этапу, именуемому в технологии создания лексико-семантической основы ИПЯ как организационное оформление лексики ИПЯ. Оно реализуется в графическом, знаковом воплощении информационного образа контента сайта, которое зависит от типа используемых лингвистических средств: нормализованные и систематизированные лексические едини­цы могут быть представлены в информационном образе либо как комплекс предметных рубрик или дескрипторных статей, либо как фрагмент иерархической классификации, иерархического древа, таблицы, матрицы, фасетов и т. п.

Предлагаемая технология создания информационного образа может быть использована при разработке контента конкретных сайтов, оптимизации контента ранее созданных сайтов, подготовке и переподготовке кадров информационно-библиотечного профиля.

Результаты анализа использования
лингвистических средств на проектной стадии

Наибольшее применение лингвистические средства находят на этапе логического проектирования. В данном случае используются уже не столько конкретные ИПЯ, сколько методы формализованного анализа текста, разработанные в теории индексирования как средства снижения субъективности действий индексаторов.

Как показали исследования, весьма эффективным является аспектный метод. Его целесообразно применять для разработки аспектных структур наполнения каждой рубрики, характеризующей контент сайта. Например при разработке контента сайта музея важнейшие рубрики – «Направления деятельности музея», «Фонды», «Экспозиции», «Выставки», «Ресурсы музея», «Филиалы музея», «История музея» и др. Каждая из этих рубрик должна, в свою очередь, располагать четким перечнем аспектов, раскрывающих ее содержание: «Направления деятельности музея» раскрываются через такие аспекты, как фондовая, экспозиционная, научно-просветительная, рекламно-издательская деятельность; рубрика «История музея» предполагает включение таких аспектов, как основные этапы истории, основатели музея, деятели общенационального значения, работавшие в музее и др.

Результат использования аспектного метода – разработка перечня аспектов рассмотрения материала в составе каждой рубрики и подрубрики, характеризующих контент сайта. Аспектный метод обеспечивает единообразие и сопоставимость данных, представленных на сайте.

Результаты анализа использования
лингвистических средств на послепроектной стадии

При подготовке опытного образца сайта для итоговой системной композиции рубрик используются, как правило, принципы фасетных и/или иерархических классификационных систем, позволяющие на главной странице сайта дать целостное представление о его содержании и показать состав и схему взаимосвязей рубрик сайта (уровни вложения). Подчеркну, что на практике несоблюдение принципа иерархии при выделении рубрик на главной странице сайта – весьма распространенная погрешность, существенно затрудняющая пользователям ориентацию в содержании сетевого ресурса.

Вторым важным направлением применения лингвистических средств на этой стадии является представление в рамках разработанного информационного образа исходных текстовых, графических, фото- и других материалов для сайта. Как и на проектной стадии, в данном случае актуально использование методов свертывания и трансформации исходных текстов в соответствии с требованиями сетевого электронного представления информации.

Строго говоря, в классической теории лингвистического обеспечения библиотечно-информационной технологии разработка этого направления пока отсутствует, поскольку технология подготовки «сетевых текстов» получила свое развитие весьма недавно как результат преодоления таких распространенных недостатков, как избыточность, разнородность, неструктурированность, затрудненность восприятия информации на сайте. Суть проблемы состоит в том, что имеющиеся традиционные тексты чаще всего оказываются не пригодными для размещения на сайте и требуют обязательной предварительной переработки. В результате анализа специальной литературы нами выявлены основные требования к тексту, размещенному в Интернете.

Несмотря на то, что большинство правил одинаково применимы и для печатных, и для сетевых публикаций при подготовке текстов для размещения в сети нужно учитывать и ряд специфических особенностей, обусловленных наличием такой нетривиальной единицы измерения текста, как «один экран»: краткость, информативность, простота и лаконичность предложений; структурированность и порционность текста; нелинейность. Эти требования также во многом определяются особенностью «сканирующего» характера чтения текстов, размещенных в глобальной сети, предполагающего лишь беглый просмотр заголовков, а также меньшие временные затраты, чем на чтение печатных текстов.

Для решения проблемы неоднородности представления информации об однотипных объектах, характеризующихся в рамках одного и того же сайта, рационально использовать уже рассмотренный выше аспектный метод. Например, для раскрытия содержания часто встречающейся в контенте сайтов учреждений культуры рубрики «Проекты» целесообразно использовать перечень таких аспектов, как наименование проекта, хронологический период, фамилии руководителя и участников, цель и краткое содержание проекта; полученные или ожидаемые результаты.

Использование лингвистических средств происходит и на таких этапах послепроектной стадии, как эксплуатация и модернизация сайта. Эксплуатация сайта неразрывно связана с ведением и актуализацией используемого лингвистического обеспечения сайта. Прежде всего речь идет о сохранении и поддержании в рабочем состоянии семантической модели контента сайта, целостность которой задается разработанным на предпроектной стадии информационным образом. Несогласованность, произвольность включения новых рубрик на главной странице сайта без связи их с созданным ранее информационным образом ведет к нарушению системности представления данных и затруднительности ориентации для пользователя. Модернизация сайта также предполагает разработку информационного образа, базирующегося на комплексном использовании лингвистических средств.

Выводы

1. Лингвистические средства могут быть использованы на всех стадиях и на основных этапах проектирования и создания контента сайтов как важнейшие инструменты формализации представления информации и структурирования данных с целью облегчения доступа пользователей к создаваемым веб-ресурсам.

2. Наиболее «лингвистически емким» является предпроектная стадия проектирования сайта, предполагающая создание информационного образа объекта сайтостроения. Использование комплекса лингвистических средств при разработке информационного образа позволяет обеспечить полноту отражения всех характеристик, присущих конкретному объекту сайтостроения; дает возможность корректировки (сужения либо расширения) состава используемых характеристик при описании конкретного объекта в соответствии с целями, задачами, особенностями проектируемого контента сайта, а также потребностями заказчика.

3. Основные функции лингвистических средств при разработке контента сайтов – обеспечение доступа потребителей информации к информационным веб-ресурсам и обеспечение качества создаваемого контента. Реализация этих функций может обеспечиваться за счет применения иерархических классификационных и/или фасетных ИПЯ, позволяющих четко структурировать информационный ресурс; реализации возможностей дескрипторных ИПЯ и тезаурусного способа представления данных для обеспечения нормализации и достижения однозначности используемого в рамках конкретного контента сайта понятийно-терминологического аппарата; использования технологии создания лексико-семантической основы ИПЯ как основы создания информационного образа; привлечения аспектного метода представления информации с целью достижения однородности и сопоставимости размещаемых на сайте сведений; применения методов свертывания информации, обеспечивающих достижение лаконичности, порционности, структурированности создаваемых сетевых текстов для облегчения восприятия информации.

4. Лингвистическое обеспечение сайтостроения – весьма перспективное научно-технологическое направление, требующее дальнейшего изучения и развития, поскольку позволяет обеспечить реализацию принципов технологичности, системности и целостности в условиях массового создания сайтов. Лингвистические средства, рассматриваемые как инструмент формализации моделирования контента сайта, помогают обеспечить принятие обоснованных решений при определении состава рубрик, отражающих смысловое наполнение создаваемого веб-ресурса; позволяют перейти к аргументированному принятию решений по структуре и наполнению контента конкретного сайта; открывают возможности для снижения субъективизма разработчиков сайтов, уменьшения интеллектуальных, временных и стоимостных затрат на разработку сайтов.

5. Развитие лингвистического обеспечения сайтостроения предполагает решение ряда проблем, включая необходимость создания узкоотраслевых, проблемных классификаторов и рубрикаторов, поскольку прямое использование таких иерархических классификационных систем, как ББК, УДК, ГРНТИ, ДКД и т. п. в качестве средств структурирования информации для отдельных типов сайтов нецелесообразно в силу того, что все эти ИПЯ были созданы для решения иных информационных задач. Самостоятельную проблему представляет преодоление господствующего эмпирического подхода при разработке контента сайтов, при котором не учитываются возможности использования лингвистических средств.

Список источников

1. Гендина, Н. И. Оценка качества сайтов: методика и результаты пилотажного исследования [Электрон. ресурс]/ Гендина Н. И., Колкова Н. И., Алдохина О. И. // 7-я Междунар. конф. «EVA 2004 Москва «Информация для всех: культура и технологии информационного общества» : материалы конф. – Электрон. дан. – М. : Центр ПИК, 2004. – 1 электрон. опт. диск (CD–ROM).

2. Колкова, Н. И. Оптимизация проектирования контента сайтов учреждений культуры и искусства: результаты исследований НИИ информационных технологий социальной сферы Кемеровского государственного университета культуры и искусств [Текст] / Н. И. Колкова, О. И. Алдохина, И. Л. Скипор // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса : материалы 11-й Междунар. конф. «Крым–2004» – Электрон. дан. – М. : ГПНТБ России, 2004. – 1 электрон. опт. диск (CD–ROM).

3. Гендина, Н. И. Моделирование контента сайта органа исполнительной власти [Текст] / Н. И. Гендина, Н. И. Колкова, О. И. Алдохина, С. В. Сорокопуд // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса : материалы 12-й Междунар. конф. «Крым–2005» – Электрон. дан. – М. : ГПНТБ России, 2005. – 1 электрон. опт. диск (CD–ROM).

4. Гендина, Н. И. Создание исследовательского и методического инструментария разработки сайтов библиотек и музеев: результаты разработок НИИ информационных технологий социальной сферы Кемеровского государственного университета культуры и искусств [Текст] / Н. И. Гендина, Н. И. Колкова, О. И. Алдохина, И. Л. Скипор // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса : материалы 12-й Междунар. конф. «Крым–2005» – Электрон. дан. – М. : ГПНТБ России, 2005. – 1 электрон. опт. диск (CD–ROM).

5. Гендина, Н. И. Информационный образ как основа разработки контента сайтов учреждений культуры [Электрон. ресурс] / Н. И. Гендина, Н. И. Колкова, О. И. Алдохина, И. Л. Скипор // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса : материалы 13-й Междунар. конф. «Крым–2006» – Электрон. дан. – М. : ГПНТБ России, 2006. – 1 электрон. опт. диск (CD–ROM).

6. Колкова, Н. И. Прикладная информатика: технология дипломного и курсового проектирования [Текст] : учеб. пособие специальностей «Прикладная информатика» (в информационной сфере), «Прикладная информатика» (в социальной сфере), «Прикладная информатика» (в социально-культурной сфере) / Н. И.  Колкова, И. Л. Скипор. – Кемерово : КемГУКИ, 2007. – 434 с.

  
На главную