Научные и технические библиотеки №10 2004 год
Содержание:

Павлова Н.П. Открытое заседание редколлегии сборника «Научные и технические библиотеки» на Международном Крымском форуме

Сукиасян Э.Р. Сравнительный анализ моделей различных ИПЯ. Статья 2

Зильберборд А.Л., Коленко Л.В. Областная научная библиотека – территория, содействующая защите патентных, авторских и смежных прав читателей

Ядрова Г.В. Опрос удаленного пользователя как инструмент изучения и оценки электронных ресурсов вузовской библиотеки

Таращенко А.А. Роль и содержание чтения в условиях изоляции в пенитенциарных учреждениях. Часть 1


БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ В НАУЧНЫХ ИССЛЕДОВАНИЯХ

Глянцель В., Дебакер К. Использование библиометрических показателей при выработке научной политики: возможности и ограничения

Вагнер-Доблер Р. Система индикаторов в исследованиях и разработках

Фюлес-Убах С. Оценка активности обращений к веб-сайту. (О трудностях получения статистических показателей)


ЗАЩИТА ДИССЕРТАЦИЙ

Клапиюк В.Т. В диссертационном совете при МГУКИ


АНОНС НОВОГО ИЗДАНИЯ

Проект учебника-монографии нового типа «Электронные издания, ресурсы, фонды, библиотеки»

Земсков А.И. Электронные документы, ресурсы, библиотеки


НАША ПРОФЕССИЯ

Березкина Е.И. Профессиональное самосознание современного библиотекаря университетской библиотеки: социологический анализ


ПРОФЕССИОНАЛЬНОЕ КРЕДО

Хамаганова Р.И. Обсуждение проекта "Этического кредо библиотекаря" Ю.Н. Столярова в Национальной библиотеке Республики Бурятия


НАША ИСТОРИЯ

Каратыгина Т.Ф. Римма и Командор


ОБЗОРЫ. РЕЦЕНЗИИ

Смирнова Е.М., Ступникова Л.А. От библиотечного обслуживания – к информационному сервису


НАШИ
АВТОРЫ


Представленный далее доклад во многом носит методический характер и ввиду этого достаточно полезен. Оценки активности использования веб-сайта, а значит, и эффективности вложений в его создание сами по себе очень интересны. Не менее полезной может оказаться информация, позволяющая «по ходу» корректировать состав материалов, опубликованных на сайте: убрать ненужное, добавить или детализировать часто запрашиваемое.

Заметим, что статистические наблюдения, результаты которых приведены в статье М. В. Гончарова и А. И. Земскова «Причины посещения веб-сайта ГПНТБ России» ( Науч. и техн. б-ки, 2003, № 11, 12), выполнены с применением схожих методов. Прочитав эту статью, можно наладить сбор собственной статистики.

 

УДК 002.001.1

Фюлес-Убах С.

Оценка активности обращений к веб-сайту.
(О трудностях получения статистических показателей)

Доклад на 2-й Международной конференции «Библиометрический анализ в науке и исследованиях. Применения, преимущества и ограничения» (Bibliometric analysis in science and research. Applications, benefits and limitations), 5–7 ноября 2003 г., Юлих, Германия.

Исходная позиция

Значительный спад в так называемой новой экономике (опирающейся на информационно-коммуникационные технологии) потребовал с большим вниманием относиться к расходам на технологии, связанные с Интернетом. Еще несколько лет назад такого рода контроль казался излишним и мелочным. В новых экономических условиях веб-метрика призвана помочь оценкам работы сайта.

Сотрудникам библиотек также необходимо располагать надежным и стандартизованным источником сведений об использовании электронных ресурсов. Это требование нашло свое отражение в ряде проектов.

Предлагаемый в данной работе метод основан на использовании файлов регистрации (так называемых лог-файлов, logfiles), которые автоматически формируются веб-сервером; следовательно, эти данные легкодоступны библиотеке, имеющей сервер. Заметим также, что этот метод можно назвать нереактивным в том смысле, что пользователь не ощущает того, что его поведение в сети как-то подвергается автоматизированному мониторингу.


Что измеряется и что может быть измерено?

Анализ активности пользователей с помощью файлов регистрации – это количественный метод оценок использования. Наиболее простой способ анализа – статистика захода на определенные страницы веб-сайта: можно оценить, какие именно страницы вашего сайта, когда, как часто и в течение какого времени посещаются пользователями. Здесь важный параметр – сколько посещений явились результатом работы поисковой машины. Ввиду того, что поисковые машины и роботы нельзя считать аналогом визита реального пользователя, то правильно будет исключать такого рода заходы на сайт из общего числа посещений.

Дополнительными целями при использовании этой методики являются получение технической информации о количестве правильно выполненных актов пересылки сетевых страниц, равно как и о количестве допущенных ошибок (сообщение об ошибке «error 404» – гиперсвязь не работает), а также другой специфической информации о работе сервера.

Файлы регистрации позволяют определить тип компьютерного оборудования (аппаратные и программные средства) посетителя сайта.

Имеется также возможность видеть переходы посетителя  внутри вашего сайта от одной страницы к другой; первую страницу, на которую он зашел, и последнюю для данного посетителя, с которой он ушел от вас; можно проследить и «откуда пришел» конкретный посетитель сайта. Анализ массива запросов (query strings) позволяет составить суждение об интересах пользователя (его ожидания относительно содержания искомых страниц); узнать, какие поисковые термины используются при работе пользователя с вашей веб-страницей, и при необходимости корректировать содержание сайта.


Генерирование файла регистрации

Каждый веб-сервер формирует файл регистрации, в котором записывается информация о каждом посещении, т.е. о соединении с Интернетом по протоколу HTTP.

Таблица 1

Пример общей (CLF) и расширенной (ECLF) записей

Наименование

Значение или функция

Host

IP адрес или доменное имя посетителя

Ident

Идентификация (если необходимо, а если не нужно, то в записи будет прочерк

Authuser

Проверка аутентичности (при необходимости)

Date

Дата и время посещения

Time zone

Отклонение от Гринвича, часов

Request

Метод, документ или протокол; команда посетителя на поиск, затребованный файл

Status

Рапорт о выполнении запроса или о неудаче

Bytes

Полное количество переданных байтов

Расширенная запись (ECLF) дает дополнительно

Referrer

Интернет-адрес URL) страницы, содержащей гиперсвязь (отсылку) на запрошенную страницу

Agent

Наименование и версия программного обеспечения ПК посетителя

 

Запись представляет собой текстовый файл, обычно в так называемом общем формате (Common Log File Format, CLF Format). В табл. 1 показан пример общей (CLF) и расширенной (ECLF) записей файла регистрации; ниже – образец ее расшифровки.

Запись в файле регистрации:

123.456.78.9 – –[08/May/2003:13:45:56=D500] Get XY.html HTTP/1.0 200 2050 Z. html Mozilla /5[Win95]

что означает:

  • посетитель пришел на сайт с IP-адреса 122.456.78.9 8 мая 2003 г. и запросил страницу XY.html;
  • документ успешно передан (код 200), полное количество – 2050;
  • пользователь проследовал по гиперсвязи (отсылке) на странице Z-html и использует систему Microsoft Internet Explorer с программой Windows 95.


Показатели активности веб-сайта

В прежних исследованиях при анализе файлов регистрации подсчитывали количество хитов (hits) – просмотренных независимых, имеющих отдельный адрес, компонент страницы и пытались на основании этих данных судить об активности сайта. Это неверно и приводит к колоссальным ошибкам, ибо файл регистрации фиксирует любой (и каждый) файл в ходе реализации доступа. Если на сетевой странице, например, много графики и изображений, то каждое из них будет зарегистрировано. В результате окажется, что насыщенный вставками материал посещается чаще.

Именно поэтому германское Общество контроля за Интернет-рекламой, в которое входят несколько крупнейших национальных союзов по рекламе и мультимедиа, на сугубо профессиональной основе изучает этот вопрос,  имея в виду установление расценок на сетевые объявления. Общество рекомендует два других показателя: просмотренные страницы (Page impressions, Page Views)  и посещения (Visits). Эти рекомендации приняты и в настоящее время используются на практике.

 

Просмотренные страницы. Это показатель количества сетевых страниц на данном сервере, имеющих возможность размещения рекламы, на которые пользователь заходил (или которые запрашивал).

Здесь нужно сделать небольшое уточнение. Технология создания кадров (фрэймов) допускает вызов нескольких физических страниц сразу одним щелчком мыши, что может исказить картину рекламодателям. Поэтому определение страницы в данном случае относится только к одному кадру, физически видимому на экране монитора.

На рис. 1 – различные показатели активности веб-сайта: посетители, посещения, просмотренные страницы, просмотренные файлы.



Рис. 1. Различные категории замеров активности веб-сайта

Визит (сессия, посещение). Под визитом понимается связанная (единая) группа транзакций, осуществленная в сети между каким-либо IP-адресом и веб-сайтом. Это определение вовсе не столь тривиально, как кажется на первый взгляд.

Дело в том, что связь между пользователем и сайтом прерывается после каждого единичного акта запрос/ответ. Это делается для того, чтобы не перегружать сеть. Таким образом, файл регистрации как правило не может сам по себе определить, что же является «связанной группой транзакций». С этой точки зрения «визит» понимается как повторяющаяся с короткими интервалами серия заходов на данный сайт с одного и того же IP-адреса; предполагается, что наиболее вероятно эти заходы относятся к сеансу связи с одним и тем же пользователем. Если в течение какого-то заранее установленного  длительного периода времени с этого адреса не поступают запросы, то следующий сеанс уже засчитывается как новый. По умолчанию установленный перерыв составляет 30 мин., но возможны любые варианты по вашему желанию.

Важно отметить: идентификация посещений не позволяет делать какие-либо выводы относительно самого пользователя (т. е. гарантируется анонимность); число посещений всегда будет меньше числа просмотренных страниц.

 

Пользователи/посетители. Цель изучения сетевого рынка – удостовериться в том, что вы работаете с реальным пользователем – физическим лицом, пришедшим на ваш веб-сайт. Однако идентификация посетителей, подсчет их точного количества – сложная задача в силу некоторых технических особенностей. Возможности идентификации определяются средствами контроля доступа и небольшими вспомогательными программами (cookies), которые автоматически записываются на жесткий диск посетителя. Идентификация этого «помеченного» жесткого диска осуществляется при повторном заходе без всяких проблем.

Использование cookies дает возможность регистрировать некоторые детали поведения пользователя, т. е. выделить такие категории: первый заход пользователя; повторный заход пользователя; регулярный пользователь (часто посещает сайт и работает с ним регулярно).

С помощью cookies можно также проводить персонализацию посетителя, по примеру действий известного Интернет-продавца Amazon.com.

Чтобы получить более детальные сведения о посетителях сайта, придется вводить регистрацию, раздавать регистрационные имена (логины) и пароли. Как показывает опыт, такие меры немедленно вызывают отток посетителей от сайта. Для университетских библиотек такие проблемы вообще не актуальны, поскольку студенческий коллектив так или иначе зарегистрирован.


Пределы аналитических возможностей файлов регистрации

Несмотря на замечательную способность файлов регистрации собирать данные и факты, все же подобную статистику следует рассматривать как отражающие тенденции, а не как абсолютную данность. (Имеются разнообразные источники систематических, структурных и иных ошибок; см. табл. 2.)


Прокси-серверы

С целью организации оптимальной эксплуатации сети широко используются технологии прокси-серверов, которые снижают объем передаваемых данных за счет временного сохранения часто используемой информации. При этом отпадает необходимость многократной пересылки на полную дистанцию между сайтом и пользователем одних и тех же данных.

Когда пользователь запрашивает такую страницу от прокси-сервера, основной сервер «не ощущает» запроса и, конечно, не производит записи в файле регистрации. Запись в файл регистрации начнется только тогда, когда соответствующего документа не окажется в распоряжении прокси-сервера. В результате такой «технической помощи» данные о спросе на документы основного сервера будут неточными, причем чем интенсивнее идет работа, тем больше вероятность ошибки.


Вспомогательная память персонального компьютера пользователя
(кэш-браузера)

Местная вспомогательная кэш-память системы просмотра сетевых материалов на компьютере индивидуального пользователя работает в общем так же, как и прокси-сервер. Для того чтобы ускорить загрузку сетевой страницы, они предварительно поступают в промежуточную кэш-память и отмечаются в файле регистрации только один раз, хотя пользователь, возможно, обращается к ним многократно. Следовательно, происходит искажение точной картины поведения пользователя при неоднократном просмотре одних и тех же сетевых страниц.

 

Кнопки «вперед» и «назад». Когда пользователь щелкает по кнопкам «вперед» или «назад», страницы сохраняются в основной памяти компьютера (RAM) и не записываются в файле регистрации, что также искажает общую картину.


Динамические
IP-адреса

В целях экономии Интернет-адресов многие поставщики телекоммуникационных услуг и Интернет-службы (например AOL или t-online) присваивают динамические (на данный момент) Интернет-адреса. Эта процедура влечет за собой два различных последствия. Первое состоит в том, что один и тот же сервис-провайдер способен обслужить многих клиентов, фактически используя один и тот же адрес, или обслужить множество клиентов, располагая небольшим количеством IP-адресов.

Как результат в файле регистрации могут оказаться записанными немного динамических адресов, которыми воспользовались многие посетители. Однако один и тот же пользователь в ходе сеанса может получать несколько различных IP-адресов, и тогда в файле регистрации появятся, допустим, два  адреса, хотя пользовался ими один и тот же клиент.

 

Межсетевой защитный экран. В целях безопасности многие компании применяют межсетевые защитные экраны. Экран изменяет внутренний IP-адрес сотрудника компании  на единый для всей компании внешний адрес, который и будет записан впоследствии в файл регистрации поставщика информации, даже если из компании заходили на данный веб-сайт многие сотрудники. Если кроме того используется прокси-сервер, входная информация еще более исказится как по подсчету количества посещений, так и по их запросам, и итоговая картина не будет правдивой.

 

Подборщики информации. Как отмечено выше, файл регистрации записывает любое обращение, в том числе и заход на данный сайт автоматизированных систем сбора информации – роботов, пауков и других наряду с физическими лицами. Исправить данные можно за счет корректировки их отправных точек: количество автоматизированных поисковых систем, конечно, счетно; все они имеют хорошо известные сетевые адреса, и заходы с этих адресов нужно вычесть из общей суммы.

В табл. 2 перечислены источники ошибок, их воздействие на статистические показатели и способы устранения.

Таблица 2

Источники ошибок

Источник
ошибок
Воздействие
на статистику
Устранение или
компенсация
Просмотр страниц с большим количеством графики Завышает Учитывать расширение файла
(например, gif, ..)
Прокси-сервер, кэш-память Занижает Усилить контроль за обновлением
Динамические IP-адреса Может как завышать, так и занижать Настройка браузера, cookies, регистрация пользователей
Межсетевой защитный экран Занижает Настройка браузера, cookies, регистрация пользователей
Коллективные запросы с одного и того же компьютера Занижает Регистрация пользователей
Роботы, автоматические подборщики информации Завышает Учитывать только заход с просмотровой системы (браузера)

 

Знание вышеприведенных факторов полезно при проведении оценок точности статистических наблюдений. Поскольку источником ошибок, как правило, являются системные причины, общие для методики в целом, то какое-то сравнение результатов (а не только абсолютные замеры) может быть проведено и без дополнительной коррекции, лишь бы методики подсчета были едиными.


Сбор сетевой информации –
усовершенствованный метод анализа

Если вы интересуетесь другими аспектами и более детальным анализом поведения пользователя, то имеется возможность записывать последовательность просмотра страниц вашего сайта (clickstreams). Эта методика называется «Анализ пути» (Path Analysis).

Отдельно взятые посещения можно записывать в базу данных для последующего изучения – это уже начало методики сбора сетевой информации.

Термин сбор сетевой информации (web mining) происходит от более раннего термина сбор информации [вообще] (data mining), появившегося в 1997 г. Инструменты подобного рода создавались вначале для поиска когерентности, соответствия в файлах внутри конкретного предприятия (компании). В отличие от классических схем поиска в данном случае пользователь изначально не знает, что конкретно он ищет. Скорее, идет поиск любой интересной информации. С этой точки зрения сбор сетевой информации позволяет проследить особенности поведения пользователей, что важно для  специалистов по компьютерным программам и обработке информации.

Такие же методы применяются и в исследованиях рынка, в том числе, например, кластерный анализ, ассоциативные замеры и измерения в нейросети. Цель всех этих методик – построение оптимальных взаимоотношений с клиентами и увеличение рыночного потенциала. Нужно заметить, что официальные учреждения пока не спешат осваивать эти методы и, следовательно, не имеют достаточного опыта.

 

Список литературы
(в авторском варианте)

Eager, J., Becker, J., Munz, R. (1997): Zentrallager: Data Warehouse – zentrale Sammelstelle fur Informationen. c’t Magazin fur Computertechnik (3): 284–293.

Inan, H. (2002): Measuring the success of your website: a customer-centric approach to website management. Prentice Hall, 179.

Janetzko, D. (1999): Surfer im Visier: Beobachten, Befragen, Belauschen – «Netizens» werden zum Lieblingsopfer von Markt- und Sozialforschem. c’t Magazin filr Compotertechnik (20): 86–92.

Mundt, S. (2003): Stellungnahme zur Nutzungsmessung von elektronischen Zeitschriften und Datenbanken. Bibliotheksdienst 37:898–900.

Sterne, J. (2002): Web metrics: proven methods for measuring web site success. New York: Wiley. 144f.

Werner, A. (1999): Kontaktmessung im WWW. In: Batinic, B. (Hrsg.): Online Research: Methoden, Anwendungen und Ergebnisse. Gdttingen: Hogrefe, 213–225.

Zerr, K. (2001): Online-Marktforschung – Erscheinungsformen und Nutzenpotenziale. In: Theobald, A., Dreyer, M., Starsetzki, T. (Hrsg.): Online-Marktforschung: Theoretische Grundlagen und praktische Erfahrungen. Wiesbaden: Gabler, 8–26.

  
На главную