Home page | Каталоги и базы данных

Научные и технические библиотеки


 

ПРОБЛЕМЫ ИНФОРМАЦИОННОГО ОБЩЕСТВА

 

От редакции. Статья, помещенная далее, подготовлена У. Келером для журнала Американского общества информационных наук и технологий (Journal of American Society for Information Science and Technology. Vol. 53, N. 2, Jan. 2002), в нашем сборнике печатается с разрешения издательства John Wiley & Sons International Rights, Inc. (от 18 авг. 2001 г.). Все права сохранены за данным издательством.

Профессор Уоллес Келер (Wallace Koehler) – зам. директора библиотеки Одэм (Odum Library) Университета Валдоста (Valdosta State University), Джорджия, США; участник Крымских конференций; его доклады опубликованы на английском языке в трудах конференций «Крым-2000», «Крым-2001».

Данная статья – его новейшая работа – передана в редакцию нашего сборника до публикации в американском журнале. В статье обобщены итоги интереснейших многолетних наблюдений за сетевыми документами: однажды выбранные массивы постепенно исчезают – на время, а иные и навсегда.

Поскольку за период 1996 – 2001 гг. сеть бурно развивалась, то для полной ее характеризации и моделирования необходимы другие, более сложные методики исследования. Обширную библиографию (31 наименование печатных и электронных документов на английском языке) можно найти по адресу издательства www.wiley.com или автора wkoehler@valdosta.edu.

(Имена цитируемых авторов приведены на языке оригинала.)

 


УДК 025.65.011.56

Келер У.
Университет Валдоста, Джорджия, США

Систематические наблюдения
за жизненным циклом веб-страниц

Изменения в топографии Сети (WWW-среда) могут происходить по крайней мере по четырем направлениям:

  1. увеличение количества сайтов, размещенных на сетевых серверах, расширение их географии;

  2. увеличение числа страниц и количества изображений, добавленных к существующим страницам;

  3. изменения сетевого трафика;

  4. модификация уже существующих текстовых, графических и других сетевых объектов.

В данной статье мы не будем изучать первые три направления, а сконцентрируемся на изменениях, происходящих с существующими сетевыми документами. Мы рассмотрим процессы, происходящие по мере старения тех сетевых страниц, которые отобрали еще в декабре 1996 г. и с той поры ведем их еженедельный мониторинг. (Здесь представлены результаты наблюдений вплоть до февраля 2001 г.)

Особое внимание уделим двум взаимосвязанным параметрам: времени жизни сетевых объектов и их структурным изменениям. Наши данные указывают на то, что среднее «время полураспада» сетевых страниц – около двух лет, причем указанный параметр зависит от того, какой домен верхнего уровня имеет адрес данного документа и от характера наполнения веб-страниц (содержательные материалы или навигационные). Содержание веб-страниц с течением времени стабилизируется: старые страницы изменяются не столь часто, как на этапах своей «молодости».

С момента своего создания в 1991 г. Всемирная сеть росла и развивалась чрезвычайно стремительно. Несмотря на различие в подходах (кто-то подсчитывает число сайтов, а кто-то – число сетевых страниц) все отмечают геометрическую прогрессию роста. Темп роста существенно затрудняет работу сетевых историографов. Не только появляются все новые сайты и новые веб-страницы, но и уже существующие меняются, перемещаются, исчезают.

Высокая подвижность документов Сети снижает эффективность поисковых машин (Chu and Rosenthal, 1996; Brewington and Cybenko, 2000) и затрудняет работу исследователей, стремящихся каталогизировать ресурсы Сети (Koehler, 1999; McDDonnel et al., 2000) либо автоматически их индексировать с помощью роботов (краулеров) (Choo and Garcia-Molina 2000; Edwards, McCurley and Tomlin, 2001), либо проанализировать динамику изменений сетевых ресурсов. Все же еще остались специалисты, готовые пренебречь изменениями существующих в сети материалов и пытающиеся индексировать и каталогизировать электронные ресурсы (Weinberg, 1999; O’Neil and Lavoie, 2000).

Данное исследование – продолжение работы, выполненной в 1999 г.; она содержала годовой анализ «поведения» 360 веб-страниц и 343 веб-сайтов; работа была опубликована. В настоящем исследовании, как и прежде, основное внимание уделено анализу следующих проблем, которые можно сформулировать в виде вопросов:

  1. Насколько стабильно содержание WWW? Как часто меняются веб-страницы? Какие конкретно изменения при этом происходят?

  2. В какой мере стабильны веб-страницы? В каком темпе они исчезают и/или возрождаются?

  3. Одинаково ли динамическое поведение различных по содержанию веб-страниц?

Эти вопросы имеют как теоретическое, так и практическое значение: создатели коллекций сетевых фондов обеспокоены миграцией или исчезновением веб-сайтов и веб-страниц. К данному явлению можно относиться по-разному: игнорировать, ждать, когда под давлением пользователей положение будет исправлено, самим сканировать (отслеживать изменения) и затем либо убирать устаревшие адреса, либо периодически проводить проверку состояния ресурсов.

Можно стремиться обеспечить относительную стабильность практическими мерами: исследователи Университета Ватерлоо (University of Waterloo) в рамках проекта «Научные общества» (Scholarly Societies Project 2001) обнаружили, что Интернет-адреса документов типа www.orgname.tld (где .tld– top level domain – имя домена высшего уровня) отличаются особой устойчивостью, поэтому в библиографических записях разумнее использовать этот формат, а не многоуровневый адрес. По нашим наблюдениям, еще большей устойчивостью обладают форматы Интернет-адресов типа www.orgname.org.

Исследованиям стабильности веб-сайтов посвящено не много работ.

Периодическую проверку стабильности электронных сетевых ресурсов осуществляет компания OCLC  в рамках проекта «Кооперативный каталог онлайновых ресурсов» (Cooperative Online Resource Catalog, CORC), и сейчас компанией создана система ежегодного обзора существующих общедоступных сайтов (Web Characterization Project).

В качестве побочного продукта своих исследований 1996 г. А.Чанхунтод (A. Chankhuntod) с сотрудниками дал оценки времени жизни различных сайтов; к слову, эта работа уже исчезла из Интернета. Другие исследователи в 2000 г. рассматривали целесообразность выпуска печатных версий руководств по ресурсам Интернета ввиду эфемерности этих самых ресурсов (Kitchens and Mosley, 2000). В том же году Тэйлор и Хадсон (Taylor and Hudson, 2000) на основе материалов по истории веб-страниц изучили дифференцированное поведение сайтов в зависимости от типа домена и тематической направленности ресурса.

Еще в 1998 г. Бенбоу (Benbow) указывал на то, что за два года исчезает до 20 %  сетевых ресурсов, а за три года – до 50%. По причине излишней летучести сайтов, С.А. Жермэн (C.A. Germain, 2000) не рекомендовал их использовать в качестве библиографических ссылок на материалы. И, наконец, С.Д. Макмиллан (S. J. McMillan, 2000) обосновал необходимость применения особых инструментов анализа содержания сетевых ресурсов все по этой же причине.

 

Суть проблемы

В данной статье затрагиваются во многом те же вопросы, что и в ранее опубликованной (1999 г.). Однако здесь поведение веб-сайтов мы не рассматриваем детально, а лишь вновь указываем на их изменчивую, нестойкую природу. Мы продолжаем исследование тех же веб-страниц, что изучались ранее. Все они существовали и были доступны онлайн в момент начала работы и никаких новых страниц мы не добавили к рассмотрению, разве что за единственным исключением. Иногда веб-страницы меняют свой адрес; если новый адрес давался по старому адресу или осуществлялась автоматическая переадресовка, мы включали в наше исследование таким образом появившийся новый адрес и подключали его к системе мониторинга. Подобных адресов – 7% за все время наблюдения. Никаких усилий по розыску страниц, исчезнувших без уведомления о своем новом местонахождении, мы не предпринимали сознательно.

Итак, предметом рассмотрения был статичный, раз и навсегда заданный массив сетевых страниц. Этот массив естественным образом «старился».

Данный массив не может считаться  представляющим всю Сеть в текущий момент – нет, он представлял WWW в момент начала нашего исследования. Сама же сеть за это время изменилась – как и положено динамически развивающемуся объекту, с постоянным добавлением новых страниц и сайтов. Выбранный нами статичный массив помогает понять «поведение» во времени сетевых страниц и, возможно, преувеличивает как негативные, так и позитивные стороны изменения всей Сети.

Ввиду относительно большей стабильности «старых» сайтов (отобранных в начале исследования) замена выбывших сайтов новыми (для сохранения общего числа массива) исказила бы картину, в частности динамику исчезновения  или временного молчания (состояния коматозности) сайтов. Термин коматозность в данном случае более предпочтителен, чем смерть или исчезновение, поскольку никогда не знаешь заранее, станет ли ресурс, находящийся  по данному адресу, вновь активным.

Большинство (85%) из тех сетевых страниц, что по какой-либо причине перестали отвечать на запросы, а затем вновь ожили, обретают активность в течение первых пяти недель после умолкания; мы их называем прерывающимися. Только после шестинедельного молчания мы заносим сетевые ресурсы в разряд коматозных. Часть страниц из нашего первоначального набора (3%) вернулась к нормальной эксплуатации после годичного молчания и 0,2% ожили после двухлетнего молчания, а один сайт – после молчания в течение 78 недель, сменив формат и владельца.

Можно смело сказать, что «молодые» веб-страницы всегда по сути своей нестабильны. Но проходит какое-то время и авторы не столь рьяно вносит поправки в свои электронные произведения – то ли удовлетворились содеянным, то ли потеряли интерес к детищу. Иными словами – по мере старения отобранного массива частота изменений затухает.

Помимо прочего в данной работе пересмотрены некоторые выводы, к которым мы пришли ранее. Установлено, что документы, имеющие различные имена доменов верхнего уровня ведут себя по-разному, например, военные и коммерческие сайты оказались подвижнее других. Еще в 1999 г. мы обнаружили и описали так называемые прерывающиеся (т. е. умолкнувшие на относительно небольшой промежуток времени) и фантомные сайты (те, к которым доступ невозможен, однако программное обеспечение не может их вычленить в качестве коматозных по причине усложненного трактования программой ответа «404»).

В данном исследовании мы придерживаемся следующей систематизации доменных имен сайтов:

  • если в полном адресе документа можно найти или определить тип организации – владельца сайта ( .com, .edu, gov, .int, .mil, org, .net), то мы используем данную «ведомственную» принадлежноть,

  • все остальные – даем в соответствии со стандартом ISO 3166, (2-буквенное обозначение стран) например: .au – Австралия, .ca – Канада, .fr – Франция, .jp – Япония, .ug – Уганда и т.д.

 

Методология

Выбор документов для анализа

Для мониторинга изменений веб-страниц исходный набор данных изучался еженедельно с декабря 1996 г. по февраль 2001 г. (214 недель) с помощью специальной программы Flash Site 1.01 компании Incontext (небольшие отдельные пробелы в получении данных были связаны с отключением электропитания, поломкой сервера и пожаром в библиотеке). Учитывался размер веб-страницы в килобайтах и изменения в гиперссылках на конкретной странице. Отбор самих веб-страниц осуществлен с помощью генератора случайных адресов WebCrawler (ныне не существует).

Выбранные таким образом адреса сетевых документов (361) на тот момент являлись хоть и небольшим, но в общем представительным образцом сложного и плохо структурированного объекта, как Всемирная сеть ( в то время в Сети было по разным оценкам от 100 млн до 600 млн веб-страниц). Конечно, никоим образом этот набор не может претендовать на то, чтобы представлять модель Сети в 2001 г. Неточность моделирования определяется также конечным числом отобранных элементов. Тем не менее, распределение страниц по именам доменов высшего уровня, приведенное в таблице 1, соответствовало типичному состоянию для всей Сети в 1996 г.

Нужно сказать, что избранный нами способ выборки случайных адресов веб-страниц с помощью одной поисковой машины, аналогичный использованному в работе К. Бхарата и А. Бродера (K. Bharat, A. Broder, 1998), отнюдь не является единственно возможным: можно было бы генерировать случайным образом IP-адреса пользователей (а не документов) либо осуществлять случайный просмотр Сети через систему поисковых машин.

Таблица 1

Распределение отобранных в 1996 г. документов
по именам доменов высшего уровня

Тип домена

Количество доменов

GTLD («ведомственные» имена доменов, относящиеся к учреждениям определенного типа):

 

 

сom (коммерческие компании)

94

(26,0%)

edu (учреждения образования)

69

(19,1%)

gov (правительственные учреждения)

12

(3,3%)

mil (военные учреждения)

11

(3,0%)

net (сетевые организации)

32

(8,9%)

org (некоммерческие организации)

9

(2,5%)

IP number (Интернет-адрес)

1

(0,3%)

 

 

сcTLD (доменные имена, выраженные в кодах стран и относящиеся к  географическим регионам)

 

Африка

1

(0,3%)

Азия

7

(1,9%)

Европа

90

(24,9%)

Ближний Восток

1

(0,3%)

Северная Америка

18

(5,0%)

Тихоокеанский регион

11

(3,0%)

Южная Америка

5

(1,4%)

Всего

361

(100%)

Показанные в табл. 1 распределения адресов документов по их «ведомственному» домену высшего уровня (generic top level domain, GTLD) и по коду страны (country code top level domain, ccTLD) охватывают самые различные уровни глубины адресов документов по отношению к адресу самого сайта – от нулевого (т.е. адрес вида http://aaa.bbb.ccc) до седьмого уровня (адрес вида http://aaa.bbb. ccc/ttt/uuu/vvv/www/xxx/yyy/zzz.html). Такого рода разнообразие позволяло нам проверить ранее высказанное предположение, что документ, расположенный по адресу глубокого уровня менее устойчив, чем документ, “лежащий на поверхности” сайта. Дело в том, что глубокая структуризация поневоле располагает к соответствующим структурным или содержательные изменениям на любом из вышестоящих уровней.

 

Методика измерений

После формирования массива мы ввели данные в специальную программу FlashSite 1.01, которая выполняла две основные функции: во-первых, выгружала содержание веб-сайтов (веб-страниц) и готовила карту сайта и, во-вторых, периодически сверяла текущее содержание веб-сайта с тем, что было выгружено в начале эксперимента, и сообщала результаты сравнения. Указанная программа допускает проводить анализы с различным интервалом времени, и мы выбрали недельный интервал (конкретно – утром в каждую пятницу).

Сообщение программы FlashSite 1.01 состоит из трех частей: объем рассматриваемого документа на текущий момент в килобайтах, количество вновь появившихся гипертекстовых отсылок от данного документа, количество новых документов, на которые возникли гипертекстовые отсылки. Таким образом нам удавалось проследить изменения как в содержании наблюдаемого документа, так и в его структуре гипертекстовых ссылок.

Сообщение программы FlashSite 1.01 содержит таблицу данных по текущему состоянию всех рассматриваемых документов, а также комментарий типа «анализ полностью выполнен» либо «сетевая ошибка», причем последний комментарий генерируется в любом случае, независимо от причин, по которым программа не смогла установить связь, выгрузить содержание и провести сравнение с исходным документом. Это может случиться из-за плохой связи, отсутствия адреса или сервера, или данного файла (так называемое сообщение 404), или по каким-то непредсказуемым идиопатическим причинам.

Все неудачные попытки дважды повторяются в автоматизированном режиме, а затем осуществляется и режим «ручного» соединения. Адреса так называемых коматозных (временно умолкших) сайтов сохраняются в списке поисковой системы и попытки соединения с ними осуществляются так же, как и с нормальными сайтами. Это делается для того, чтобы определить темп возрождения коматозных сайтов.

 

Результаты

Легко догадаться, что динамика «смертности» веб-страниц и анализ их структурных изменений особенно важны для тех, кто пытается вести обработку сетевых ресурсов, в том числе каталогизацию и индексацию.

 

Исчезновение веб-страниц

Прежде всего отметим, что за неполные четыре года наблюдений из первоначального массива – 361 «подопытная» веб-страница – активными остались 124 (34,4%), причем изменения оказались неодинаковыми для страниц, находящихся на разных типах сайтов. На рис. 1 показана динамика (по неделям, начиная с момента начала эксперимента) общего количества умолкших сайтов (верхняя кривая). Нижняя плавно растущая кривая – рост числа так называемых фантомных веб-страниц, т.е. тех, которые в ответ на запрос программы дают послание 404 («файл недоступен»), хотя причины «недоступности» могут таиться не на данном сайте, а где то на пути к нему.


(недели – с декабря 1996 г. по февраль 2001 г.)

Рис. 1. Коматозные веб-страницы. (процент от общего массива)

(1) – сайты, не отвечающие на запрос,
(2) – исчезнувшие сайты,
(3) – фантомные сайты.

На первых порах нашей работы послание 404 трактовалось однозначно – сетевой документ отсутствует на обозначенном месте. Однако в настоящее  время послание 404 приходит зачастую с многочисленными и непонятными для анализирующей программы комментариями, поэтому мы ввели понятие фантомный сетевой документ, т.е. неработающий, но не дающий однозначного сообщения о прекращении своего существования.

Постоянно растущее число вариантов истолкования послания 404 – то ли сайт не существует, то ли он недоступен по какой-то технической причине, возникшей на пути следования сигнала, – нашей программой не интерпретируется однозначно. И все же неучет фантомных документов может исказить конечный результат анализа.

К концу периода наблюдения количество фантомных веб-страниц выросло примерно до одной трети от общего количества недоступных страниц.

На рис. 2 приведена динамика уменьшения числа действующих сетевых страниц (верхняя кривая) и рост количества прерывающихся страниц (нижняя кривая), которые какое-то время (менее 6 недель) молчали, но затем вновь «ожили».

 


(недели – с декабря 1996 г. по февраль 2001 г.)

Рис. 2. Динамика уменьшения числа действующих веб-страниц и увеличения прерывающихся веб-страниц

(1)  –

(2) –

существующие и прерывающиеся веб-страницы
(процент от общего массива).
прерывающиеся веб-страницы
(процент от количества активных на определенный момент). 

Перерыв в функционировании страницы может быть вызван самыми различными причинами: выход из строя сервера, нарушения электропитания, изменения в хостах, небрежность автора (адми-нистратора) сетевых страниц и др.

Введение понятия прерывающиеся сетевые страницы нам представляется важным с практической точки зрения, так как позволяет избежать неоправданного исключения веб-страниц из каталогов при их случайном или однократном умолкании.

Итак, мы знаем, что со временем сетевые страницы могут стать неактивными – на время либо навсегда. Как уже упоминалось выше, стабильность веб-страниц может зависеть от формата адреса, вышестоящего домена и от других факторов. Мы считаем, что устойчивость веб-страниц является многопараметрической функцией.

В табл. 2 приведено распределение по характеру наполнения (или содержания, т.е. информация как таковая, либо навигационные сведения – указания на местонахождение тех или иных материалов на данном сайте) действующих сетевых страниц в начале эксперимента (в 1996 г.), когда соотношение, грубо говоря, было 50 : 50, и в феврале 2001 г., когда доля навигационных страниц превысила 60%. В литературе по данной теме имеются указания на то, что навигационные страницы чаще встречаются на уровне сервера, либо одним уровнем ниже (www.aaa.tld или  www.aaa.tld/xxx)

Таблица 2

Распределение (в процентах) действующих сетевых страниц
по наполнению

Наполнение

Декабрь 1996

Февраль 2001

Навигация

50,4

61,3

Информация

49,6

38,7

Общее количество сайтов

361

124

В табл. 3 те же данные представлены в зависимости от восстановленных доменных имен верхнего уровня. Восстановленными в этом случае мы называем те доменные имена, которые так или иначе удается интерпретировать как «ведомственные», характеризующие отношение к организации – создателю сайта, например, co.jp – коммерческие (а не японские), ac.uk – научные (а не британские),  gob.mx  – правительственные ( а не мексиканские), net.de – сетевые ( а не немецкие) и т.д. Если не удается найти «ведомственное», или родовое доменное имя, мы оставляем код страны, и в табл. 3 такие сайты занимают строку ccTLD.

Легко увидеть, что со временем наблюдается увеличение доли страниц, расположенных на сайтах с доменным именем .com либо .mil, по сравнению с другими именами. Наибольшие потери понесли страницы, находящиеся на сайтах с географическим верхним доменом; возможно, причина в том, что происходит  миграция от достаточно безличных географических имен к более определенным и глобальным родовым именам типа gTLD: .com, .org, .net.

Таблица 3

Распределение (в процентах) действующих сетевых страниц
по доменным именам верхнего уровня

Доменное имя

Декабрь 1996

Февраль 2001

сom

32,1

37,9

edu

29,4

28,2

gov

5,0

4,0

ccTLD

16,3

9,8

mil

3,3

4,8

net

10,5

10,5

org

3,3

4,8

Общее количество сайтов

361

124

 

Сводные данные по устойчивости страниц в зависимости от их наполнения или доменного имени приведены в табл. 4. Ясно видно, что любые  страницы исчезают со временем, столь же ясно, что навигационные страницы демонстрируют большую живучесть.

Таблица 4

Распределение (в процентах) действующих сетевых страниц
по доменным именам верхнего уровня
с учетом наполнения сетевых страниц

Доменное имя

Декабрь 1996

Февраль 2001

 

информация

навигация

информация

навигация

com

39,7

60,3

34,0

66,0

edu

59,4

40,6

45,7

54,3

gov

38,9

61,1

20,0

80,0

ccTLD

61,0

39,0

50,0

50,0

mil

41,7

58,3

16,7

83,3

net

42,1

57,9

30,8

69,2

org

50,0

50,0

66,7

33,3

Общее количество сайтов

179

182

48

76

 

Исчезновение веб-страниц –
распределение коматозных страниц

На основании наших данных можно утверждать, что в трех случаях из четырех сетевая страница впадет в коматозное состояние; в 25% случаев первичная коматозность со временем исчезает. На рис. 3 показано распределение состояния коматозности с 10-недель­ным интервалом времени. Минимальное значение на этом рисунке – 0 – соответствует тем веб-страницам, которые никогда не теряли активность более чем на 5 недель; максимальное значение – 209 сайтов, молчавших за период наблюдения от 5 до 10 недель. Следует заметить, что полный набор (361 адрес) существовал только в начале эксперимента – на первой неделе наблюдений.

Табл.5 демонстрирует связь между предрасположенностью веб-страниц коматозному состоянию на определенный период времени и наполнением страниц. Как и прежде навигационные материалы более стабильны, чем содержательные. Следует также отметить, что вероятность окончательной гибели (т.е. молчания более 180 недель) информационных веб-страниц почти вдвое выше, чем навигационных.

Рисунок 3. Состояние коматозности веб-страниц.

Горизонтальная ось: промежуток времени (в неделях);
вертикальная ось: процент от всего массива веб-страниц.


Таблица 5

Распределение (в процентах) длительности молчания
коматозных сетевых страниц в зависимости от их наполнения

Число недель

Навигация

Информация

Количество веб-страниц

0 (никогда)

19,1

34,8

13,3

45

1–80 (иногда)

15,5

20,9

10,1

56

81–120 (умеренно)

33,0

28,6

37,4

119

121–180 (сильно)

20,8

17,6

24,0

75

более 181 (гибель)

11,6

 8,2

15,1

42

Как видно из табл. 5 и рис. 3, почти 20% общего набора веб-страниц никогда не впадали в коматозное состояние. Это не значит, что они всегда были активными, но их молчание никогда не продолжалось более 5 недель.

В табл. 6 приведены данные, подтверждающие значимость имени домена для предварительной оценки устойчивости сетевого документа. От материалов, расположенных на сайтах с доменами .org, .mil, .edu изначально можно ожидать большей устойчивости, чем от материалов на сайтах с именами .com, .gov, .net, ccTLD.

Интересно отметить неоднозначное поведение материалов на сайтах, посвященных проблемам высшей школы: около 35% являются коматозными в течение более половины общего времени наблюдения, при этом 24% сайтов вообще не исчезали, а еще 14% были активны по крайней мере 60% общего времени наблюдения.

Таблица 6

Распределение (в процентах) коматозных сетевых страниц
по присвоенным именам доменов верхнего уровня

Число недель

com

edu

gov

ccTLD

mil

net

org

0

17,2

23,6

16,7

15,3

25,0

15,8

25,0

1–80

16,4

14,2

5,6

11,9

25,0

18,4

33,3

81–120

42,2

28,3

50,0

23,7

25,0

28,9

25,0

121–180

17,2

21,7

22,2

32,2

8,3

18,4

8,3

более 181

6,9

12,3

5,6

16,9

16,7

18,4

8,3

Еще более сложную и развернутую картину, раскрывающую зависимость стабильности сетевых страниц от их наполнения и типа организации – содержателя сайта, показывает табл. 7.

Наблюдается существенная разница в том, как распределены сетевые страницы, никогда не терявшие активности («вечно живые»), а также сетевые страницы, навеки умолкнувшие (молчание более 180 недель). Например, среди коммерческих сайтов навеки (более чем на 180 недель) умолкли 62,5% навигационных страниц и лишь 37,5% страниц информационно-содержательных. При этом нужно помнить, что навигационные и содержательные страницы располагаются в различных позициях структуры данного сайта (навигационные – ближе к началу сайта, содержательные – поглубже).

Для тех же коммерческих сайтов отмечается, что 90% из постоянно активных страниц являются навигационными и лишь 10% – содержательными. В большей или меньшей степени такого рода картина наблюдается и для других сайтов, за исключением сайтов с материалами высшей школы (родовое доменное имя верхнего уровня .edu).

В причинах необычного поведения образовательных сайтов интересно разобраться, сравнивая их, например, с коммерческими сайтами.

Страницы коммерческих сайтов публикуются с намерением проинформировать потенциального покупателя о предоставляемых продуктах и услугах; изменения этих страниц происходят при каждом изменении цен, т.е. довольно часто. Однако справочно-навигационные страницы, указывающие путь как к старым, так и к новым продуктам, услугам и ценам, остаются неизменными на своем месте.

Некоторые страницы образовательных сайтов создавались с намерением сохранить их надолго. В то же время из табл. 7 ясно, что все 100% погибших страниц были содержательными, а 100% сохранившихся нетронутыми – навигационными. По-видимому, дело в том, что на образовательных сайтах присутствуют два типа материалов – долгоживущие публикации научных работ сотрудников университета и недолговечные учебно-методические материалы, предназначенные для поддержки обучения.

Таблица 7

Распределение (в процентах) коматозных сетевых страниц
по присвоенным именам доменов верхнего уровня

 

Сетевые страницы

Доменное имя

навигационные

содержательные

 

«вечно живые»

«погибшие»

«вечно живые»

«погибшие»

com

90,0

62,5

10,0

37,5

edu

44,0

0

56,0

100,0

gov

100,0

0

0

100,0

ccTLD

55,6

30,0

44,4

70,0

mil

66,7

50,0

33,3

50,0

net

50,0

71,4

50,0

28,6

org

0

100,0

100,0

0

 

Изменения сетевых страниц

Изменения сетевых страниц происходят при модификации их содержания, структуры гипертекстовых ссылок (добавлении или уничтожении). С тем программным обеспечением, которое имелось в нашем распоряжении, можно было достаточно легко обнаружить сами изменения в гиперссылках, но понять значимость этих изменений оказалось нелегко. Такого рода умозаключения, как правило, очень субъективны по природе своей. Например, в наблюдаемом массиве одна из веб-страниц менялась регулярно каждую неделю, поскольку автор для развлечения еженедельно менял размер графики на этой странице, никаких других изменений не вносилось. С точки зрения творца, это, быть может, и важно; с точки зрения информативности сайта, перемены ничего не значили.

В данной работе изучались два типа изменений: содержательные и структурные. Первые мы определяли как изменения в количестве байт на странице, а вторые – как изменения в структуре гиперссылок на данной странице. Конечно, количество байт на странице – далеко не идеальный показатель перемен, это сугубо количественный параметр, не имеющий отношения к самой сути содержания объекта. Можно в принципе придумать такие изменения, которые существенно искажают объект, не отражаясь на количестве байтов. Тем не менее подобного рода количественные изменения изучаются так называемыми историографами сети, которые фиксируют изменения в достаточно старых ресурсах, примерно десятилетней давности. Если автоматические приборы не регистрируют изменения в сетевом объекте, проводятся сеансы связи «вручную» для анализа состояния сайта.

На рис. 4 показана динамика недельного изменения сетевых страниц (в процентах к имеющемуся на данный момент количеству действующих страниц). На «дрожащей» кривой еженедельных флуктуаций мы сумели выделить три участка относительно долговременных тенденций. На первой стадии отмечается быстрое снижение темпа изменений, и затем – некое выравнивание на второй стадии, продолжающейся около двух лет. Этот уровень стабильного темпа соответствует еженедельным изменениям примерно 20% веб-страниц.  И, наконец, на третьей стадии развития сайта темп изменений резко снижается почти до нуля.

На рис. 5 приведены данные, отражающие исчезновение или изменение (в процентах) гиперссылок на сетевых страницах, а на рис. 6 – аналогичные данные о появлении новых гиперссылок.

 
(недели – с декабря 1996 г. по февраль 2001 г.)

Рис. 4. Динамика недельного изменения сетевых страниц
(в процентах к имеющемуся да данный момент числу действующих страниц)

 


(недели)

Рис. 5. Количество веб-страниц (в процентах), в которых менялась структура  

 

Рис. 6. Появление новых гиперссылок на веб-страницах

Рис. 5 и 6 параллельны друг другу и оба представляют собой зеркальное отражение рис. 4. Можно предположить, что структурные изменения, т.е. изменения в гиперссылках, происходят по двум основным причинам. Во-первых, авторы сетевых страниц естественным образом стремятся сохранить общую систему ссылок от своих веб-сайтов на другие сетевые материалы; по мере того как внешние ресурсы меняются или изменяют адрес, авторы стремятся отслеживать эти изменения и корректируют гиперссылки. Во-вторых, консервативных устремлений, у авторов существует тяга к инновациям и усовершенствованиям, поэтому  для усиления своей аргументации или просто развития темы они могут добавлять, менять или убирать гиперссылки.

Можно допустить, что добавление, изменение или исчезновение гиперссылок  не столь заметно влияет на суть сетевой страницы – по сравнению с текстовыми изменениями или сменой графики. И все же, представьте, что произойдет, если кто-то изменит отсылки на работы К. Маркса, В.И. Ленина отсылками к трудам Вани или Пети, либо произведения Микельанджело, Донателло, Рафаэля припишет, например, черепахам с теми же именами.

 

Величина омега как мерило перемен

В своей предыдущей работе мы ввели понятие меры изменений во времени содержания или структуры отдельных сетевых страниц и назвали эту величину омега. Этот подход идентичен предложенному Брюингтоном и Цыбенко относительно динамического мониторинга изменений в истории сетевых документов с целью последующего предсказания грядущих перемен на сайте. Омега может также использоваться для нахождения средних значений. Проще говоря, омега характеризует частотность перемен (в процентах) на данной сетевой странице или группе страниц, отмеченную за определенный промежуток времени существования веб-страниц.

Величина омега качественно отличается от того, что представлено на рис. 4–6. Там показаны суммарные изменения в содержании или структуре страниц, относящиеся ко всему экспериментальному набору и на какой-то определенный момент времени, в то время как омега характеризует изменения во времени одной конкретной веб-страницы (или нескольких страниц). Чем больше величина омега, тем более активно изменяются во времени одна или несколько веб-страниц. В табл. 8–10 представлены значения величины омега для всего экспериментального набора как функция времени наблюдения, имени домена, наполнения страниц.

Из табл. 8 следует, что за весь период наблюдений набор менялся в течение 32,2% общего времени, а по данным табл. 9 видно, что страницы, относящиеся к доменному имени .com, менялись в среднем в течение 34,4% времени; а навигационные страницы (табл. 10) менялись в течение 33,1% времени.

Таблица 8

Величина омега для всего изучаемого массива веб-страниц
за весь период наблюдения

Время наблюдения

Величина омега
(в процентах)

Весь период

32.2

Первый год

26,8

Второй год

19,1

Третий год

21,9

Четвертый год

35,0

Данные табл. 8 указывают на наличие двух стадий в изменениях величины омега для всего набора. За первые три года омега уменьшилась почти на 8%, а в последний год наблюдений резко увеличилась. Это могло быть отчасти вследствие растущего темпа впадания страниц в коматозное состояние: коматозные и фантомные сетевые страницы не участвуют в определении величины омега.

Таблица 9

Темп изменений содержания сетевых страниц (величина омега)
в зависимости от восстановленного имени домена верхнего уровня

Имя домена

Величина омега (в процентах)

 

за все время

за 1 год

за 2 года

за 3 года

за 4 года

.com

34,4

31,7

23,7

26,1

35,5

.edu

29,1

22,7

15,0

17,4

30,8

.gov

31,0

21,7

16,4

16,9

33,5

ccTLD

35,6

25,4

15,1

22,6

38,7

.mil

32,1

32,7

28,8

31,5

38,4

.net

31,5

27,8

18,0

17,7

34,9

.org

26,4

21,2

23,1

23,4

45,8

Общее число веб-страниц
(в процентах)

32,2

26,8

19,1

21,9

35,0

 

Таблица 10

Темп изменений содержания сетевых страниц всего набора
(величина омега) в зависимости от наполнения страниц

 

Величина омега в (процентах)

Наполнение страницы

за все время

за 1 год

за 2 года

за 3 года

за 4 года

Навигационные

33,1

31,4

23,1

23,8

36,3

Содержательные

31,3

22,1

14,4

19,3

33,0

Общее количество веб-страниц

32,2

26,8

19,1

21,9

35,0

Из данных табл. 10 видны существенные вариации в величинах омега для сетевых страниц, расположенных на сайтах с различными именами домена верхнего уровня (не столь упрощенное поведение – сначала падение и затем рост, как это следует из табл. 7). Столь же непростое поведение величины омега зафиксировано и по отношению к наполнению страниц.

Данные табл. 8–10 можно интерпретировать в том смысле, что весь набор веб-страниц с течением времени претерпевает драматические перемены.

Более внимательное рассмотрение кривых на каждом из рисунков дает возможность проследить различную динамику поведения страниц. На рис. 7–11 показано распределение сетевых страниц по величине омега, при этом рис. 7 относится ко всему  периоду наблюдений, а рисунки 8–11 – последовательно по годам. На всех пяти рисунках отмечается уклон вправо, т.е. превалирование в сторону меньших величин омега, а не больших. В каждом последующем году правый уклон становится все более ярко выраженным.

Рис. 7. Изменения, произошедшие в сетевых страницах
за весь период наблюдения

 

Рис. 8. Изменения в сетевых страницах за первый год наблюдения

 

Рис. 9. Изменения в сетевых страницах за второй год наблюдений

 

Рис. 10. Изменения в сетевых страницах за третий год наблюдений

 

Рис. 11. Изменения в сетевых страницах за четвертый год наблюдений

Рост омега за четвертый год наблюдений, как видно из таблиц 8–10, является результатом относительного увеличения случаев на крайней правой части гистограмм. Эти «выбросы» и сказываются на величине средних значений для всего массива веб-страниц.

Можно предположить, что по мере старения сетевых страниц основная часть массива становится более устойчивой, «успокаивается», но остается «неугомонная» группа страниц с очень высокими значениями величины омега.

 

Заключение

Наше исследование показывает, что многие тонкости и детали сети еще только предстоит изучить. Следует самым внимательным образом разобраться в целях создания, функционировании и использовании сетевых страниц и веб-сайтов. Пока же многие из них слишком похожи друг на друга – расположением материала, цветом текста, периодичностью выпуска, политикой продвижения на рынок и т.п. Если, к примеру, кто-то положит перед вами две популярные газеты, допустим, «Нью-Йорк Таймс» и «Дэйли Ньюс», полагаю, что большинство из вас легко, почти автоматически их различит – по содержанию, качеству и другим характерным чертам. С сетевыми страницами так не получится, поэтому перед тем как создавать классификации веб-страниц, хорошо бы научиться различать их и определить природу этих отличий.

Долговечность сетевых страниц является сложной функцией типа домена и предназначения страницы. По сравнению с содержательным страницами навигационные страницы коммерческих сайтов намного реже впадают в коматозное состояние. Это относится не только к материалам по образованию, в которых содержательные страницы устойчивее навигационных. Конечно, это следствие различного назначения указанных типов страниц.

В свое время О’Нейл и Лавуа (O’Neill E.T., Lavoie B.F.) показали, что сетевые страницы схожи скорее с периодическими изданиями, а не с монографиями, и их следует каталогизировать, а не индексировать; трудно с этим согласиться. Правда состоит в том, что периодика изменчива, в том смысле, что регулярно приходят новые номера (выпуски), и содержание статей достаточно различно. Но как только номер либо статья поступили к вам, их содержание оказывается постоянным (или примерно так). Ввиду различного темпа утраты активности навигационными страницами по сравнению с содержательными, может быть, разумнее библиографически обрабатывать сетевые документы  в достаточно общем виде и уровень каталогизации относить к навигационным страницам, а не к содержательным.

Наши данные показывают, что в целом по мере старения сетевых документов темп их исчезновения соответствует уменьшению вдвое за два года. Можно (при тщательной селекции) подобрать такой массив, который будет более устойчив. Кроме того, темп распада коллекции уменьшается по мере ее старения – как в отношении полной потери активности, так и в отношении вероятности временного отключения (впадения в коматозное состояние). Поэтому смело можно считать, что «молодые» страницы неустойчивы, но со временем становятся более стабильными. Вероятнее всего, это происходит потому, что авторы страниц понемногу успокаиваются и не так часто вносят изменения в свои творения – то ли удовлетворяется содеянным, то ли теряют интерес.

Исследователи сети (сетевые библиографы) могут сделать для себя важные выводы из данной работы. Эфемерная суть сетевых документов затрудняет пользование ими, равно как и их каталогами. Тем не менее, если ограничить себя в основном «повзрослевшими», выдержанными во времени документами, то каталогизация имеет смысл; выпуск печатных версий каталогов сетевых документов не нужен.

Это также означает, что в целом каталогизация сетевых ресурсов не столь бессмысленна, как это казалось ранее.


Copyright © 1995-2002 ГПНТБ России