УДК 002:31

Сколько информации создано в 2003 году?

От редакции. Это перевод сокращенной версии Отчета об исследовании (Executive Summary), выполненном в Институте управления информацией и информационных систем (School of Information Management and Systems) университета штата Калифорния в Беркли (University of California, Berkley). Отчет опубликован в Интернете (www.sims.berkley.edu/research/projects, по этому же адресу можно найти более детальное описание исследования и обсуждение вопросов методики.

Проект поддержан компаниями Microsoft Research, Intel, Hewlett Packard, EMC. Координатор проекта Кирстен Сверинген (Kirsten Swearingen), ведущие исследователи - Питер Лайман (Peter Lyman), Хэл Вариан (Hal R. Varian).

Наш сборник неоднократно обращался к проблемам библиотечной статистики, считая ее одним их важнейших элементов управления библиотекой. Данное исследование носит глобальный характер. Учитывая естественные для объема журнальной статьи ограничения, мы приводим только выводы и таблицы, поэтому текст оказался предельно насыщенным фактическим материалом и лаконичным. Это не страшно - любая таблица будирует работу мысли и тягу к рассуждениям.

Исследование американских коллег может оказаться довольно полезным для любителей статистики, практикующих библиотекарей, специалистов по информации и студентов. Не исключено, что и экологи могут воспользоваться, например, данными по относительным долям различного вида документов.

Авторитет Университета Беркли и Калифорнийского технологического института достаточен, чтобы отнестись к приведенным цифрам с максимальным вниманием. Сложный и противоречивый характер изучаемых данных заставил авторов весьма тщательно подойти к вопросам оценки достоверности результатов. Всем желающим проверить правильность методических подходов мы рекомендуем ознакомиться с полным текстом Отчета. Кстати, сами авторы обращаются к читателям с просьбой вносить предложения по усовершенствованию методологии исследования.

Приводимые авторами в некоторых случаях сравнительные данные по США могут использоваться как ориентировочные для определения направления развития, ибо пока что в информационно-коммуникационных технологиях эта страна существенно опережает остальных.

* * *

Методология. Обследование начато в 2000 г., при этом использованы статистические данные за 1999 г. Летом 2003 г. обследование повторено на базе данных 2002 г., добавлено обследование поверхностной части Интернета (сети WWW) и оценки его глубинной компоненты. Изучено количество вновь созданной информации и информационные потоки.

Информация создается на совершенно различных носителях и записывается различным образом, поэтому при проведении обследования серьезной проблемой стало определение методик, позволяющих сравнить количество информации, объем содержания. В качестве единой меры избран терабайт. Преимущества использования единого стандарта при сравнении объемов информации, записанной на самых разных носителях, вполне понятны. Однако приведение к единому знаменателю не всегда оказывается простым делом. В ряде случаев документальной основы было недостаточно для проведения обследования.

При сравнительных оценках как базовые использовались наработки Калифорнийского технологического института, в частности работа Роя Вильямса "Возведение в десятую степень" (Roy Williams. Data Powers of Ten). Для цифровых массивов вопрос их объема самоочевиден. Для аналоговых документов (фото- и кинопленка, текст, изображения, звук и т.п.) в качестве верхней оценки принимался объем цифровой информации, полученный при оцифровке указанного документа в электронный формат с использованием промышленных стандартов. Для выработки нижней оценки применялись также промышленные стандарты компрессии данных (сжатия) и собственные оценки дублирования содержания.

Отсканированный при разрешении 600 точек на дюйм текст может быть "сжатым" примерно в 100 раз. Версия фильма, представленного на DVD, по объему памяти может быть в 1000 раз компактнее своего оригинала. В целом уровень компрессии может значительно варьироваться в зависимости от предполагаемого использования, и мы в своих оценках должны были полагаться на некий средний "разумный" уровень. Такая гибкость составляет один из полезных элементов цифровой технологии. Конечно, во всех этих оценках никоим образом не затрагивался вопрос качества содержания, его полезности или доступности.

Достаточно сложно отличить копию информационной программы от оригинала. Например, бумажная версия газеты, как правило, имеет сетевую версию, а архивная копия сохраняется на микрофильме. По сути в настоящее время большинство создаваемых документов имеют цифровую копию и архивируются в цифровом формате на магнитном носителе. Значительное количество повторов можно обнаружить и внутри каждого вида документов: например, многие газеты публикуют обзоры финансовых рынков и биржевые показатели; повторяют информацию, полученную из других источников новостей (в том числе из новостных агентств); помещают одни и те же объявления и т.д. Эффект повторяемости особенно значим для цифровых документов, поскольку существенная часть записанного на жестких дисках компьютера не является оригинальной информацией. Мы в своем обследовании по мере сил старались учитывать все эти эффекты.

Масштабы. Пояснение масштаба величин и некоторые ориентировочные примеры даны в табл. 1 (по вышеупомянутой работе Р. Вильямса).

Таблица 1

Что такое экзабайт? Пояснение масштаба величин и некоторые ориентировочные примеры

Сколько информации создается и передается. Вновь созданная информация записывается на четырех видах физических носителей - печатном, пленке, магнитном, оптическом - и может доставляться потребителю по четырем электронным каналам: телефону, радиовещанию, телевидению, Интернету.

В табл. 2 приведены верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на различных носителях. Привязка во времени приводимых в таблице показателей несколько различается: по бумажным и пленочным носителям данные в основном за 2001 г., а по оптическим и магнитным - в основном за 2002 г. Относительная доля данного конкретного носителя в общем объеме вновь произведенной информации - в процентах по верхней (первая цифра диапазона) и по нижней (вторая цифра диапазона) оценкам. В последнем столбце показаны изменения в верхних оценках за период между 1999 и 2002 гг.

Таблица 2

Верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на различных носителях

Всего в 2002 г. создано и записано примерно 5 экзабайт новой информации, при этом от 92% до 98% этой информации записано на магнитных носителях, в первую очередь на компьютерных жестких дисках. На пленке записано 7% - 0,2%, на бумаге - 0,03% - 0,01%, на оптических носителях - 0,001% - 0,002%.

В США производится около 40% от всей мировой информации, а в объеме информации, записанной на различных носителях, доля США составляет от 30% до 50%.

В среднем на душу населения в мире производится 800 мегабайт новой информации в год. Что касается записи информации на пленке, то наблюдается процесс миграции в сторону цифровых форматов.

Если говорить об оценках динамики развития, то за период между 1999 и 2002 гг. объем вновь производимой информации вырос вдвое (30% в год).

Бумажные носители. По поводу модной одно время метафоры "безбумажное общество" нужно отметить, что количество информации, зафиксированной на бумажном носителе, пока продолжает расти. Большую часть этого потока составляют документы, производимые индивидуально в офисах и для почтовой рассылки, а не обычные публикации (книги, журналы, газеты).

Из одного срубленного дерева можно сделать 80 500 страниц бумаги. Поэтому для обеспечения той информации, что фиксируется на бумажных носителях, каждый год необходимо срубать 786 млн деревьев. По данным Справочника ЮНЕСКО за 1999 г. в мире в среднем произведено 1 519 листов бумаги на человека, при этом потребление бумаги в Северной Америке - 11 916 листов, в Европейском Союзе - 7 280 листов в год на каждого жителя. По крайней мере половина бумаги израсходована в принтерах и копировальных аппаратах при производстве внутриофисной документации.

В табл. 3 приведены верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на бумажных носителях в различного вида документах. Относительная доля каждого вида документа в общем объеме вновь произведенной информации - в процентах по верхней (первая цифра диапазона) и по нижней (вторая цифра диапазона) оценкам. В последнем столбце показаны изменения в верхних оценках за период между 1999 и 2002 гг.

Таблица 3

Верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на бумажных носителях

Решающий вклад в рост бумажной информации связан с работой компьютерных принтеров в офисах, при этом наиболее быстрый рост объема офисной документации наблюдается в США.

Можно также отметить увеличение числа документов, публикуемых одновременно в печатном и электронном форматах. Рост числа наименований газет в развивающихся странах отчасти связан с улучшением статистики.

Интересными могут оказаться данные по печатной продукции США, представленные в табл. 4.

Таблица 4

Печатная продукция США в 2002 г., верхняя оценка, а также изменения в верхних оценках за период между 1999 и 2002 гг.

На долю США приходится 35% мировой печатной информации и 40% мирового потока открыток и писем.

Примерно половина американской почты - письма, а вторая половина - рекламный "мусор". Если принять средний объем письма в 2 страницы и в оцифрованном виде считать около 15 килобайт на страницу, то в сумме американская почта достигает объема 6,2 петабайт.

Пленка. Этот традиционный для аналоговых документов носитель постепенно вытесняется цифровыми технологиями. С 1999 г. наблюдается уменьшение количества пленочных фотографий и бурный рост числа цифровых фотографий. В 2002 г. продано 27,5 млн цифровых камер и 63 млн обычных фотокамер. Кино и телевидение понемногу превращаются в цифровые, поскольку для этих технологий редактирование программ оказывается намного проще и дешевле. Все шире применяются цифровые технологии изображений в медицинской практике, хотя для рентгеновских снимков пленка пока дешевле, чем цифровая картина. В развивающихся странах растет производство новых кинокартин и телепрограмм.

Всего с 1890 по 2002 г. в мире произведено примерно 370 тыс. картин; если просматривать все созданное в кино и на видео, то сеанс продлится 2 108 лет.

В табл. 5 приведены верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на пленке в различного вида документах. Относительная доля данного вида документа в общем объеме вновь произведенной информации - в процентах по верхней (первая цифра диапазона) и по нижней (вторая цифра диапазона) оценкам. В последнем столбце показаны изменения в верхних оценках за период между 1999 и 2002 гг.

Таблица 5

Верхние и нижние оценки мирового производства информации, зафиксированной на пленке, в 2002 г.

Магнитные носители. Аналоговые видео- и аудиозаписи понемногу вытесняются цифровыми, при этом цифровые ленточные носители остаются основным средством для архивирования записей. Быстрее всех других типов магнитных носителей растет технология записи на жестких компьютерных дисках, она позволяет использовать самые различные протоколы и стандарты записи и обеспечивает широкий диапазон возможных средств обработки информации. В табл. 6 приведены данные по мировому производству в 2002 г. новой информации и записи на магнитных носителях различного типа. Здесь верхние и нижние оценки совпадают, ибо технология компрессии используется изначально.

Таблица 6

Мировое производство новой информации в 2002 г. и запись на магнитных носителях различного типа

Оптические носители. Это тип носителя чаще используется для распространения готовых программных продуктов, массивов и баз данных, кинофильмов и музыкальных произведений, в общем объеме записей его роль незначительна. Отметим падение выпуска и продаж аудиодисков типа CD-ROM, которые вытесняются все более популярными оптическими дисками с возможностью перезаписи (CD-R и CD-RW). Диски DVD демонстрируют самое динамичное проникновение на рынок по сравнению с другими новыми технологиями; этот процесс наиболее активно идет в промышленно развитых странах.

В табл. 7 приведены верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на различного вида оптических носителях. Относительная доля этого вида носителя в общем объеме вновь произведенной информации - в процентах по верхней (первая цифра диапазона) и по нижней (вторая цифра диапазона) оценкам. В последнем столбце показаны изменения в верхних оценках за период между 1999 и 2002 гг. В табл. 8 представлены те же данные по США.

Таблица 7

Верхние и нижние оценки мирового производства информации в 2002 г., зафиксированной на различного вида оптических носителях, а также изменения в верхних оценках за период между 1999 и 2002 гг.

Таблица 8

Верхние и нижние оценки производства информации в США в 2002 г., зафиксированной на различного вида оптических носителях, а также изменения в верхних оценках за период между 1999 и 2002 гг.

Какие потоки новой информации передаются по электронным каналам?

Поток новой информации по электронным каналам (телефон, радио, ТВ, Интернет) составлял в 2002 г. около 18 экзабайт, т.е. в 3,5 раза больше того, что было зафиксировано на материальных носителях. 98% этого потока составляют телефонные переговоры - как по обычному, так и по мобильному телефону (см. табл. 9).

Таблица 9

Потоки новой информации, передаваемой по различным электронным каналам в 2002 г.

Радиовещание. Значительная часть содержания, транслируемого по сетям радио- и телевещания, не является новой: для радиовещания из 320 млн часов вещания только 70 млн (эквивалент - 3 500 терабайт) представляют новые материалы, остальное вещание - повтор (повторная "прокрутка" рекламы, новостей, концертов и т.д.). Что касается телевидения, то из 123 млн часов вещания оригинальные программы занимают не более 31 млн часов (эквивалент 70 тыс. терабайт). Данные представлены в табл. 10.

Таблица 10

Производство новых программ в мире за 2003 г.

Таблица 11

Показатели радиовещания и телевидения в США в 2003 г.

Телефон. На 2002 г. в мире имеется 1,1 млрд базовых телефонных номеров и с каждого осуществляется 3 441 минута переговоров в год, в общем 3 785 млрд минут. При показателях конверсии примерно 64 килобайта в секунду, указанный объем переговоров займет 15 терабайт информации, большая часть которой является оригинальной, неповторяющейся. В США имеется 190 млн номеров, каждый из которых работает в сутки около одного часа; в основном это местные звонки, использование модемов, факсов и т.д. Запись всех ведущихся в США телефонных переговоров каждый год занимает примерно 9,25 экзабайт памяти. Количество обычных телефонов в США уменьшилось на 5 млн номеров, поскольку мобильные телефоны составляют сейчас 43% от всех номеров американских телефонов. По мобильным телефонам за год американцы говорят 600 млрд минут, что эквивалентно объему памяти для записи 2,3 экзабайта.

Объем телефонных переговоров в мире, терабайт:

по обычным телефонам 15 000 000
по мобильным телефонам 2 300 000
Всего 17 300 000

Интернет. Интернет - наиболее молодая технология передачи данных - растет быстрее всех других и превращается в средство первой (неотложной) помощи при возникновении каких-либо информационных запросов. Сеть WWW содержит 170 терабайт информации в своей поверхностной части, т.е. на фиксированных сетевых страницах. Так называемая глубинная часть сети возникает при формировании ответов на запрос, например при обращении к базам данных. В 2002 г. доступ к Интернету имели 600 млн человек в мире (от редакции: в 2004 г. 801 млн человек в мире являлись пользователями Интернета), в США Интернет доступен 30% жителей.

Объем различных компонент Интернета в 2002 г., терабайт

Поверхностная часть сети 167
Глубинная часть сети 91 850
Электронная почта (новые сообщения) 440 000
Мгновенные сообщения 274
Всего 532 897

Географическое распределение пользователей Интернета в 2002 г., млн человек (данные компании Nielsen):

Африка 6,31
Азия, Тихоокеанский регион 187,24
Европа 190,91
Ближний Восток 5,12
США и Канада 182,67
Латинская Америка 33,35

Согласно данным компании Nielsen в среднем пользователь Интернета проводит в сети 11 часов 24 минуты в месяц, а в США - вдвое больше: 25 часов 25 минут - при выходе в сеть с домашнего компьютера и 74 часа 26 минут - из офиса. По данным компаний Pew Internet и American Life Project в США Интернет используется для отправки электронной почты (52%), получения новостей (32%), поиска информации (29%), прогулок в сети (23%), исследовательской работы (19%), знакомства с прогнозом погоды (17%) и для мгновенных сообщений (14%).

Сеть WWW. В 2000 г. объем информации в сети оценивался в диапазоне от 20 до 50 терабайт. Мы полагаем, что в 2003 г. объем поверхностной сети составлял 167 терабайт, т.е. утроился. По данным компании Bright Planet глубинная сеть в 400-450 раз больше, чем поверхностная, т.е. составляет от 66 800 до 91 850 терабайт.

Средний размер HTML-страницы - 605 килобайт, при этом 23% страниц имеют изображения, 4% - вставки из кинофильмов, 20% - приложения Javascript. Насчитывается около 2,9 млн активных веблогов, в которых содержится 81 гигабайт информации.

Электронная почта. Электронная почта - второй по значимости и объему (после телефона) канал передачи электронных документов. Каждый день отправляется 31 млрд сообщений по электронной почте (данные компании IDC). Средний размер послания - 59 килобайт, и электронная почта генерирует примерно 441 000 терабайт (верхняя оценка) новой информации в год (за вычетом спама); нижняя оценка составляет 334 000 терабайт в год. Годовой объем передачи информации по электронной почте достигает 667 585 терабайт. Среди населения США 35% являются пользователями электронной почты и работа с почтой занимает 35% времени, уделяемого Интернету. 60% служащих, имеющих доступ к почте, получают до 10 сообщений в день, 23% - более 20, а 6% - более 50.

Мгновенные сообщения (Instant messaging). В сутки передается 5 млрд мгновенных сообщений (750 гигабайт), что в год составляет 274 терабайта. В США 40% пользователей "домашнего" Интернета и 31% пользователей Интернета в офисах участвуют в обмене информацией по этой технологии.

Обмен файлами по одноранговой технологии P2P. Этот вид передачи информации быстро растет. Наиболее популярный сегодня сервер KaZaA отчитался о 230 млн выгрузок, в среднем более 2 млн за неделю (данные взяты на сервере компании Download.com). Общее достояние KaZaA - 5 тыс. терабайт информации; около 600 млн файлов являются активными в каждый момент. Исследуя состав пользователей в течение 24 часов, мы обнаружили, что 7% пользователей участвуют в системе обмена файлами, 93% заняты только выгрузкой (потреблением); наиболее "тяжелые" видеофайлы, как правило, превосходят 100 мегабайт каждый, но чаще происходит обмен музыкальными файлами в формате MP3.

Согласно обследованиям, проведенным компанией Nielsen, в среднем в месяц взрослый американец использует телефон 16 часов, слушает радио 90 часов и смотрит телепередачи 131 час. Более 53% американцев имеют в доме и пользуются домашним Интернетом 26 часов в месяц, а на работе - 74 часа (или 13% всего рабочего времени).

Полностью отчет опубликован на сайте http://www.sims.berkley/edu/research/projects.