Home page | Каталоги и базы данных

Научные и технические библиотеки
Вебер Х., Дерр М.

Оцифровка как метод обеспечения сохранности?

(продолжение)

3. Рекомендации по оцифровке микрофильмов

3.1. Качество изображения

Если микрофильм высокого качества пригоден как носитель для долговременного хранения, качество производства оцифрованной версии будет определяться теми целями, для которых она делается. Другими словами, оцифровка микрофильма, как правило, не должна нацеливаться на максимально наилучший результат — в отличие от того случая, когда конверсия в цифровую форму ведется прямо с оригинала, находящегося в опасности.

Двухтоновая оцифровка вполне подходит для обработки печатного текста, включая чертежи и графики, другие современные безударные способы печати (пластиковая угольная лента, струйный или лазерный принтер) на панхроматической противоореольной микропленке AHU. Полутона серого цвета должны применяться для оцифровки следующих видов материала: рукописи, рисунки карандашом и пером, текст, напечатанный на пишущей машинке с шелковой лентой, цветные иллюстрации и рисунки, другие материалы, где варьируются серые тона; черно-белые и цветные фото. Серая шкала с 16 градациями (необходимо 4 бита) вполне достаточна при оцифровке контрастной противоореольной пленки AHU. При оцифровке фильма с полутонами требуется серая шкала с 126 градациями (16-битовая). Оцифровка с применением развернутой шкалы градаций серого цвета предъявляет серьезные требования к хранению и резко удорожает процесс на всех стадиях. Поэтому применять эту технологию нужно только при ясно выраженной необходимости.

При оцифровке с пленки разрешение определяется размером наименьшего элемента, который следует сделать ясно различимым. Для печатного текста это высота строчной буквы е, для рукописи — двойная ширина буквы (см. 2.1). В применении соответствующих формул по индексу качества требования к пространственной разрешающей способности определяются исходя из размера этих элементов.

Для двухтоновой оцифровки индекс качества вычисляется по формуле

.

Для оцифровки с градацией серого цвета соответствующая формула

,

где а — пространственная разрешающая способность в точках на дюйм (dpi), h — высота буквы е (в миллиметрах).

Воспроизведение буквы е высотой 1 мм с высоким качеством потребует пространственного разрешения 615 dpi для 2-тоновой оцифровки и 410 dpi для 256-тоновой; со средним качеством — 385 dpi для 2-тоновой и 256 dpi для 256-тоновой; с невысоким качеством — 277 dpi для 2-тоновой и 185 dpi для 256-тоновой оцифровке.

Имея резерв достижения высокого качества, заложенный в микропленке, вполне достаточно (для огромного большинства возможных применений) проводить оцифровку под среднее качество воспроизведения. Необходимое пространственное разрешение может рассчитываться исходя из показателя качества QI = 5 для среднего качества следующим образом:

пространственное разрешение в dpi

,

где h — высота буквы е; если высота буквы е 1 мм, мы получим величину требуемого разрешения 384.

При оцифровке с полной шкалой серого цвета формула приобретает вид

,

что для буквы е той же высоты дает величину требуемого разрешения 256. Буквы такого размера (высотой около 7 pt) часто используются в тексте примечаний.

Для ориентировки можно рекомендовать разрешение 350—400 dpi для 2-тоновой оцифровки и 250—300 dpi для полноценной шкалы серого цвета. Пробные прогоны с типовой пленкой должны помочь в определении необходимого уровня качества для каждого конкретного случая.

3.2 Форма хранения

Хранение массива данных оцифрованного изображения можно осуществлять либо на магнитной ленте цифрового магнитофона (digital audio tape — DAT), либо на записывающем оптическом компакт-диске CD—R (recordable). Независимость считывания от конкретных аппаратных средств обеспечивается стандартизацией (стандарт DIN 66211 для DAT и стандарт ISO 9660 для CD—R). Можно полагать, что существующие возможности памяти (650 Мегабайт для CD—R и 2 Гигабайта для ленты DAT) будут в ближайшем будущем увеличены.

С точки зрения практических свойств CD—R имеет преимущества, поскольку обеспечивает лучшую сохранность данных, а надежность хранения данных на ленте самым существенным образом зависит от натяжения ленты, которое может меняться во время транспортировки. CD—R также предоставляет возможность прямого доступа через пользовательский интерфейс к изображению сразу же после записи; тем самым создаются дополнительные возможности контроля качества без необходимости переписывать все на жесткий диск компьютера.

В контракте с исполнителем достаточно важно предусмотреть обязательство хранить конвертированный материал в течение достаточного времени для проведения контроля выполненной работы и тем самым обезопасить покупателя.

Машиночитаемая форма считается хранимой безопасно в том случае, если сжатые или несжатые данные изображения находятся по крайней мере на двух разных носителях. При этом проводится сверка идентичности изображений и удобства считывания. В простейшем случае два носителя одной и той же информации ("первичный носитель" и "рабочая копия") создаются повторной записью данных изображения.

Для обеспечения сохранения читаемости первичного носителя рабочие дубликаты должны производиться методом многократного копирования; испытания на разархивирование каждой хранящейся цифровой копии обеспечивают дальнейшую сохранность данных (см. 5.3).

3.3. Формат, сжатие данных (компрессия)

Данные изображения должны поставляться нужным образом (т. е. чтобы считывание проводилось без поворотов) и соответствовать возможно большему числу будущих применений. Модельным форматом для данных изображения является обычно формат TIFF (Tagged Image File Format), преимущество которого в том, что он в отличие, например от также хорошо известного формата Windows Bitmap, в значительной степени не зависит от платформы; кроме того, возможно считывание и дальнейшая обработка на произвольном оборудовании с различными системами и программами. Следует, однако, заметить, что несмотря на тщательную стандартизацию, формат TIFF допускает некоторые вариации, которые могут оказаться несовместимыми с установленным у вас программным обеспечением. И в этом случае также рекомендуются детальное предварительное рассмотрение и проведение пробных оцифровок.

Формат TIFF работает как со сжатыми, так и с несжатыми массивами данных, при этом формат TIFF G4 обеспечивает компрессию черно-белого материала без потери. Конечно, если процедура сжатия без потерь является доступной, она должна применяться с целью экономии объемов необходимой памяти. Но поскольку не все без исключения программы могут работать со сжатыми данными в формате TIFF, соответствующую совместимость следовало бы опробовать заранее. В любом сомнительном случае следует рекомендовать работу с несжатыми массивами. Широко используемый для передачи и хранения данных оцифровки полутоновых и цветных фотографий формат, разработанный объединенной группой экспертов по фотографии (JPEG — Joint Photographic Experts Group), работает в режиме переменных коэффициентов сжатия и поэтому не рекомендуется.

Поскольку данные изображения могут быть организованы различным образом, желательно согласовать с фирмой-поставщиком организацию материала, соответствующую каждому возможному применению. Как правило, каждое изображение нужно хранить как отдельный файл. Подборка серии изображений в один файл (multiple TIFF) допускается лишь в том случае, если документ состоит из немногих страниц.

Для последующей работы в Интернет желательно конвертировать данные в независимый от платформы формат, который допускал бы работу с различными видами документов. Подобные услуги по конвертированию сегодня предлагаются многими специализированными компаниями. При возможности такое конвертирование должно быть предусмотрено в контракте на оцифровку.

3.4. Требования к программному обеспечению для просмотра изображения

Существует великое множество программ для просмотра или обработки оцифрованных изображений как в среде PC, так и в среде UNIX. Среди них — программа "Viewer", которая применяется в государственных организациях и продается по весьма сходной цене. В каждой организации рекомендуется установить только одну специфически подходящую и стандартизованную программу, совместимость которой с форматами оцифровки должна быть самым тщательным образом проверена и испытана заранее.

Как правило просмотровая программа должна допускать: возможность пролистывания вперед и назад; просмотр изображения на полном экране; увеличение как всего изображения, так и отдельных его частей; уменьшение изображения; опцию восстановления первоначального размера объекта; поворот изображения; обращение (инвертирование) изображения; показ технологических записей из заголовка (размер оригинального изображения, пространственное разрешение, формат, количество битов); команду на распечатку. Кроме того, весьма полезно иметь опцию конверсии изображения или сжатия массива. Например, в UNIX доступна программа World XV. В зависимости от установленного компьютера соответствующие просмотровые программы могут предлагаться поставщиком операционных систем (например HP-UX imageview программа). Для PC назовем в качестве примера программу Imaging for Windows, которая поставляется за дополнительную плату с платформой Windows 95. Другими примерами подходящих программ могут быть PixView 2.1, предлагаемая компанией Pixel Translation; ScanMos — компании MS Electronics Service и, с некоторыми ограничениями, Hijaak Pro 2.0, выпускаемая компанией North Americ an Software.

Программное обеспечение для обработки и показа оцифрованных изображений и для быстрого доступа должно выбираться с учетом будущих специальных применений. Требования, которые вкратце изложены здесь, могут служить критериями качества работы просмотровых компонент прикладного программного обеспечения.

3.5. Требования к компьютеру для просмотра изображений

В каждой организации, участвующей в проекте оцифровки, должна быть предусмотрена установка компьютеров, которые можно применять для инспекции или просмотра оцифрованных изображений. Сравнительно большой объем данных, занимаемый оцифрованным изображением (в отличие, например, от документальных текстовых файлов), предъявляет к компьютерам более высокие требования по возможности передачи данных и объему оперативной памяти RAM — если предполагается оставить время извлечения изображения из памяти в разумных пределах. Минимальным требованиям отвечают PC с процессорами 486 и тактовой частотой 66 МГц или Пентиум, с операционной системой Windows 3.11 и выше, оперативной памятью RAM 16 Гбайт и жестким диском с памятью в диапазоне нескольких Гигабайт.

В контексте эргономических требований к рабочей станции особое внимание должно быть уделено размеру экрана дисплея (по крайней мере с диагональю 17 дюймов), быстродействию, наличию графической карты и соответствующих драйверов. Обычные экраны дисплеев PC с диагональю 14 дюймов не подходят для представления изображений, не говоря о разрешающей способности. (Разрешающая способность обычного цветного экрана PC около 75 dpi, поэтому придется снижать разрешение, чтобы воспроизвести его на экране.) Большие экраны, специально предназначенные для воспроизведения изображений, могут обеспечивать лучшее качество — до 120 dpi. В принципе цифровая конверсия может дать более высокое разрешение, но оно становится нужным и заметным только при работе с повышенным увеличением в какой-либо части экрана (zooming).

3.6. Долговременная сохранность машиночитаемой формы

Конвертированный материал должен сохраняться в течение длительного времени, даже если в вашем распоряжении имеются высококачественная микроформа и система конверсии в машиночитаемую форму, что при необходимости обеспечивает возможность повторной операции оцифровки. Повторная оцифровка должна быть категорически отвергнута, даже только по финансовым соображениям. С учетом все возрастающей важности электронных информационных систем для исследований и образования, следует предусмотреть возможность весьма разнообразных применений оцифрованных изображений. Это означает, что полный массив должен сохраняться как можно дольше и без потерь информации, т. е. в несжатом или сжатом без потерь виде и в таком формате, который обеспечил бы в будущем любое применение. Совершенно недостаточной является попытка сохранить данные в сжатом виде и пригодном только для одного вида использования.

Сжатые по свободной от потерь технологии (или несжатые вовсе) данные оцифровки изображения должны иметь возможность мигрировать к новым системам в формате TIFF или в независимом от платформы следующем за TIFF формате. Подобную адаптацию необходимо выполнять в рамках спланированной стратегии, по ходу внедрения новых разработок, без пропуска каких-либо полезных новшеств. В такого рода регулярной адаптации нужно учитывать не только ожидаемую долговечность самого носителя, но и адекватность формата, а также доступность аппаратно-программных средств, необходимых для чтения. Быстрая смена одних новшеств другими как в технологии компьютеров, так и в программном обеспечении, которая к тому же редко обращает достаточное внимание на вопросы стандартизации (а стандарты вообще не очень-то уважаются в этой среде), может в будущем создать проблемы совместимости.

Миграцию следует осуществлять с величайшей осторожностью, а проверять результаты — картинку за картинкой, поскольку потеря даже одного бита информации в графическом файле может сказаться на существенной потере данных и даже всего изображения. Ответственное отношение к операции миграции (конвертирования форматов) требует проведения специальных организационных и технологических мероприятий до осуществления замены системы. Задачей миграции должно быть обеспечение сохранности данных по крайней мере в двух надежных форматах, безопасных в отношении интерференции (вредного воздействия), в независимом от платформы формате, совместимом с используемой в данное время системой работы с электронными файлами. Только таким образом можно будет обеспечить возможность сверки всего передаваемого массива с оригиналом или копией более ранней генерации (поколения).

3.7. Экономическая целесообразность

Оцифровка микроформ должна определяться требованиями обслуживания. Стоимость процесса оцифровки однородного продукта (35-миллиметровый ролевый микрофильм), проводимой в соответствии с приведенными здесь рекомендациями, будет существенным образом зависеть от масштабов работы, принятых требований (двухтоновая шкала или полная шкала серых оттенков) и уровня разрешения; кроме того, влияют тип пленки, вид и читаемость снимаемого материала. Конечно, стоимость оцифровки зависит также от ситуации на рынке этих услуг и поэтому невозможно дать какие-либо общие указания о ценах на достаточно долгий период.

Практический опыт показывает, что некоторое удорожание происходит при ручном переворачивании страниц, вычленении изображений из общей рамки, маркировке. Следует также учитывать стоимость программирования и начальную стоимость программирования сканера в соответствии с требованиями заказчика, а также стоимость выгрузки данных, работы с CD—R и носителями информации, упаковки и транспортировки. В ряде соответствующих случаев нужно будет довольно много платить за индивидуальный (ручной) труд по повышению качества, улучшению изображения специальными программными средствами.

Баланс при выборе между оцифровкой с общим высоким разрешением и/или с полной шкалой серого цвета оказывает косвенное влияние на стоимость конверсии. Последующие затраты, связанные с планируемой будущей миграцией, также должны быть приняты во внимание. Может оказаться более экономичным прибегнуть к повторной оцифровке микрофильма, чем проводить постоянные операции переконвертирования данных в ходе миграции платформ .

3.8. Оцифровка и оптическое распознавание текста

Оптическое распознавание представляет собой машинный (компьютерный) процесс превращения видимых буквенных и цифровых знаков в закодированные данные (в коды, соответствующие буквенно-цифровым знакам и контексту) в соответствии с более или менее стандартной процедурой распознавания. Существует принципиальная разница между полностью автоматизированным распознаванием текста и обучаемым распознаванием, при котором распознавание образцов осуществляется с помощью словарей, лингвистических методов и элементов искусственного интеллекта.

Программы распознавания текста включают все больше словарей и списков замещений, которые могут подстраиваться в соответствии со степенями безопасности. Для того, чтобы избежать фиксации неправильно прочитанных букв, которые были распознаны как правильные, системы используют методы логики неопределенностей и теории вероятности. В некоторых системах применяется также любопытная техника, известная как "смешанная мода". Знаки или группы знаков, которые не поддались распознаванию или были распознаны без достаточной уверенности и надежности, сохраняются как изображения в незакодированном виде в том месте правильно распознанного текста, где они должны находиться.

В дополнение к надежному распознаванию текста существенным параметром качества работы систем распознавания является способность к сегментированию страницы, т. е. к интерпретации контекстуальной информации — такой, как колонки, блоки текста или графики. Другими показателями являются сегментация индивидуальных единиц, распознавание различных типов почерков и подписей и возможность работы с несколькими языками в одном тексте.

Уровень предельной экономичности для систем компьютерного распознавания текста — 99,95%. Другими словами, если программа дает более 4—5 ошибок на 1000 единиц, ручная обработка изображения текста становится более выгодной.

Надежность распознавания текста во многом зависит от фона, типа и размера печати, уровня контраста между текстом и фоном. Сбои в процессе распознавания возникают тогда, когда материал загрязнен или происходит сбой в подаче информации из-за непропечатки или неправильной печати букв. Надежность также зависит от плотности информации в изображении. Чем больший объем информации переработан, тем выше будет темп распознавания. Более высокое разрешение, принятое при оцифровке, может заметно улучшить темп распознавания — так же, как и оцифровка с полной шкалой серого цвета.

В принципе все выше сказанное о критериях качества применимо и к микрофильму. Правильная стандартная плотность фона, его минимальное потемнение весьма важны для получения хорошего разрешения и необходимого контраста. Оцифровка негативной пленки позволит избежать сбоев из-за грязи или царапин. Пока не существует достаточного опыта компьютерного распознавания текста (применительно к микрофильмам), чтобы можно было сформулировать какую-либо надежную позицию.

содержание | окончание


Copyright © 1995-98 ГПНТБ России