Home page | Каталоги и базы данных

Сборник научных трудов


 

УДК 004.352(07.07)+025:65.011.56(07.07)

В.А. Скородумов

Особенности методики обучения сканированию
студентов гуманитарного профиля
на примере
библиотечного факультета  М У И

Кратко изложен опыт работы учебного класса ГПНТБ России по обучению сканированию и распознаванию документов студентов дневной и вечерней формы обучения МГУКИ. Особенностью обучения являлось то, что основным контингентом являются студенты со специальностями гуманитарного профиля.

При сканировании документов в библиотеках для их дальнейшей автоматизированной обработки как новички, так и специалисты с опытом работы – пользователи цифровых сканеров – часто попадают в сложные ситуации.

Сканеры — это мощные инструменты для представления реальных изображений и текста в цифровой форме. Их технология Plug and Play (стандарт фирм Microsoft, Intel и др., преследующий цель упрощения подключения компьютера, который берет на себя распознавание и настройку периферийного устройства без последующей установки параметров пользователем) делает процесс ввода визуальных данных обманчиво простым. А, когда изображение текста надо обработать с помощью программы оптического распознавания символов (OCR) и результаты таковы, что их невозможно читать, возникают проблемы.

Цель обучения студентов – помочь им научиться решать эти и другие проблемы, возникающие при сканировании.

Для правильного использования методики обучения студентов МГУКИ (Московский государственный университет культуры и искусств) сканированию важно выделить следующие ключевые моменты (с учетом гуманитарного характера образования в этом вузе):

  • разъяснить основные способы получения качественных сканированных изображений,

  • указать основные типы сканеров и их характеристики,

  • показать главные методы управления цветом, относящиеся к сканированию,

  • научить оценивать характеристики исходных изображений,

  • рассмотреть способы управления разрешением и качеством изображения,

  • показать, как правильно выбрать формат файла для сохранения изображения.

Перед непосредственной демонстрацией процесса сканирования необходимо пояснить, что на ПК работают в основном с изображениями двух типов: растровыми и векторными. Растровые изображения вырабатываются программами для подготовки иллюстраций, графическими редакторами и сканерами. Они состоят из сеток цветных, серых полутоновых или черно-белых пикселов (элементов изображения). Характеристики растровых изображений приводят к большим размерам графических файлов и делают их чувствительными к масштабированию. Растровые изображения состоят из матриц отдельных пикселов, в то время как векторные изображения составлены из кривых.

С другой стороны, векторные изображения формируются из математических форм — линий, эллипсов, прямоугольников, кривых и более сложных структур, — закодированных математическими формулами. Их рациональная структура позволяет сохранять разумные размеры файлов и просто масштабировать изображения без потери качества. По ходу занятий термин цифровые изображения следует относить только к растровым изображениям, которые создаются сканерами.

Следует напомнить, что на практике исходное изображение обычно находится под руками, и его легко оценить. Однако оператор сканера часто не связан с созданием конечного продукта и, следовательно, может слабо представлять специфику вывода сканированных изображений.

Типичные области использования оцифрованных изображений в библиотеках — это деловые коммуникации: факс, электронная почта, OCR, a также системы архивации и передачи документов. Сканирование для каждой области использования имеет свои особенности.

 

Как известно, к приложениям сканирования, связанным с деловыми коммуникациями, относятся:

  • технология OCR (Optical Character Recognition – оптического распознавания символов), реализующая интеллектуальное распознавание текста в сканируемых документах и позволяющая преобразовать бумажные документы в текстовые файлы, которые можно обрабатывать, сохранять, редактировать или включать в другие документы;

  • архивирование рисунков, чертежей и других важных библиотечных или деловых документов для долговременного хранения;

  • распространение писем или маркетинговой информации, которая может отправляться по факсу или электронной почте или распределяться через Internet сотрудникам, партнерам и заказчикам.

Технологии сканирования, передачи по факсу, электронной почты и оптического распознавания символов быстро сближаются, и сегодня можно сохранять и многократно использовать в цифровой форме почти любую информацию, принятую практически из любого источника. Уже появились предвестники этой тенденции — программы, интегрирующие функции сканирования, редактирования изображения, OCR, интерактивной обработки форм, электронной регистрации, факса и электронной почты.

Сканирование для деловых коммуникаций обладает многими особенностями, присущими сканированию для печати и компьютерных презентаций, за исключением того, что большая часть оцифровки производится в черно-белом режиме или полутонах серого.

Необходимо отметить, что все чаще изображения, первоначально сканированные для одной среды вывода, необходимо повторно использовать в другой среде или средах. Так, цветная фотоиллюстрация, подготовленная для полностраничной рекламы в журнале, может позже вновь появиться как заставка корпоративного видео, фон в компьютерной презентации или черно-белый логотип на факсимильном бланке. Подобную рециркуляцию цифровой информации называют многоцелевым использованием.

Учащиеся должны уяснить, что если возникает пусть маловероятная мысль, что информация, которую предстоит оцифровать, позже будет использована многоцелевым образом, необходимо следовать некоторым правилам. Они позволят уменьшить объем работы и гарантируют высококачественный окончательный результат в каждой среде.

  1. Сканируйте оригинал, используя установки наилучшего качества — режим сканирования, который воспроизводит по меньшей мере 16 миллионов цветов в формате RGB, и разрешение. Тогда вам не придется столкнуться с недостаточно выразительным цветом или удивляться размеру файла, который потребуется для получения полноценного печатного изображения.

  2. Не следует улучшать или корректировать цвета изображения в ходе сканирования. У изображения, которое было предварительно корректировано для воспроизведения в печати, может оказаться неподходящий цвет или тоновой баланс при выводе в мультимедиа или видео.

  3. Сохраняйте версию неоткорректированного изображения в формате TIFF или EPS, подходящем для опубликования иллюстрации в печати, или в формате графического редактора, обеспечивающем разумный размер файла. Эти форматы содержат достаточно информации для последующего преобразования в другие форматы файла или в другую среду вывода.

  4. Сохраните резервную версию изображения. Корректируйте текущую версию, но архивируйте оригинал, который послужит основой для будущей работы.

Следует всегда подчеркивать, что большое значение имеет правильный выбор инструментов. Укажем некоторые предложения по оптимальному выбору аппаратных и программных компонентов с учетом особенностей предстоящего сканирования. Чтобы избежать проблем, характеристики обоих компонентов следует выбирать с учетом специфики использования сканированных изображений.

В библиотечном деле могут выдвигаться самые серьезные требования к характеристикам систем сканирования, но они не обязательно реализуются на практике. Затраты на аппаратное обеспечение определяются двумя факторами: типичными размерами отпечатанных изображений и характером типичного изображения – цветного или серого полутонового. Если для ваших проектов типичны черно-белые или двухцветные иллюстрации небольшого размера, которые печатаются в книгах, научных журналах или авторефератах, брошюрах, то можно обойтись планшетным сканером со сравнительно скромными характеристиками, 17-дюймовым монитором и компьютерной системой умеренного быстродействия, включающей от 8 до 16 Мб оперативной памяти и жесткий диск среднего объема. С другой стороны, для проектов, связанных с многоцветными иллюстрациями относительно больших размеров — особенно для наиболее совершенных публикаций типа глянцевых журналов, художественных книг и рекламы — требуются 20-дюймовые или большие цветные мониторы, быстродействующие компьютерные системы, большой объем оперативной памяти, жесткие диски большого объема, дисководы CD-ROM, а также съемные жесткие диски. Для сканирования надо будет использовать планшетные сканеры высокого класса и другое оборудование.

Понимание специфики обработки изображения поможет выбрать не только аппаратное, но и наилучшее программное обеспечение (ПО) для оцифровки изображений. В основном, программное обеспечение для сканирования относится к одной из трех категорий: разработанное для конкретного устройства, которое может включать расширения, совместимые с Photoshop и другими основными пакетами графических редакторов; пакеты OCR; а также изолированные, автономные утилиты сканирования.

Расширения, некогда обладавшие весьма ограниченными возможностями, теперь обычно включают функции, позволяющие пользователю улучшать качество изображения в ходе сканирования и, следовательно, минимизировать потери данных. Они дают возможность вводить изображения прямо в мощные пакеты графических редакторов, например, Adobe Photoshop, Corel и др.

Учащиеся должны понимать, от чего зависит качество сканирования.

Реклама высококачественных сканирующих устройств убеждает, пока вы не купите сканер последней модели ценой в десятки тысяч долларов, вы не сможете быть уверены ни в чем. Ко всему этому надо относиться критически.

Что же определяет качество при сканировании и оцифровке изображений? Технологические возможности сканера. Но это только один из факторов. Важны также состояние исходного изображения, квалификация оператора устройства и — последний, но не менее важный фактор — способ использования полученного изображения — все это, вместе с технологическими характеристиками сканера, определяет, будет ли получено качественное изображение. Не в каждой среде для достижения хороших результатов необходима самая высокая, наиболее дорогая технология. Введенное цифровое изображение будет удовлетворительным, если возможности оцифровывающего устройства соответствуют требованиям конечного пользователя к выводу изображений. С точки зрения оборудования критерии, влияющие на качество ввода изображения, включают технологию считывания, входное и оптическое разрешение, коэффициент увеличения, область отображения, разрядность глубины изображения, а также динамический диапазон и диапазон плотности.

Не вдаваясь в детали технологии считывания, следует упомянуть, что в современном оцифровывающем оборудовании используются светочувствительные датчики двух типов: приборы с зарядовой связью (ПЗС) или фотоэлектронные умножители (ФЭУ). Кроме того, во всех сканерах используются аналого-цифровые преобразователи АЦП, преобразующие считанную информацию в цифровые данные. В планшетных, листовых и ручных сканерах для измерения градаций яркости используются ПЗС. ПЗС — это твердотельный электронный компонент, состоящий из множества крошечных датчиков, которые регистрируют аналоговый электрический заряд, пропорциональный интенсивности падающего на них света. В зависимости от типа сканера, ПЗС могут иметь различную конфигурацию. В планшетных сканерах микродатчики ПЗС размещаются на кристалле в одну линию (для трехпроходного сканирования) или в три линии (для однопроходного сканирования). Такая конфигурация позволяет устройству производить выборку всей ширины исходного аналогового изображения и записывать его как полную строку. Каждый раз, когда ПЗС производит выборку строки исходного изображения, он передает заряды (пропорциональные аналоговому значению градации яркости) на АЦП, преобразующие их в двоичные данные. После этого ПЗС очищается и готов к получению электрических зарядов со следующей строки изображения. В современных сканерах этот процесс занимает малую долю секунды.

Необходимо уяснить, что все оцифровывающие устройства (сканеры, цифровые и видеокамеры и т.д.) имеют несколько общих функций:

  • преобразуют аналоговую (реальную) информацию в цифровые данные, которые могут использоваться компьютером,

  • генерируют растровые изображения, состоящие из матриц черно-белых, серых полутоновых или цветных пикселов (элементов изображения). (Растровые изображения часто называют также битовыми изображениями, но между ними имеется важное различие. Термин "растровое изображение" описывает состоящие из пикселов изображения независимо от их цветовых характеристик. Битовые изображения (bitmap) содержат только черно-белые пикселы.);

  • считывают или производят выборку исходного изображения, измеряя значения градаций серого или цвета для каждого элемента выборки.

Входное разрешение сканера описывает плотность, с которой сканирующее устройство производит выборку информации в данной области (обычно на дюйм или на сантиметр) в ходе оцифровки. Хотя входное разрешение — один из основных факторов, определяющих качество сканирования, известное утверждение, что более высокое входное разрешение автоматически ведет к более высокому качеству изображения, не всегда соответствует реальности.

Следует подчеркнуть, что важно лишь иметь правильное количество цифровой информации в изображении. И чтобы определить правильный объем информации, необходимо согласовать входное разрешение как с размером исходного изображения, так и с желательным размером выводимого изображения.

Полезно привести последовательность базовых процедур для получения качественно отсканированного изображения:

  • физическая подготовка сканера к использованию (включить, проверить индикацию);

  • подготовить и установить документ в сканере;

  • запустить программное обеспечение для сканера или соответствующее программное обеспечение системы OCR;

  • проверить установки и настройки сканера;

  • откорректировать установки и настройки (выбрать режим сканирования);

  • провести предварительное сканирование оригинала;

  • кадрировать и/или откорректировать изображение предварительного просмотра;

  • установить разрешение и размеры;

  • сканировать изображение.

Для примеров в данном курсе использовался планшетный сканер фирмы HP и сопровождающее программное обеспечение, а также ПО FineReader. Если в вашем сканере не предусмотрены все описанные здесь средства предварительной обработки, отсутствующие этапы придется выполнить в пакете редактирования изображений. Однако независимо от того, обрабатываете вы изображение до или после сканирования, основные принципы и важные этапы остаются неизменными.

Большое значение при обучении сканированию играют практические навыки. Они приобретаются при выполнении конкретных заданий по сканированию. Для этого можно использовать стандартные библиотечные документы (книги, журналы). При этом учащиеся смогут приобрести опыт по правильному расположению документов на сканирующей поверхности.

Необходимо также ознакомить учащихся с возможностями настройки сканера. Для этого можно использовать систему встроенной помощи (help) и специализированную литературу. Список рекомендованной литературы приводится.

 

Список литературы

  1. Болотов А.А. Классификация и распознавание в дискретных системах: Учеб. пособие по курсу Мат. моделирование дискрет. систем/ Болотов А.А., Фролов А.Б. Под ред. В.Н.Вагина – М.: Изд-во МЭИ, 1997. – 119 с.: Библиогр.: с. 118 (22 назв.).

  2. Технологии обработки естественного языка в науке и промышленности: Обзор. – М., 1992. – 63 с.: ил.. – (Серия: Актуальные проблемы прикладного языкознания/ Рос. АН Ин-т науч. информ. по общественным наукам). Библиогр.:с.62-63 (14 назв.)

  3. Блатнер Д. Сканирование и растрирование изображений/ Блатнер Д., Флейшман Г., Рот С. – М.: ЭКОМ, 1999. – 383 с.: ил. – Пер. изд.: Real World scanning and halftones/ Blatner D., Fleishman G., Roth S. – S.l., 1998.

  4. Распознавание видеографической информации / Рос. АН науч. совет по комплекс. проблеме Кибернетика. НИИ систем. исслед. Под ред. В.Б. Бетелина. – М., 1999. – 134 с.: ил.

  5. Коробейников А.П. Методы распознавания образов: Учеб. пособие/ Коробейников А.П. Ростов н/Д: Издат. центр ДГТУ, 1999. – 50 с.: ил. – В надзаг.: Дон. гос. техн. ун-т. Библиогр.: с. 49 (3 назв.).

  6. Шпунт Я.Б. Сканирование: Лучшие программы, полезные советы/ Шпунт Я.Б. – М.: ДМК, 2000. – 427 с.: ил.

  7. Шарыгин М.Е. Сканеры и цифровые камеры: Практ. рекомендации по съемке и сканированию/ Шарыгин М.Е.; Под общ. ред. О.В.Колесниченко, И.В.Шишигина. СПб.: BHV-Санкт-Петербург, 2000. – 382 с.: ил.

  8. Волошин Г.Я. Распознавание образов: Учеб. пособие для студентов спец. Вычислит. машины, системы, комплексы и сети/ Волошин Г.Я. Владивосток: Дальнаука, 2000. – 138 с.

  9. Методы распознавания двумерных изображений/ Подгот. Донченко В. С., Шпак В. М. О-во Знание УССР. – Киев: О-во "Знание" УССР, 1990. – 16 c.


Copyright © 1995-2001 ГПНТБ России