Одна из основных задач информатики состоит в разработке и внедрении средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную.
Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками и т.д. Чтобы в работе с информацией такого рода тоже можно было использовать компьютер, необходимы средства преобразования бумажных документов в электронную форму.
Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование – это технологический процесс, в результате которого создается графический образ бумажного документа. Существует несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая) точка. Таким образом, в результате сканирования документа создается графический файл, в котором хранится растровое изображение исходного документа. Растровое изображение состоит, как известно, из точек. Количество точек определяется как размером изображения, так и разрешением сканера.
Сканирование документов. Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер. Такие устройства, как цифровые камеры, пока не могут обеспечить для документов стандартного формата качество изображения, которое гарантировало бы их надежное распознавание.
Основной рабочий элемент сканера включает источник света, используемый для освещения документа, и светочувствительную головку, воспринимающую отраженный свет.
В настоящее время для ввода текстовой и графической информации используют следующие виды сканеров [9].
Ручные сканеры. Это самый простой вид сканеров, дающий наименее качественное изображение. Такой сканер не имеет движущихся частей, и сканирование производится путем перемещения сканера по документу.
Недостатком ручных сканеров является очень узкая полоса сканирования (стандартный лист бумаги приходится сканировать в несколько проходов), а также высокие требования к самому процессу сканирования. Так, если рука, держащая сканер, слегка подрагивает или движется рывками, говорить о хорошем качестве сканирования не приходится. Ручные сканеры пригодны для сканирования текстов, но использовать их для сканирования изображений (фотографий) затруднительно.
Листовые сканеры. Сканеры этого типа позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специальных валиков (как в принтере). Листовые сканеры гарантируют хорошее качество сканирования, но они способны сканировать только отдельные листы. Перевести с их помощью в электронную форму страницу книги или разворот журнала невозможно.
Планшетные сканеры обеспечивают наилучшее качество и максимальное удобство при работе с бумажными документами. Под крышкой планшетного сканера располагается прозрачное основание, на которое укладывают документ. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Продолжительность сканирования стандартного машинописного листа составляет от одной до нескольких секунд.
Специальные типы сканеров
Барабанные сканеры обеспечивают наивысшее разрешение сканирования, но они предназначены для сканирования не бумажных документов, а прозрачных материалов, например слайдов, негативов и т. п. В сканерах этого типа считывающая головка установлена неподвижно, а изображение, закрепленное на цилиндрическом барабане, вращается с высокой скоростью и сканируется построчно.
Сканеры форм – специальные сканеры для ввода информации с заполненных бланков. Это разновидность листовых сканеров. С помощью подобных устройств вводят данные из анкет, опросных листов, избирательных бюллетеней. От сканеров этого типа требуется не высокая разрешающая способность, а очень высокое быстродействие. В частности, для сканеров этого типа автоматизируют подачу бумажных листов в устройство.
Штрих-сканеры – разновидность ручных сканеров. Предназначены для считывания штрих-кодов с маркировки товаров в магазинах. Штрих-сканеры позволяют автоматизировать процесс подсчета стоимости покупок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных платежных средств (кредитных карт, смарт-карт и т.п.).
Сканер является внешним устройством и подключается к компьютеру через специальный разъем. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи. Малопроизводительные сканеры используют порт принтера. Наиболее быстрые устройства подключаются через интерфейс SCSI (Small Computer System Interface).
Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые сканером. Таким образом, для приложения перестает иметь значение конкретная модель сканера. Операционная система Windows поддерживает интерфейс TWAIN, а все современные сканеры совместимы с ним и предоставляют необходимые драйверы нижнего уровня.
Распознавание документов.Этап распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит "сравнение" элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях (и даже при значительных искажениях).
В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки - на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.
Работа с программой FineReader. Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader (рис. 3). Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.
Рис. 3. Программа ABBYY FineReader 6.0. Corporate Edition
Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:
- сканирование документа (кнопка Сканировать);
- сегментация документа (кнопка Сегментировать);
- распознавание документа (кнопка Распознать);
- редактирование и проверка результата (кнопка Проверить);