русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Технологии автоматизированного ввода документа (ОСR-системы)


Дата добавления: 2013-12-24; просмотров: 1149; Нарушение авторских прав


 

Довольно часто в офисной работе возникает ситуация, когда имеется текст документа, напечатанный на бумаге, а электронная версия этого документа отсутствует. Причем, в текст этого документа надо внести свои исправления, дополнения и т.д. Конечно, эту задачу легко решить, если документ в несколько строк: можно просто сесть за компьютер и напечатать текст с бумаги и дополнить своим. Но если в документе 20-30-50 страниц с текстом, таблицами и графиками, понадобится много времени для ввода текста с бумаги в компьютер. Тут уж не обойтись без сканера и специальных программ для распознавания текста.

OCR (Optical Character Recognition) — общее названия программ для распознавания текста, без них сканер не сможет понять ни одной буквы. Программы OCR делятся на программы «начального уровня» и профессиональные. Программы «начального уровня» при сканировании решают поставленную задачу, как говорится «в лоб»: переводят текст на бумаге в набор символов и далее предлагают пользователю самостоятельно разобраться с тем, что получилось. Для простых текстовых документов большего и не надо. На листе есть набор символов, и он преобразуется в такой же набор, только в текстовом файле. Но если документ, который находится в сканере имеет сложную структуру — с графическими вставками или таблицами, то такая программа сделает столько ошибок, что неизвестно, что проще — набирать текст вручную или редактировать то, что выдал сканер. В этом случае приходится использовать профессиональную программу OCR, с помощью которой можно распознать не только символы, но и структуру документа: система «понимает», где находится графика, где простой текст, а где таблица. И, соответственно, делит документ на фрагменты, а каждый фрагмент, согласно его свойствам, вставляет в конечный файл. Разумеется, график или чертеж программа не трогает вовсе — «понимает», что здесь нечего распознавать; она пытается восстановить таблицы именно той структуры, какой они были в оригинальном документе — с таким же распределением ячеек по столбцам и строкам. Кроме того, профессиональные программы умеют обрабатывать многоязычные документы. Одной из лучших в мире профессиональных OCR считается программа FineReader — разработка российской фирмы ABBYY. Она выпускается в нескольких вариантах, начиная со средней сложности и до самой высокой (последние варианты применяют при огромных объемах сканирования, например, при переводе бумажных архивов в электронную форму).



Сканер снимает изображение не целиком, а по строчкам. Если назвать длинную сторону сканера вертикалью планшета, а короткую — горизонталью, то по вертикали движется полоска светочувствительных элементов и снимает изображение строку за строкой. Но и строки снимаются не целиком, а по точкам. Чем больше светочувствительных элементов у сканера, тем больше точек он может снять с каждой горизонтальной полосы изображения. Это называется оптическим разрешением сканера. Обычно его считают по количеству точек на дюйм — dpi (dots per inch). Сегодня даже для недорогих сканеров считается нормой уровень разрешения 600 dpi. Этого достаточно для выполнения 95% работ с бумажными носителями. Увеличивать разрешение еще дальше — значит, применять более дорогую оптику, более дорогие светочувствительные элементы, а также многократно затягивать время сканирования. Это может понадобиться разве что для обработки слайдов: для сканирования кадров обычной 35-миллиметровой пленки обычно необходимо разрешение 1200 dpi. Сканирование текста обычно происходит в режиме «Оттенки серого цвета» с разрешением порядка 200—300 dpi — это наиболее благоприятный режим для программ OCR. То есть, при таком режиме сканер не «забивает» программу лишней информацией, с одной стороны, а с другой — у программы достаточно данных, чтобы распознать даже мелкий текст с минимальными ошибками.

PenReader (Paragon Software Group) - многоязыковая система распознавания рукописного ввода для Tablet PC, которая не требует обучения и "на лету" переводит рукописный текст в набранный, имеет гибкую и мощную систему настроек, позволяющую настраивать его под свои нужды. PenReader - одна из немногих в мире систем полноценно работающих с русским языком для Tablet PC.

 

 



<== предыдущая лекция | следующая лекция ==>
Технологии обработки информации. Офисные пакеты | Технологии автоматизации перевода текстов


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.593 сек.