русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Программы оптического распознавания текстов


Дата добавления: 2013-12-24; просмотров: 1005; Нарушение авторских прав


Автоматизация ввода информации в компьютер

Одной из основных задач информатики является разработка и внедрение средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную. Основным методом такого перевода является сканирование.

Сканирование – это технологический процесс, в результате которого создается графический образ. Существуют несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая точка). В результате создается графический файл, в котором хранится растровое изображение исходного документа. Количество точек определяется как размером изображения, так и разрешением сканера.

Сканеры для ввода текстов и иллюстраций:

Ручные сканеры. Не имеет движущихся частей, сканирование производится путем перемещения сканера по документу. Наименее качественное изображение. Очень узкая полоса сканирования.

Листовые сканеры. За одну операцию сканируется лист стандартного формата. Блок сканирования неподвижен, а бумага протягивается мимо него как в принтере. Гарантируют хорошее качество сканирования.

Планшетные сканеры. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Обеспечивают наилучшее качество и максимальное удобство при работе.

Связь сканера с операционной системой:

- Есть сканеры со специальной платой-контроллером, которая устанавливается в одно из гнезд материнской платы.

- Есть сканеры, которые подключаются к свободному параллельному порту (порту принтера).

- Для стандартизации программного интерфейса связи операционной системы и различных сканеров был создан протокол TWAIN, который должен поддерживаться и ОС и сканером.



С точки зрения компьютера, документ после сканирования превращается в набор точек, а не в текстовый документ. Проблема распознавания текста в составе графического изображения является весьма сложной.

Ранее распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Подобные программные системы назывались OСR (оптическое распознавание символов), они опирались на специально разработанные шрифты, облегчавшие такой подход. В последние годы появились совершенно новые алгоритмы распознавания образов и программы, построенные на этих алгоритмах, могут справляться с текстом, не ориентируясь на конкретный шрифт или алфавит, в том числе текст может быть и рукописным.

Наиболее широко известны и распространены программы отечественных производителей FineReader и CuneiForm.

Программа FineReader (ABBY Software). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

 

Возможности:

- Работает с разными моделями сканеров.

- Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.

- Позволяет редактировать распознанный текст и проверять его орфографию.

- Обучается неизвестным ей шрифтам и учитывает дефекты начертания букв.

- Сохраняет оформление документа, запоминая расположение текста в колонках, таблицы, рисунки и шрифтовое оформление бумажного оригинала.

- Распознает табличные данные и сохраняет их в формате электронных таблиц.

- Экспортирует результат напрямую в MS Word или Excel



<== предыдущая лекция | следующая лекция ==>
Форматы текстовых файлов | Автоматический перевод документов


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.268 сек.