русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Тема 5. Ознакомление с программой распознавания текста; онлайновый перевод


Дата добавления: 2014-09-29; просмотров: 816; Нарушение авторских прав


Цель: назначение и практическое использование пакета для оптического распознавания символов (Optical Character Recognition – OCR) на примере пакета RineReader (FR) и приобретение опыта использования машинного перевода.

В настоящее время часто встречаются документы, представленные в формате, неудобном для модификации, цитирования или перевода. Такой формат имеют, например, документы, напечатанные на бумаге. Понятно, что пока их немало. Довольно много документов публикуются в сети интернет или рассылаются по электронной форме в формате так называемых pdf- или djvu-файлов. В отличие от файлов, подготовленных при помощи текстового процессора Word, которые имеют вид файлов с расширениями doc или docx, pdf- и djvu-файлы лучше защищены от нежелательных изменений и всегда одинаково отображаются на экранах мониторов. Однако это может быть препятствием тогда, когда требуется pdf- или djvu-документ перевести или изменить.

В обоих вышеописанных случаях мы имеем дело с представлением документа в виде изображения, составленного из точек, называемых пикселями. Вообще любое экранное изображение, в том числе изображение текстов word-документов состоит из пикселей, однако в одном случае это изображение и в памяти компьютера хранится в виде набора точек (растровое изображение) и затем эти пиксели лишь выводятся на экран, а в другом символы текста хранятся в виде кодов и при необходимости вывода на экран при помощи специальной программы – знакогенератора – преобразуются в наборы точек (пикселей), которые и выводятся на экран.

Хранение символов в виде кодов имеет решающее значение в процессах обработки и преобразования текстов. При кодовом представлении текстов можно осуществлять поиск и замену фрагментов текста, менять шрифт, размер, цвет и оформление (курсив, жирный, подчеркивание) символов, проверять текст на наличие ошибок, переводить текст на другой язык и т.д.



В результате встает задача преобразования текстов в документах из пиксельного или растрового формата в формат кодового представления символов текста. Как оказалось, это сложная задача, с которой легко справляется человек, но компьютер - с трудом.

Для такого преобразования разработаны программы, выполняющие оптическое распознавание символов (OCR). OCR-программы по наборам точек, образующих изображение символа, находят код этого символа. Фактически эти программы выполняют функцию, обратную функции знакогенератора. Напоминаем, что все компьютеры оснащены программами-знакогенераторами, которые наоборот по коду символа генерируют наборы точек, рисующих изображения символов на экране дисплея.

Работа OCR-программы осложняется тем, что один и тот же символ может быть изображен по-разному. Он может иметь разный размер, принадлежать разным шрифтам, иметь разный цвет, модифицирован (жирный, курсив, подчеркнутый). Символ может быть искажен из-за ручных пометок на листу бумаги, на котором он напечатан, он может быть повернут на какой-то угол и т.д.

Кроме того, часть изображения распознаваемого документа может быть занята фотографиями, графиками, схемами, которые вообще не нужно распознавать и следует оставить в первоначальном виде.

Особый подход при распознавании нужно применять по отношению к таблицам.

В результате, не смотря на старания программистов, OCR-программы все же не способны на 100% безошибочно распознавать символы исходного текста и результат их работы требуют ручной правки.

Студентам предлагается ознакомиться с технологией OCR на примере наиболее популярной в России программы FineReader (FR), разработанной российской фирмой ABBYY.

FR – коммерческая программа, однако для ознакомления с ней ABBYY свободно и бесплатно представляет пробный вариант, который, естественно, не свободен от ограничений. К эти ограничениям относится 15-дневный срок действия программы с момента ее установки, возможность распознавания не более 50 страниц исходного текста за один рабочий сеанс и возможность одновременного сохранения лишь одной страницы из 50-ти распознанных. Последнее означает, что можно сохранять по одной странице несколько раз, что, конечно, неудобно. Но таковы ограничения пробной версии программы, цель которых, по мысли авторов, - побудить тех, кому она понравится, приобрести полную версию.

Для изучения технологии OCR студенты могут воспользоваться учебными компьютерами, установленными в аудиториях университета или установить эту программу на личных компьютерах, используя бесплатную пробную версию или приобретя полную версию На настоящее время (начало 2013) доступна 11 версия программы, для целей обучения подойдут и более ранние версии. Не подходит домашняя (home) версия, т.к. она не приспособлена для распознавания pdf-документов, используемых в данной теме в качестве индивидуальных заданий.

В процессе изучения OCR можно использовать руководство по использованию программы, прилагаемое к программе фирмой ABBY, а также видеоуроки, созданные фирмой TeachVideo, которые можно скопировать в лаборатории университета.

Каждый студент получает индивидуальное задание в виде pdf-файла, текст из которого нужно распознать, вручную удалить ошибки распознавания, сохранить в виде документа Word, перевести на русский язык.

Учебные материалы по изучению FR можно скопировать из локальной сети в корпусе университета, расположенном на ул. Пластунской или у преподавателя. Там же можно скопировать и пробную версию программы FR.

Для перевода иностранного текста можно использовать любой on- или off-лайновый машинный переводчик.

Список адресов некоторых on-лайновых переводчиков:

http://translate.google.ru

http://www.translate.ru

http://www.online-translator.com

http://translation2.paralink.com/

и т.д.

Off-лайновые переводчики удобнее, однако их нужно покупать и устанавливать. В России широко известна программа Promt, однако существует и множество других.

Кроме машинных переводчиков, которые предназначены для перевода текстов, состоящих из множества слов, полезно использовать словари.

Проблема переводчиков (и вы это сразу же заметите как только попытаетесь их использовать) заключается в низком качестве перевода. Поэтому результат машинного перевода всегда требует ручной правки. И здесь вам потребуется словарь. Дело в том, что практически любое иностранное слово имеет множество значений. Конкретное значение из этого множества выбирается исходя из смысла, заложенного в переводимый текст. Машинный переводчик, не понимая смысла, часто неверно выбирает вариант перевода слова. Здесь и должен вмешаться человек-редактор перевода, используя словарь, где указываются все возможные варианты перевода. Кроме того, для правильного перевода часто требуется изменить порядок слов в предложении, на что машинные переводчики малоспособны.

В России широко известны словари Lingvo компании ABBYY. Lingvo существует в on- и off-лайновом исполнении.

Адрес Lingvo в сети интернет: http://lingvopro.abbyyonline.com/ru

Конечно есть и другие словари.

Студентам предлагается перевести часть текста, из которой было бы понятно основное его содержание. Это обычно название, автор, аннотация и несколько абзацев основного текста. Цель, как и при изучении всех остальных тем, не собственно результат, а информационные технологии, при помощи которых получается в данном случае приличный перевод.

Вариант индивидуального задания в виде графического файла высылается преподавателем по электронной почте. Файл содержит публикацию, состоящую из текста, написанного на иностранном языке, рисунков и таблиц. Задача студента – выполнить распознавание и последующий перевод этого текста или его фрагмента.

Тема 6. Изучение системы электронной (цифровой) подписи на примере PGP



<== предыдущая лекция | следующая лекция ==>
Этап 7. Экспорт таблицы базы данных | Введение к теме 6


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.262 сек.