русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Сжатие данных


Дата добавления: 2015-07-23; просмотров: 854; Нарушение авторских прав


При алфавитном кодировании наблюдается некоторый баланс между временем и памятью. Затрачивая дополнительные усилия при кодировании и декодировании можно экономить память, и, наоборот, пренебрегая оптимальным использованием памяти, можно существенно выиграть во времени кодирования и декодирования. Конечно, этот баланс имеет место только в определенных пределах, и нельзя сократить расход памяти до нуля или построить мгновенно работающие алгоритмы. Для алфавитного кодирования пределы возможного установлены оптимальным алгоритмом, рассмотренным выше. Для достижения дальнейшего прогресса нужно рассмотреть неалфавитное кодирование.

 

Определение. Методы кодирования, которые позволяют построить (без потери информации) коды сообщений, имеющие меньшую длину по сравнению с исходным сообщением, называются методами сжатия (или упаковки) информации. Качество сжатия обычно определяется коэффициентом сжатия, измеряется в процентах и показывает, на сколько сжатое сообщение короче исходного.

Допустим, имеется некоторое сообщение, которое закодировано каким-то общепринятым способом и хранится в памяти ЭВМ. Например, текст в кодах ASCII. Заметим, что равномерное кодирование, используемое в кодах ASCII, не является оптимальным для текстов, так как в текстах обычно используется существенно меньше, чем 256 символов. Обычно это 60–70 символов, в зависимости от языка.

Если вероятности появления различных букв различны и известны, то можно, воспользовавшись алгоритмом Хаффмена, построить для того же самого сообщения схему оптимального алфавитного кодирования (для заданного алфавита и языка). Расчеты показывают, что такое кодирование будет иметь цену несколько меньше 6, т.е. даст выигрыш по сравнению с кодом ASCII примерно на 25%. Известно, однако, что практические архиваторы (программы сжатия) имеют гораздо лучшие показатели (до 70% и более). Это означает, что в них используется не алфавитное кодирование.



 

Рассмотрим следующий способ кодирования.

1. Исходное сообщение по некоторому алгоритму разбивается на последовательности символов, называемых словами (слово может иметь одно или несколько вхождений в текст сообщения).

2. Полученное множество считается буквами нового алфавита. Для этого алфавита строится разделимая схема алфавитного кодирования (равномерного или оптимального). Полученная схема обычно называется словарем, так как сопоставляет слову код.

3. Далее код сообщения строится как пара – код словаря и последовательность кодов слов из данного словаря.

4. При декодировании исходное сообщение восстанавливается путем замены кодов слов на слова из словаря.

Пример. Требуется сжать текст на русском языке. В качестве алгоритма деления на слова примем обычные правила языка: слова отделяются друг от друга пробелами или знаками препинания. Можно принять допущение, что в каждом конкретном тексте имеется не более различных слов (обычно гораздо меньше). Таким образом, каждому слову можно сопоставить код – целое число из двух байт (равномерное кодирование). Учитывая, что каждый символ в ASCII кодируется одним байтом, полученный код слова по объму эквивалентен кодам двух букв русского алфавита. Поскольку в среднем слова русского языка состоят более чем из двух букв, такой способ позволяет сжать текст на 75% и более. При больших текстах расходы на хранение словаря относительно невелики.

Данный метод попутно позволяет решить задачу полнотектового поиска, причем для этого не нужно просматривать весь текст, достаточно просмотреть словарь.

Указанный способ можно усовершенствовать, по крайней мере, в двух отношениях. На шаге 2 можно использовать алгоритм оптимального кодирования, а на шаге 1 – решить экстремальную задачу такого разбиения сообщения на слова, чтобы цена кодирования на шаге 2 была минимальной. Однако, на практике, такая экстремальная задача весьма трудоемка и временные затраты оказываются слишком большими.

 

 


Список литературы

1. Дискретная математика и математические вопросы кибернетики / Под ред. Яблонского С.В. и Лупанова О.Б. – М.: «Наука», 1974 – 311 с.

2. Новиков Ф.А. Дискретная математика для программистов. – СПб: Питер, 2000. – 304с.

3. Карпов Ю.Г. Теория автоматов – СПб.: Питер, 2002. – 224 с.

4. Горбатов В.А. Основы дискретной математики. М., Высшая школа, 1986 – 310.

5. Москинова Г.И. Дискретная математика. М., «Логос», 2000 – 236с.

6. Корниенко А.В. Дискретная математика. – Томск: Изд–во ТПУ, 1996 – 96с.

7. Андерсон Джеймс А. Дискретная математика и комбинаторика: Пер. с англ. – М.: Издательский дом «Вильямс», 2003. – 960 с.

 

 


Александр Васильевич Воронин

 

ДИСКРЕТНАЯ МАТЕМАТИКА

 

Методическое пособие для студентов специальности 220301 – Автоматизация технологических процессов и производств (в нефтегазовой отрасли) Института дистанционного образования

 

 

Научный редактор А.М.Малышенко

 

Подписано к печати

Формат 60х84/16. Бумага ксероксная.

Плоская печать. Усл. печ. л. . Уч.-изд. л. .

Тираж экз. Заказ . Цена C.

Издательство ТПУ. 634050, Томск, пр. Ленина, 30.

 



<== предыдущая лекция | следующая лекция ==>
Алгоритм оптимального кодирования Хаффмена | ПРОГРАММИРОВАНИЕ НА АЛГОРИТМИЧЕСКОМ ЯЗЫКЕ ПАСКАЛЬ


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 2.042 сек.