Архивация данных

Практическая работа

Цель занятия:изучить способы сжатия информации; свойства алгоритма сжатия; основные понятия технологии сжатия информации; основные форматы упаковки данных; приёмы работы с программой WinRar.

Основные понятия:

Основы сжатия информации.

Потребность в сжатии данных возникает по двум причинам:

1. информация не умещается на диске и её нужно уплотнить (особенно, если есть диаграммы, рисунки, графики);

2. необходимо выполнять резервное копирование всей информации на ПК, и часто эти копии занимают большой объём памяти, что опять ведёт к уплотнению информации.

Все методы сжатия информации можно условно поделить на два класса: сжатие с потерей информации и сжатие без потери информации.

Сжатие с потерей информации означает, что после распаковки уплотнённого архива мы получим документ, отличный от первоначального. Чем больше сжатие, тем больше потеря информации. Особенно незначительны потери информации в фотографических и музыкальных файлах. К алгоритмам сжатия с потерей информации относятся JPEG и MPEG. Сжатые графические файлы имеют расширение .JPG, а сжатые музыкальные файлы имеют расширение .MPG для видео или .MP3 для музыки.

Сжатие без потери информации основано наустранении избыточности информации, которая присутствует почти всегда. Для избыточности есть несколько оснований:

1. каждый символ русского языка обычно кодируется байтом, который содержит 8 битов и может выражать 256 различных кодов; для нашего «телеграфного текста вполне хватило бы шести битов на символ»;

2. в международной кодировке символов ASCII для кодирования любого символа отводится одинаковое количество битов (8), хотя часто встречающиеся символы можно кодировать меньшим количеством знаков. Программы сжатия информации могут вводить свою кодировку и приписывать к сжатому файлу некий словарь для распаковывающей программы. Алгоритмы, основанные на перекодировании информации, называют алгоритмами Хаффмана.

3. Иногда в текстах, но чаще в таблицах и графике повторяются коды. Например, если число 0 повторяется 20 раз, то нет смысла ставить 20 нулевых байтов, вместо них ставят один ноль и коэффициент 20. Алгоритмы, основанные на выявлении повторов, называются методами RLE (Run Length Encoding).