Цель занятия:изучить способы сжатия информации; свойства алгоритма сжатия; основные понятия технологии сжатия информации; основные форматы упаковки данных; приёмы работы с программой WinRar.
Основные понятия:
Основы сжатия информации.
Потребность в сжатии данных возникает по двум причинам:
1. информация не умещается на диске и её нужно уплотнить (особенно, если есть диаграммы, рисунки, графики);
2. необходимо выполнять резервное копирование всей информации на ПК, и часто эти копии занимают большой объём памяти, что опять ведёт к уплотнению информации.
Все методы сжатия информации можно условно поделить на два класса: сжатие с потерей информации и сжатие без потери информации.
Сжатие с потерей информации означает, что после распаковки уплотнённого архива мы получим документ, отличный от первоначального. Чем больше сжатие, тем больше потеря информации. Особенно незначительны потери информации в фотографических и музыкальных файлах. К алгоритмам сжатия с потерей информации относятся JPEG и MPEG. Сжатые графические файлы имеют расширение .JPG, а сжатые музыкальные файлы имеют расширение .MPG для видео или .MP3 для музыки.
Сжатие без потери информации основано наустранении избыточности информации, которая присутствует почти всегда. Для избыточности есть несколько оснований:
1. каждый символ русского языка обычно кодируется байтом, который содержит 8 битов и может выражать 256 различных кодов; для нашего «телеграфного текста вполне хватило бы шести битов на символ»;
2. в международной кодировке символов ASCII для кодирования любого символа отводится одинаковое количество битов (8), хотя часто встречающиеся символы можно кодировать меньшим количеством знаков. Программы сжатия информации могут вводить свою кодировку и приписывать к сжатому файлу некий словарь для распаковывающей программы. Алгоритмы, основанные на перекодировании информации, называют алгоритмами Хаффмана.
3. Иногда в текстах, но чаще в таблицах и графике повторяются коды. Например, если число 0 повторяется 20 раз, то нет смысла ставить 20 нулевых байтов, вместо них ставят один ноль и коэффициент 20. Алгоритмы, основанные на выявлении повторов, называются методами RLE (Run Length Encoding).