В данном тестировании главной целью было определить лучший по степени сжатия архиватор. Скорость сжатия была второстепенна.
Для разностороннего тестирования и выявления сильных и слабых сторон использовалось несколько наборов данных, требующих различных подходов и методов для хорошего сжатия. Их размер выбран достаточно большим, чтобы архиваторы с большим размером словаря или более эффективно использующие оперативную память могли показать свое преимущество. В сжатом при помощи ZIP виде они занимают размер в районе 15 MB.
Для каждого набора данных обычно можно подобрать наиболее оптимальные параметры сжатия. Однако в этом тестировании для всех наборов данных использовались единые параметры и методы, дающие в среднем лучшие результаты исходя из наличия 512 MB оперативной памяти. Такой подход является компромиссным. С одной стороны, можно оценить эффективность на разных типах данных, хотя некоторые архиваторы и не покажут максимальной степени сжатия. С другой стороны, в реальности приходится сжимать целые папки с разнообразными данными, а специфические значения параметров могут влиять как положительно, так и отрицательно на сжатие данных в целом. Кроме того, подбор оптимальных параметров не так прост, занимает много времени и в реальной жизни выполняется редко.
Стоит подчеркнуть, что выбор исходных данных очень сильно влияет на результаты тестирования. Например, при использовании текстовых (TXT,HTML,DOC,LOG) и мультимедиа (WAV) данных архиватор 7-zip (LZMA) покажет худшие результаты, чем RAR, который имеет специальные методы для таких типов данных. Использование несжимаемых данных (JPG, PDF) покажет мизерную разницу между архиваторами с плохой и хорошей степенью сжатия. Кстати, многие файлы могут содержать как сжимаемую информацию, так и не- сжимаемую. В том числе файлы в формате DOC и PDF.
Сильное влияние оказывает и подбор оптимальных параметров сжатия. Например, по данным www.maximumcompression.com, используещего оптимальные параметры сжатия для каждого набора данных, разница между 7-zip и RAR около 3%, что значительно меньше разницы, полученной в данном тестировании.
Тестовая система
Тестирование производилось на системе: процессор - Athlon XP 2800+, оперативная память - 512 MB.
Набор данных
Данные
Размер
Сжатие ZIP
Содержание
bak
54.4 MB, 13 файлов
22.6%
Набор резервных копий. Резервные копии конфигураций (настроек) 1С:Предприятие. Размер файлов от 3 MB до 9 MB. Файлы имеют блочную структуру (compound) и содержат довольно много похожих и одинаковых блоков.
dat
41.5 MB, 4 файла
35.9%
Сложный набор разнообразных данных. Файлы, содержащие информацию об игровых уровнях (картах) в играх Half-Life 2 и UnrealTurnament 2003.
dbf
69.1 MB, 8 файлов
15.3%
Файлы баз данных. Файлы таблиц из юридической программы и базы данных 1С:Предприятие небольшого предприятия.
exe
25.3 MB, 3 файла
49.8%
Исполняемые файлы. Исполняемый файл из игры Half-Life 2, а так же динамическая библиотека и исполняемый файл из пакета MS Office XP.
med
25.5 MB, 27 файлов
63.4%
Мультимедиа файлы. Несколько файлов изображений в формате PSD, несколько текстур из игр Half-Life 2 и Unreal Tournament 2003 во внутреннем формате, несколько файлов несжатого звука WAV из игры Half-Life 2.
txt
41.4 MB, 472 файла
24.9%
Текстовые файлы. Текстовые файлы в формате HTML на русском языке (16.5 MB), исходные коды на языках программирования JAVA, Delphi, Python (24.8 MB). Размер файлов от 20 MB.