В современных информационных системах часто используется вход по паролю. Если при этом где-то хранить пароли всех пользователей, система становится очень ненадежной, потому что “утечка” паролей позволит сразу получить доступ к данным. С другой стороны, кажется, что пароли обязательно где-то нужно хранить, иначе пользователи не смогут войти в систему. Однако это не совсем так. Можно хранить не пароли, а некоторые числа, полученные в результате обработки паролей. Простейший вариант — сумма кодов символов, входящих в пароль. Для пароля “A123” такая сумма равна 215:
Фактически мы определили функцию H(M), которая сообщение M любой длины превращает в короткий код m заданной длины. Такая функция называется хэшфункцией (от англ. hash — “мешанина”, “крошить”), а само полученное число — хэшкодом, хэшсуммой или просто хэшем исходной строки. Важно, что, зная хэшкод, невозможно восстановить исходный пароль! В этом смысле хэширование — это необратимое шифрование.
Итак, вместо пароля “A123” мы храним число 215. Когда пользователь вводит пароль, мы считаем сумму кодов символов этого пароля и разрешаем вход в систему только тогда, когда она равна 215. И вот здесь возникает проблема: существует очень много паролей, для которых наша хэшфункция дает значение 215, например, “B023”. Такая ситуация — совпадение хэшкодов различных исходных строк — называется коллизией (англ. collision — “столкновение”). Коллизии будут всегда — ведь мы “сжимаем” длинную цепочку байт до числа. Казалось бы, ничего хорошего не получилось: если взломщик узнает хэшкод, то, зная алгоритм его получения, он сможет легко подобрать пароль с таким же хэшем и получить доступ к данным. Однако это произошло потому, что мы выбрали плохую хэшфункцию.
Математики разработали надежные (но очень сложные) хэшфункции, обладающие особыми свойствами:
1) хэшкод очень сильно меняется при малейшем изменении исходных данных;
2) при известном хэшкоде m невозможно за приемлемое время найти сообщение M с таким хэшкодом;
3) при известном сообщении M невозможно за приемлемое время найти сообщение M1 с таким же хэшкодом.
Здесь выражение “невозможно за приемлемое время” (или “вычислительно невозможно”) означает, что эта задача решается только перебором вариантов (других алгоритмов не существует), а количество вариантов настолько велико, что на решение уйдут сотни и тысячи лет. Поэтому даже если взломщик получил хэшкод пароля, он не сможет за приемлемое время получить сам пароль (или пароль, дающий такой же хэшкод).
Чем длиннее пароль, тем больше количество вариантов. Кроме длины, для надежности пароля важен используемый набор символов. Например, очень легко подбираются пароли, состоящие только из цифр. Если же пароль состоит из 10 символов и содержит латинские буквы (заглавные и строчные) и цифры, перебор вариантов (англ. brute force — метод “грубой силы”) со скоростью 10 млн. паролей в секунду займет более 2000 лет.
Надежные пароли должны состоять не менее чем из 7–8 символов; пароли, состоящие из 15 символов и более, взломать методом “грубой силы” практически невозможно. Нельзя использовать пароли типа “12345”, “qwerty”, свой день рождения, номер телефона. Плохо, если пароль представляет собой известное слово, для этих случаев взломщики используют подбор по словарю. Сложнее всего подобрать пароль, который представляет собой случайный набор заглавных и строчных букв, цифр и других знаков.
Сегодня для хэширования в большинстве случаев применяют алгоритмы MD5, SHA1 и российский алгоритм, изложенный в ГОСТ Р34.11 94 (он считается одним из самых надежных). В криптографии хэшкоды чаще всего имеют длину 128, 160 и 256 бит.
Хэширование используется также для проверки правильности передачи данных. Различные контрольные суммы, используемые для проверки правильности передачи данных, — это не что иное, как хэшкоды.