Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).
Для кодирования одного символа требуется один байт информации.
Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 28=256 различных символов.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).
Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.
Таблица кодировки
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки.
Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена.
Таблица кодировки ASCII.
Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.
Остальные 128 кодов (с 128 по 255) используются в разных вариантах. В русских кодировках размещаются символы русского алфавита.
Символ
Двоичный код
Символ
Двоичный код
Символ
Двоичный код
Символ
Двоичный код
А
И
Р
Ш
Б
Й
С
Щ
В
К
Т
Ъ
Г
Л
У
Ы
Д
М
Ф
Ь
Е
Н
Х
Э
Ж
О
Ц
Ю
З
П
Ч
Я
Отсутствие стандартов в этой области привело к множественности одновременно действующих кодировок. Так, например, кодировка символов русского алфавита, известная как кодировка Windows-1251, была введена «извне» – компанией Microsoft, но учитывая широкое распространение операционных систем и других продуктов этой компании на постсоветском пространстве, она глубоко закрепилась и нашла широкое распространение.
В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ-7, КОИ-8, СР1251, СР866, Mac, ISO).
КОИ – код обмена информации семизначный (восьмизначный).
СР – Code Page (кодовая страница).
В настоящее время получил широкое распространение новый международный стандарт Unicode – универсальная система кодирования, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536) различных символов.