Для представления текстовой (символьной) информации в компьютере используется алфавит мощностью 256 символов. Один символ такого алфавита несет 8 бит информации. Но 8 бит = 1 байту, следовательно, двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.
Пример 3.1. Сколько бит памяти компьютера займет слово «Микропроцессор»?
Решение. Слово состоит из 14 букв. Каждая буква является символом компьютерного алфавита и поэтому занимает 1 байт памяти. Слово занимает 14 байт = 112 бит памяти.
Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код есть порядковый номер символа в двоичной системе счисления.
Соответствие между символами и их порядковыми номерами устанавливается таблицей кодировки. Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standard Code for Information Interchange) – Американский стандартный код для информационного обмена.
Стандартными в этой таблице являются только первые 128 символов, т.е. символы с номерами от 0 (00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная с 128 (10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики (например, символы ├, ┤, ╩) и научных символов (например, символы ±, ≤, √).
Принцип последовательного кодирования алфавита:
В кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значения. Данное правило соблюдается и в других таблицах кодировки. Благодаря этому и в машинном представлении для символьной информации сохраняется понятие «алфавитный порядок».
Между десятичным кодом строчной латинской буквы и десятичным кодом соответствующей заглавной буквы разница составляет 32. Так десятичный код заглавной буквы «А» есть 65, а строчной буквы «а» - 97 (65+32=97).
Пример 3.2. Буква «i» в таблице кодировке символов имеет десятичный код 105. Что зашифровано последовательностью десятичных кодов: 108 105 110 107?
Решение. Выпишем часть латинского алфавита и проставим их коды
i
j
k
l
m
n
o
Теперь вместо кодов подставим соответствующие символы:
l
i
n
k
Получили слово “link”.
Пример 3.3. С помощью последовательности десятичных кодов 99 111 109 112 117 116 101 114 зашифровано слово “computer”. Какая последовательность десятичных кодов будет соответствовать этому же слову, записанному заглавными буквами?
Текстовая информация, хранящаяся в памяти компьютера в двоичном коде, из-за своей многозначности неудобна для восприятия человеком. На практике внутреннее представление чаще всего перекодируется в шестнадцатеричную форму. Шестнадцатеричный код каждого символа – двузначное число от 00 до FF.
Пример 3.4. Последовательность двоичных кодов: 01110011 01110100 01101111 01110000 соответствует слову "stop". Построить внутреннее шестнадцатеричное представление этого числа.
Решение. Заменим каждое двоичное число его шестнадцатеричным представлением:
01110011 - 73
01110100 - 74
01101111 - 6F
01110000 - 70
Следовательно, шестнадцатеричный код будет 73 74 6F 70.