Тексты являются важнейшим источником информации. Именно такой характер имеют экономические, плановые, учетные данные, представленные на естественном или искусственном языке. Каждый язык использует свою знаковую систему, основанную на алфавите. Письменность можно рассматривать как метод представления на материальных носителях знаков звуковой системы разговорного языка.
Для записи слов были изобретены буквы, для указания оттенков речи - знаки препинания. В настоящее время известно множество средств, позволяющих разнообразить письменные документы - шрифты, абзацы, заголовки, для создания четкой структуры документа используются главы, параграфы, оглавления, аннотации.
Рассмотрим последовательно, как кодируются символы, элементы текстов, текстовые документы.
Символы. Двоичное кодирование символьных данных производится заданием кодовых таблиц, согласно которым каждому символу ставят в соответствие одно- или двухбайтовый код. Помимо этого, кодовая таблица ставит в соответствие кодам клавиши на клавиатуре и начертание символа на экране монитора. Обратная задача - интерпретация кодов осложнена тем, что в одном языке, как правило, существуют несколько кодовых таблиц. Это связано с тем, что кодовые таблицы разрабатывались в разных странах в разные времена.
Наиболее популярная таблица ASCII разработана институтом стандартизации США в 1981 г. Ее использовали, в частности, программные продукты, работающие под управлением операционной системы MS-DOS. Для представления одного символа используется один байт (8 бит), т.е. кодовая таблица описывает 28 =256 различных кодов.
Коды с 0 до 127 составляют базовую (основную) таблицу; коды со 128 по 255 расширенную (дополнительную) таблицу.
В основной таблице располагаются управляющие команды для принтеров (коды 0 – 31 «перевод строки», «возврат каретки», им не соответствуют символы), затем спецсимволы, знаки арифметических действий и знаки препинания, цифры, латинские буквы - прописные и строчные.
Дополнительная таблица отдана национальным алфавитам, символам псевдографики (с помощью которых форматируются таблицы).
Позднее, при разработке операционной системы Windows, была создана кодовая таблица Windows-1251, в которой базовая таблица осталась прежней, а расширенная - изменилась. В целом, существование в нашей стране нескольких кодовых таблиц порождает задачу межсистемного преобразования данных.
Во многих странах Азии 256 кодов явно не хватило. В 1991 году производители программных продуктов (Microsoft, IBM, Apple) и стандартизаторы пришли к соглашению о выработке единого стандарта ISO 10646-1 (он же Unicode 3.0). Код построен по 31 битной схеме, но используются только два байта для кодирования одного символа. Два байта 16 бит создает 216 = 65536 кодов, которые описывают цифры, буквы латинского и многих национальных алфавитов, спецсимволы, знаки арифметических операций и т.д. Все текстовые документы в этой кодировке длинее вдвое, что сначала задерживало ее внедрение, но современный уровень технических средств допускает такую возможность. В настоящее время распространенный текстовый редактор Word, начиная с версии Word 8.0 (Microsoft Office 97) использует шрифты Unicode 3.0.
Текстовые строки. Текстовая (символьная строка) - это конечная последовательность символов. Это может быть осмысленный текст или произвольный набор, короткое слово или целая книга. Длина символьной строки - это количество символов в ней. Записывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст затем разделитель строк.
Текстовые документы. Текстовые документы используются для хранения и обмена данными в информационных системах, но сплошной, не разбитый на логические фрагменты текст воспринимается тяжело. Структурирование теста достигается форматированием - специфическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, которые текстовые метки (маркеры или теги), используемые для обозначения частей документа, записывают вместе с основным текстом в текстовом формате. Программы, анализирующие текст, структурируют его, считывая, теги.