Представление данных в памяти ЭВМ

Память компьютера состоит из двоичных элементов. Другими словами, любые данные, хранимые в ЭВМ, можно представить как последовательность, состоящую из 0 и 1. Важно, как эта последовательность будет интерпретироваться компьютером. Для этой цели вводится понятие типа данных. Тип данных может быть простым или составным. В качестве простых типов рассматривают: целое без знака, целое со знаком, логическое, вещественное, символьное и другие.

Составной тип определяется набором простых типов.

Пусть последовательность из n двоичных знаков e₁, e₂, ..., e₃ объявляется как целое без знака. Тогда она считается целым числом равным . Например, последовательность 10011 будет рассматриваться как 1*1+0*2+0*4+1*8+1*16=25. Максимальное число, которое можно представить при фиксированной длине последовательности n будет число =l*l+l*2+l*4+....+l*2ⁿ^-1=2ⁿ-l.

Если считать некоторую двоичную последовательность логической константой, то она получит значение «ложь», если состоит из одних 0, и значение «истина» в любом другом случае. Каноническим значением «истина» является последовательность из одних единиц.

Двоичное представление текстов. Занумеруем символы алфавита, который используется при записи текста, целыми числами от 0 до n-1, где n - число символов в этом алфавите. Каждому символу алфавита сопоставим двоичную последовательность, которая есть двоичная запись номера символа как целого без знака. Чтобы все символы алфавита могли быть записаны, выбираем длину представления n, так, чтобы, n удовлетворяло неравенству 2ⁿ>М. Поскольку n определяется этим неравенством неоднозначно, выбираем среди всех n, удовлетворяющих неравенству 2ⁿ>М, наименьшее.

Пусть алфавит состоит из 48 символов {а, б, в,..., я, (,), ...}, букв, разделителей и символов арифметических операций. Тогда в качестве длины представления для символов нужно выбрать n = 6, поскольку 2⁶ = 64>48, но 2⁵=32<48. Символ «а» будет представлен как 000000, символ «б» - как 000001, «в» -как 000010, «г» - как 000011.

Для современных компьютеров основной алфавит - это совокупность латинских букв, знаков препинания и арифметических операций. Для записи этих символов используются двоичные последовательности длиной 7. Фактически они занимают байт, т.е. 8 бит, но старший разряд всегда равен 0. Это представление символов называется ASCII-кодом. Кроме того, используются всевозможные дополнения к основному алфавиту: математические символы, греческий алфавит, национальные европейские алфавиты, не совпадающие с. латинским алфавитом, кириллица и т.д. Поскольку при этом для записи одного кода одного символа выделен только один байт, то одновременно можно пользоваться только одним из указанных дополнений. Это создаёт определённые трудности при формировании, текстов, поэтому предложены новые расширенные двухбайтовые представления, в частности UNICOD.

В нашем представлении с каждым символом связана определённая картинка, которую мы легко опознаём при чтении текста. Важно знать, что в компьютере не хранится никаких картинок - представлений для символов, а их двоичные коды. Картинки появляются на экране монитора с помощью специальной программы - драйвера экрана. Для этого драйвер экрана имеет таблицу отображения «код – картинка».

Текстовые файлы.При записи текстов важно не только его содержание, но и форма представления текста. Шрифт (Font), размер представления символов на экране, выделение - характеризуют символы индивидуально. Абзацы, списки, таблицы, заголовки различных уровней и вставленные дополнительно объекты (формулы, графики, рисунки) являются интегральными характеристиками текста. Ясно, что с помощью только кода такой текст, со всеми его особенностями оформления, представить нельзя.

Тексты, при записи которых используются только коды символов и разделителей строк, называются,dos-файлами.Для более полного представления текстов используются два подхода: явное описание форматов и скрытое. В первом случае используется обычный простой dos-файл, но в него вставляются специальные указания по его форматированию. Эти указания называются языками разметки. Наиболее распространёнными являются: HTML и XML. При просмотре таких файлов в простом редакторе dos-файлов, специальные указатели видны как простой текст и ни к какому изменению текста они не приводят. Чтобы указания выполнялись, нужно просматривать размеченный текст с помощью специальной программы -броузера (browser). Если соглашения по разметке общеприняты, то размеченные тексты можно читать на самых различных ЭВМ с различными операционными системами, что необходимо в глобальных сетях.

Скрытое описание используют редакторы текстов, в частности, WORD. Число символов легко получить, если воспользоваться пунктами меню Сервис> Статистика.

Поскольку разные программы используют файлы с различными форматами записи текстов, то при их совместном использовании возникает проблема конвертирования одного формата в другой. Проблемой здесь является не только написание соответствующей программы - конвертора, но и просто получение описания скрытого формата.

Двоичные файлы.Файлы, которые не являются последовательностью кодов символов, т.е. не являются текстами, называютдвоичными.Двоичными являются программы процессора (ЕХЕ-файлы), графические, звуковые, анимационные файлы.

В графических файлах хранятся статические образы экрана. Экран монитора представлен совокупностью точек - пикселей. В файле запоминаются цвета всех пикселей экрана. Как известно, любой цвет может быть представлен как линейная комбинация трёх базовых цветов: красного, зелёного и голубого. Для указания конкретного цвета достаточно указать интенсивность каждого базового цвета. В практике для записи интенсивности используется один байт, т.е. интенсивность может принимать одно из 256 значений. Для задания цвета одного пикселя требуется при этом три байта. Поскольку это считается непозволительной роскошью, то предлагаются всевозможные способы более короткой записи цветов и изображений. Так появляются многочисленные форматы графических файлов от самых простых форматов до весьма изощрённых. Кроме того, при записи графических файлов широко используют алгоритмы сжатия данных. Основной идеей здесь является использование палитры: фиксированного набора цветов, например 64 подходящих цветов. Каждый цвет задаётся тремя байтами в соответствии со сказанным выше. Сама картинка кодируется при этом номерами цветов палитры. В нашем случае для записи одного пикселя потребуется 6 бит, что в 4 раза меньше, чем при непосредственном представлении.

Звук, как известно, это колебание воздуха и может быть преобразован с помощью микрофона, в колебания силы или напряжения электрического тока. Выбрав малый промежуток времени, например, одну миллисекунду, будем записывать значение измеренного параметра в моменты, кратные этому промежутку. Если записывать измеряемое значение в целых числах, а затем заменить числа их двоичными кодами, то получим представление звука как двоичной последовательности. Это будет аудио-файл, который при желании может быть снова превращён в звук. С аудио-файлами можно совершать различного рода манипуляции, от простой подстановки аудио-файла в текстовый до сложной машинной аранжировки мелодий.

Выбор интервала измерения влияет на ширину полосы воспроизводимых частот, а именно, максимальная воспроизводимая без искажений частота со определяется по формуле , где - интервал. Число измерений, которое нужно сделать, чтобы получить неискажённое воспроизведение звука в полосе шириной составляет , где длина звучания в секундах, при условии, что частота измеряется в герцах. Для получения полосы воспроизведения в 20 Кгц, необходимо 40000 измерений для воспроизведения звука в течение 1 секунды при потребности в 80000 байтах памяти для запоминания этого звука. Таким образом, на компакт-диске ёмкостью 800 Мбайт будет размещаться информация, достаточная для воспроизведения звука в течение двух с половиной часов.

Форматированные файлы.Особую группу образуют форматированные файлы, используемые для хранения и обработки данных. Больше всего эти файлы напоминают длинные таблицы. Для формального определения форматированных файлов введём следующие понятия.

Поле - это элемент данных, имеющий длину, тип и имя. Тип поля может быть целый без знака, целый, вещественный, символьный (текстовый), логический, денежный, дата и определённый пользователем. Длина, тип, имя поля называются спецификацией поля.

Заданная совокупность полей образуетзапись. Спецификации полей, образующих запись, называютсяспецификация записи.

Записи, имеющие одинаковую спецификацию, сутьоднотипные.

Форматированный файл - последовательность однотипных записей. Очевидно, что все записи форматированного файла имеют одинаковую длину.

Поскольку все записи файла содержат одинаковые поля, мы можем объединять все одноимённые поля, принадлежащие различным записям, в столбец или поле. Для контроля данных при вводе, с каждым полем связывают некоторый метод контроля и программу, реализующую этот метод.

Простые поля, введённые нами, могут быть недостаточны для работы. Поэтому вводят составные поля. Для этого часть полей объединяют и называют общим именем.

Составные поля имеют только имена. С помощью их можно образовывать достаточно сложные шапки документов. В то же время использование составных полей существенно затрудняет задачи поиска и обработки файлов.

Кроме того, используются повторяющиеся поля. Такие поля могут использоваться для записи данных о бывших местах работы сотрудника или записи учебных заведений, которые он окончил.

Ещё одним нестандартным полем является поле типа «memo», имеющее неопределённую длину и содержащее текстовые данные. Этот тип поля может использоваться для примечаний или записи аннотаций.

Форматированные файлы обладают простой и легко описываемой структурой. Это описание можно присоединить к самому файлу. Это открывает путь к созданию программ, которые могут манипулировать файлами не одного типа, а файлами различных типов. Вопрос в том, как и в какой форме делать описание. В соответствии с установившейся терминологией можно назвать форму описания интерфейсом. Если пользоваться этим интерфейсом в своих разработках и держать это описание в секрете, то это будет закрытый интерфейс. Если оповестить всех о способе описания, то им могут воспользоваться и другие, создавая свои собственные программы для работы ;е такого рода файлами. Интерфейс будет открытый. Общепризнанный открытый интерфейс становится стандартом.