русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Лекция: Количественная оценка информации


Дата добавления: 2013-12-23; просмотров: 4765; Нарушение авторских прав


Фасетная система классификации

Иерархическая система классификации

КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ ИНФОРМАЦИИ

Важным понятием при работе с информацией является классификация объектов.

Классификация — система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов — это процедура группировки на качественном уровне, направ­ленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Пример. Всю информацию об университете можно классифицировать по много­численным информационным объектам, которые будут характеризоваться общими свойствами:

· информация о студентах — в виде информационного объекта "Студент";

· информация о преподавателях — в виде информационного объекта "Преподава­тель";

· информация о факультетах — в виде информационного объекта "Факультет" и т.п.

Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, напри­мер вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.

Реквизит — логически неделимый информационный элемент, описывающий определенное свойство объекта.

Пример. Информация о каждом студенте в отделе кадров университета система­тизирована и представлена посредством одинаковых реквизитов:

· фамилия, имя, отчество;

· пол;

· год рождения;

· месторождения;



· адрес проживания;

· факультет, где проходит обучение студент, и т.д.

Все перечисленные реквизиты характеризуют свойства информационного объекта "Студент".

Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной сово­купностью реквизитов.

При любой классификации желательно, чтобы соблюдались следующие требования:

· полнота охвата объектов рассматриваемой области;

· однозначность реквизитов;

· возможность включения новых объектов.

В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д.

Классификатор — систематизированный свод наименований и кодов классификационных группировок.

При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления.

Пример. В качестве признака классификации выбирается возраст, который состо­ит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет. Можно в качестве признаков классификации использовать: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.

Иерархическая система классификации строится следующим об­разом:

· исходное множество элементов составляет 0-й уровень и делится в зависимости от вы­бранного классификационного признака на классы (группировки), которые образуют 1-й уровень;

· каждый класс 1-го уровня в соответствии со своим, характерным для него классифика­ционным признаком делится на подклассы, которые образуют 2-й уровень;

· каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уро­вень, и т.д.

 

Учитывая достаточно жесткую процедуру построения структуры классификации, не­обходимо перед началом работы определить ее цель, т.е. какими свойствами должны обла­дать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.

Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.

Количество уровней классификации; соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

· простота построения;

· использование независимых классификационных признаков в различных ветвях ие­рархической структуры.

Недостатки иерархической системы классификации:

· жесткая структура, которая приводит к сложности внесения изменений, так как прихо­дится перераспределять все классификационные группировки;

· невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Пример. Поставлена задача — создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать ин формацию обо всех студентах по следующим классификационным признакам: факультет, на котором он учится, возрастной состав студентов, пол студента.

Система классификации представлена на рис.2.4 и будет иметь следующие уровни: 0-й уровень. Информационный объект "Факультет";

1-й уровень. Выбирается классификационный признак — название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.

2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяют­ся три возрастных подкласса студентов.

3-й уровень. Выбирается классификационный признак — пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы — мужчин и женщин.

Созданная иерархическая система классификации имеет глубину классификации, рав­ную трем.

 

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений дан­ного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Пример. Фасет цвет содержит значения: красный, белый, зеленый, черный,

желтый.

Фасет специальность содержит названия специальностей.

Фасет образование содержит значения: среднее, среднее специальное, высшее.

Схема построения фасетной системы классификации в виде таблицы отображена на рисунке. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2, ..., Фi,…,Фn. Например, цвет, размер одежды, вес и т.д.

Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное зна­чение фасета. Например, фасет цвет, обозначенный Ф1, содержит значения: красный, белый, зеленый, черный, желтый.

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объ­екта задается конкретная группировка фасетов структурной формулой, в которой отражает­ся их порядок следования:

Кs = (Ф1,Ф2,...,Фi,...,Фn),

где Фi|— i-й фасет;

n — количество фасетов.

При построении фасетной системы классификации необходимо, чтобы значения, ис­пользуемые в различных фасетах, не повторялись. Фасетную систему легко можно модифи­цировать, внося изменения в конкретные значения любого фасета.

Достоинства фасетной системы классификации:

· возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

· возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее постро­ения, так как необходимо учитывать все многообразие классификационных признаков.

Пример. Обратитесь к содержанию предыдущего примера, где показано построение ие­рархической системы классификации. Для сопоставления разработаем фасетную сис­тему классификации.

Сгруппируем и представим в виде таблицы все классификационные призна­ки по фасетам:

· фасет название факультета с четырьмя названиями факультетов;

· фасет возраст с тремя возрастными группами;

· фасет пол с двумя градациями;

Структурную формулу любого класса можно представить в виде:

Ks=(Факультет, Возраст, Пол,0

Присваивая конкретные значения каждому фасету, получим следующие классы:

K1 = (Юридический факультет, возраст до 20 лет, мужчина,);

К2= (Коммерческий факультет, возраст от 20 до 30 лет, мужчина,);

Кз = (Математический факультет, возраст до 20 лет, женщина,) и т.д.

 

КОЛИЧЕСТВЕННАЯ ОЦЕНКА ИНФОРМАЦИИ

Общее число неповторяющихся сообщений, которое может быть составлено из алфавита

m путем комбинирования по n символов в сообщении,

. (1)

Неопределенность, приходящаяся на символ первичного (кодируемого)

[1] алфавита, составленного из равновероятностных и взаимонезависимых

символов,

. (2)

Основание логарифма влияет лишь на удобство вычисления. В случае оценки

энтропии:

а) в двоичных единицах

б) в десятичных единицах

где ;

в) в натуральных единицах

где

Так как информация есть неопределенность, снимаемая при получении сообщения, то

количество информации может быть представлено как произведение общего числа

сообщений к на среднюю энтропию Н, приходящуюся на одно

сообщение:

(3)

Для случаев равновероятностных и взаимонензависимых символов первичного алфавита

количество информации в к сообщениях алфавита m равно

а количество информации в сообщении, составленном из к

неравновероятностных символов,

(5)

Для неравновероятностных алфавитов энтропия на символ алфавита

(4)

При решении задач, в которых энтропия вычисляется как сумма произведений

вероятностей на их логарифм, независимо от того, являются ли они безусловными

, условными или

вероятностями совместных событий

.

Количество информации определяется исключительно характеристиками первичного

алфавита, объем – характеристиками вторичного алфавита. Объем

[2] информации

(6)

где lср – средняя длина кодовых слов вторичного алфавита. Для

равномерных кодов (все комбинации кода содержат одинаковое количество разрядов)

где n – длина кода (число элементарных посылок в коде). Согласно (3),

объем равен количеству информации, если lср=Н, т.е. в случае максимальной информационной нагрузки на символ сообщения. Во всех

остальных случаях .

Например, если кодировать в коде Бодо некоторые равновероятный алфавит,

состоящий из 32 символов, то

Если закодировать в коде Бодо русский 32-буквенный алфавит, то без учета

корреляции между буквами количество информации

т.е. если в коде существует избыточность и

, то объем в битах всегда больше количества информации в тех же единицах.

Тема 2. Условная энтропия и энтропия объединения

Понятие условной энтропии в теории информации используется при определении

взаимозависимости[3] между символами

кодируемого алфавита, для определения потерь при передаче информации по каналам

связи, при вычислении энтропии объединения.

Во всех случаях при вычислении условной энтропии в том или ином виде

используются условные вероятности.

Если при передаче n сообщений символ А появился m раз,

символ В появился l раз, а символ А вместе с символом

Вк раз, то вероятность появления символа А

; вероятность появления символа В

; вероятность совместного появления символов А и В

; условная вероятность появления символа А относительно символа В

и условная вероятность появления символа В относительно символа А

(7)

Если известна условная вероятность, то можно легко определить и вероятность

совместного появления символов А и В, используя выражения (7)

(8)

От классического выражения (4) формула условной энтропии отличается тем, что

в ней вероятности – условные:

(9)

(10)

где индекс i выбран для характеристики произвольного состояния

источника сообщения А, индекс j выбран для характеристики произвольного

состояния адресата В.

Различают понятия частной и общей условной энтропии. Выражение (9) и (10)

представляют собой частные условные энтропии.

Общая условная энтропия сообщения В относительно сообщения А

характеризует количество информации, содержащейся в любом символе алфавита, и

определяется усреднением по всем символам, т. е. по всем состояниям с учетом

вероятности появления каждого из состояний, и равна сумме вероятностей

появления символов алфавита на неопределенность, которая остается после того,

как адресат принял сигнал

 

(11)

Выражение (11) является общим выражением для определения количества

информации на один символ сообщения для случая неравномерных и

взаимонезависимых символов.

Так как

представляет собой вероятность совместного появления двух событий

, то формула (11) можно записать следующим образом:

(12)

Понятие общей и частной условной энтропии широко используется при вычислении

информационных потерь в каналах связи с шумами.

В общем случае, если мы передаем m сигналов А и ожидаем получить

m сигналов В, влияние помех в канале связи полностью описывается

канальной матрицей, которую мы приводим ниже:

 

В А b1 b2 . bj . bm
а1 а2 . аi . аm ........................ .......................

 

Вероятности, которые расположены по диагонали, определяют правильный прем,

остальные – ложный. Значение цифр, заполняющих колонки канальной матрицы,



<== предыдущая лекция | следующая лекция ==>
КАЧЕСТВО ИНФОРМАЦИИ | Тема 3. Вычисление информационных потерь при передаче сообщений по каналам


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.062 сек.