русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

ТОЧНІСТЬ КЛАСИФІКАЦІЇ. ОЦІНКА РІВНЯ ПОМИЛОК


Дата добавления: 2015-08-31; просмотров: 1229; Нарушение авторских прав


Оцінка точності класифікації може проводитися за допомогою крос-перевірки. Крос-перевірка (Cross-validation) - це процедура оцінки точності класифікації на даних з|із| тестової множини|безлічі|, яку також називають крос-перевірочною| множиною|безліччю|. Точність класифікації тестової множини|безлічі| порівнюється з|із| точністю класифікації навчальної множини|безлічі|. Якщо класифікація тестової множини|безлічі| дає приблизно такі ж результати за точностю, як і класифікація навчальної множини|безлічі|, вважається|лічиться|, що дана модель пройшла|минула,спливла| крос-перевірку.

Розподіл|поділ| на навчальну і тестову множини|безліч| здійснюється шляхом ділення|поділки,розподілу,поділу| вибірки у певній пропорції, наприклад навчальну множину|безліч| – дві третини даних і тестову – одну третина даних. Цей спосіб слід використовувати для вибірок з|із| великою кількістю прикладів|зразків|. Якщо ж вибірка має малі об’єми|обсяги|, рекомендується застосовувати спеціальні методи, при використанні яких навчальна і тестова вибірки можуть частково перетинатися.

 

Кластерний аналіз – це набір засобів для побудови груп (кластерів) із багатовимірних об’єктів даних. Завдання: побудувати групи з гомогенними властивостями із гетерогенного набору даних. Групи кластерів повинні бути гомогенними усередині, а різниці між окремими груп повинні бути гетерогенними.

Кластериний аналіз можна поділити на дві фундаментальні складові:

– вибір міри подібності. Досліджують пари спостережень на подібність їхніх властивостей. Міра подібності визначається для вимірювання «близькості» об’єктів;

– вибір алгоритму побудови груп. В основі лежить призначення об’єктів до певних груп таким чином, щоб різниці між групами ставали якомога більшими, а спостереження у групах – настільки близькими, наскільки це можливо.



 

Подібність об’єктів

 

Вихідна точка кластерного аналізу – матриця із вимірюваннями (об’єктами) та змінними. Подібність між об’єктами описують матрицею

 

.

 

Матриця містить міри подібності або відмінності між об’єктами. Якщо значення – відстані, то вони описують відмінності. Чим більша відстань – тим менш подібні об’єкти. Якщо – значення міри подібності, то справедливе зворотнє твердження, тобто чим більше значення міри, тим об’єкти ближчі. Матриця відстаней може, наприклад, визначатися -нормою: , де та позначають рядки матриці даних . Відстань та подібність – дуальні.

Природа спостережень відіграє важливу роль у вибору міри подібності. Номінальні значення (наприклад, бінарні змінні) ведуть до міри подібності, тоді як метричні (у загальному) – до матриць відстаней.

 

 

Подібність об’єктів бінарної структури

 

З метою визначення подібності між об’єктами порівнюють пари спостережень , де , , . У такиму випадкові можливі чотири ситуації:

 

,

,

,

.

 

На приактиці значення відстані обчислюють наступним чином:

 

,

де

 

,

,

,

.

 

Зауважимо, що кожне , залежить від пар . У даній формулі та – вагові фактори, у таблиці наведено деякі способи їх задання:

 

 

Назва Визначення
Джакарда (Jaccard)
Танімото (Tanimoto)
Дайса (Dice) 0.5

 

Дане формує альтернативний підхід до зваження неспівпадань чи позитивних (наявність спільного символу) та негативних (відсутність спільного символу) співпадань. Звичайно, можна скористатися Евклідовою відстанню і для бінарних даних. Проте, недоліком такого визначення відстані буде те, що операції над значеннями 0 та 1 будуть однаковими. Якщо, наприклад, визначає володіння якимись навичками, які є необхідною умовою для класифікації об’єктів як подібних, то протилежне (не володіння цими навичками) повинно впливати на результат інакшим чином, ніж 1 (тобто, відсутність подібності цього параметру більше свідчить про відмінність між спостереженнями, ніж наявність про подібність).

Бінарні змінні можна утворити із неперервних наступним чином:

 

 

 

Міра відстані для неперервних величин

 

Для визначення відстані між об’єктами, які характеризують неперервні величини, можна скористатися -нормами, ,

 

.

Нехай представляє значення -ї змінної об’єкту . Зрозуміло, що =0 для . Клас відстаней, утворений даним виразом для змінної визначає відмінності чи подіності різної ваги. , наприклад, надає менше ваги стороннім об’єктам, ніж норма . У переважній більшості випадків використовують квадрат норми .

Приклад. Нехай існують , та . Тоді матриці вдстаней для норм та відповідно мають вигляд:

 

, .

 

Як видно, третє спостереження набуло значно більшої ваги для квадрату норми , ніж у випадкові норми .

Основна вимога для використання відстаней, які визначають за нормами : змінні повинні бути виміряні в одному масштабі.



<== предыдущая лекция | следующая лекция ==>
ПРОЦЕС КЛАСИФІКАЦІЇ | 


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 2.598 сек.