русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Проблемы и перспективы

Остановимся на трудностях, связанных с обучением нелинейных нейронных сетей. Основные из них следующие [37].

Медленная сходимость процесса обучения. Строго сходимость доказана для дифференциальных уравнений, т.е. для бесконечно малых шагов в пространстве весов. Но бесконечно малые шаги означают бесконечно большое время обучения. При конечных шагах сходимость не гарантируется, но даже если она имеет место, то потребное для этого время может быть слишком большим, сравнимым с временем жизни пользователя.

"Ловушки", создаваемые локальными минимумами. Детерминированный алгоритм обучения не в силах обнаружить глобальный минимум или покинуть локальный минимум. Одним из приемов, позволяющих обходить ловушки, является расширение размерности пространства весов за счет увеличения числа нейронов второго слоя. Некоторые новые возможности открывают стохастические методы. Но все это достигается ценой дополнительных затрат времени обучения.

"Паралич" сети. Сигмоидальный характер передаточной функции нейрона приводит к тому, что если в процессе обучения несколько весов стали слишком большими, то нейрон попадает на горизонтальный участок функции в область насыщения. При этом, изменения других весов, даже достаточно большие, практически не сказываются на величине выхода нейрона, а значит, и на величине целевой функции.

Из выражения для производной от передаточной функции (6.2) видно, что она стремится к нулю, когда у приближается к нулю или единице. Это значит, что связь между соседними слоями практически разрывается, и процесс обучения блокируется.

Неудачный выбор диапазона входных переменных - достаточно элементарная, но часто совершаемая ошибка. Если xi - двоичная переменная со значениями 0 и 1, то примерно в половине случаев она будет иметь нулевое значение: xi = 0. Поскольку х входит сомножителем в выражение для модификации веса (6.6), то эффект будет тот же, что при насыщении: модификация соответствующих весов прекратится, и обучение будет блокировано. Правильный диапазон для входных переменных должен быть симметричным, например от + 1 до -1.

"Перетренировка", Следует иметь в виду, что излишне высокая точность, полученная на обучающей выборке, может обернуться неустойчивостью результатов на тестовой выборке. Здесь действует общий закон: чем лучше система адаптирована к данным конкретным условиям, тем меньше она способна к обобщению и экстраполяции, тем скорее она может оказаться неработоспособной при изменении этих условий. А такие изменения от выборки к выборке неизбежны, особенно если выборки имеют небольшие размеры. Расширение объема обучающей выборки позволяет добиться большей устойчивости, но за счет увеличения времени обучения.

Проблема объема памяти. Емкость памяти нейросети, ее способность хранить и воспроизводить информацию являются одной из важнейших характеристик нейросети. Однако если в традиционных-последовательных машинах характеристики памяти достаточно понятны и доступны оценке, то в нейросетях дело обстоит намного сложнее.

Стохастические методы обучения. Детерминистский метод обучения производит модификацию весов сети только на основе информации о направлении градиента целевой функции в пространстве весов. Такой метод способен привести к локальному экстремуму, но не способен вывести из него, поскольку в точке экстремума сила обращается в нуль и причина движения исчезает (как это видно из уравнения динамики (6.4). Чтобы заставить сеть покинуть локальный экстремум и отправиться на поиски глобального, нужно создать дополнительную силу, которая зависела бы не от градиента целевой функции, а от каких-то других факторов. Выбор этих факторов, более или менее оправданный различными эвристическими соображениями, и составляет основу различных методов преодоления локальных ловушек. Один из простейших методов состоит в том, чтобы просто создать случайную силу и добавить ее к детерминистической. Само присутствие такого рода случайных факторов: "шума", "температуры" приводит к "усреднению, сглаживанию, размыванию" потенциальных барьеров. Мелкие гребни и впадины исчезают, и если в пространстве параметров есть глобальный экстремум, то выявляется сила, действующая в направлении этого экстремума. Правда, сила эта имеет случайный характер: она только в среднем направлена в сторону этого экстремума. По мере приближения к нему эта средняя регулярная составляющая уменьшается, приближаясь к нулю, и остается только случайная. Даже достигнув глобального экстремума, система будет продолжать колебаться около него с достаточно большой амплитудой. Поэтому обычно поступают таким образом: по мере приближения к экстремуму амплитуду случайной составляющей постепенно снижают. Такая процедура напоминает отжиг металла, когда для достижения оптимальной энергетической структуры металла его сначала нагревают, а потом медленно и постепенно охлаждают. Этот метод получил название "метод имитации отжига ".

Просмотров:

Вернуться в оглавление:Экспертные системы



Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Полезен материал? Поделись:

Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.