Остановимся на трудностях, связанных с обучением нелинейных нейронных сетей. Основные из них следующие [37].
Медленная сходимость процесса обучения. Строго сходимость доказана для дифференциальных уравнений, т.е. для бесконечно малых шагов в пространстве весов. Но бесконечно малые шаги означают бесконечно большое время обучения. При конечных шагах сходимость не гарантируется, но даже если она имеет место, то потребное для этого время может быть слишком большим, сравнимым с временем жизни пользователя.
"Ловушки", создаваемые локальными минимумами. Детерминированный алгоритм обучения не в силах обнаружить глобальный минимум или покинуть локальный минимум. Одним из приемов, позволяющих обходить ловушки, является расширение размерности пространства весов за счет увеличения числа нейронов второго слоя. Некоторые новые возможности открывают стохастические методы. Но все это достигается ценой дополнительных затрат времени обучения.
"Паралич" сети. Сигмоидальный характер передаточной функции нейрона приводит к тому, что если в процессе обучения несколько весов стали слишком большими, то нейрон попадает на горизонтальный участок функции в область насыщения. При этом, изменения других весов, даже достаточно большие, практически не сказываются на величине выхода нейрона, а значит, и на величине целевой функции.
Из выражения для производной от передаточной функции (6.2) видно, что она стремится к нулю, когда у приближается к нулю или единице. Это значит, что связь между соседними слоями практически разрывается, и процесс обучения блокируется.
Неудачный выбор диапазона входных переменных - достаточно элементарная, но часто совершаемая ошибка. Если xi - двоичная переменная со значениями 0 и 1, то примерно в половине случаев она будет иметь нулевое значение: xi = 0. Поскольку х входит сомножителем в выражение для модификации веса (6.6), то эффект будет тот же, что при насыщении: модификация соответствующих весов прекратится, и обучение будет блокировано. Правильный диапазон для входных переменных должен быть симметричным, например от + 1 до -1.
"Перетренировка", Следует иметь в виду, что излишне высокая точность, полученная на обучающей выборке, может обернуться неустойчивостью результатов на тестовой выборке. Здесь действует общий закон: чем лучше система адаптирована к данным конкретным условиям, тем меньше она способна к обобщению и экстраполяции, тем скорее она может оказаться неработоспособной при изменении этих условий. А такие изменения от выборки к выборке неизбежны, особенно если выборки имеют небольшие размеры. Расширение объема обучающей выборки позволяет добиться большей устойчивости, но за счет увеличения времени обучения.
Проблема объема памяти. Емкость памяти нейросети, ее способность хранить и воспроизводить информацию являются одной из важнейших характеристик нейросети. Однако если в традиционных-последовательных машинах характеристики памяти достаточно понятны и доступны оценке, то в нейросетях дело обстоит намного сложнее.
Стохастические методы обучения. Детерминистский метод обучения производит модификацию весов сети только на основе информации о направлении градиента целевой функции в пространстве весов. Такой метод способен привести к локальному экстремуму, но не способен вывести из него, поскольку в точке экстремума сила обращается в нуль и причина движения исчезает (как это видно из уравнения динамики (6.4). Чтобы заставить сеть покинуть локальный экстремум и отправиться на поиски глобального, нужно создать дополнительную силу, которая зависела бы не от градиента целевой функции, а от каких-то других факторов. Выбор этих факторов, более или менее оправданный различными эвристическими соображениями, и составляет основу различных методов преодоления локальных ловушек. Один из простейших методов состоит в том, чтобы просто создать случайную силу и добавить ее к детерминистической. Само присутствие такого рода случайных факторов: "шума", "температуры" приводит к "усреднению, сглаживанию, размыванию" потенциальных барьеров. Мелкие гребни и впадины исчезают, и если в пространстве параметров есть глобальный экстремум, то выявляется сила, действующая в направлении этого экстремума. Правда, сила эта имеет случайный характер: она только в среднем направлена в сторону этого экстремума. По мере приближения к нему эта средняя регулярная составляющая уменьшается, приближаясь к нулю, и остается только случайная. Даже достигнув глобального экстремума, система будет продолжать колебаться около него с достаточно большой амплитудой. Поэтому обычно поступают таким образом: по мере приближения к экстремуму амплитуду случайной составляющей постепенно снижают. Такая процедура напоминает отжиг металла, когда для достижения оптимальной энергетической структуры металла его сначала нагревают, а потом медленно и постепенно охлаждают. Этот метод получил название "метод имитации отжига ".