Расписание обучения

Обучение однослойного перцептрона

Задача обучения однослойного перцептрона решается просто. Его работа определяется выражением:

y_j = F (∑w_ij * x _ij =θ )

Будем называть нейронную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора x^s на выходах всякий раз получается соответствующий вектор y^s .

Подадим на вход один вектор x ^sиз обучающего множества. Рассчитаем выход и сравним полученный выходной вектор y ^sс эталоном: d ^s. Зная разницу между ними, можно ввести коррекции для весовых коэффициентов и пороговых уровней:

∆w_ij = ε (d_j^s- y_j^s) *x_ij

∆ θ = - ε (d_j^s- y_j^s)

где ε — небольшое положительное число, характеризующее скорость обучения.

Разница между эталонным значением и выходом, (d_j^s- y_j^s)и умножение на текущее значение входа x_ijобеспечивают правильное направление коррекций: если y_j^s< d_j^s, то выход должен увеличиться, и вес увеличивается, если x_ij > 0и уменьшается, если x_ij < 0. Если x_ij = 0, то вес менять нельзя, т.к. он не влияет на выход.

Абсолютное значение x_ijтакже учитывается при обучении. Если значение входа велико, то небольшое изменение веса сильно меняет выход. Чем меньше меняются веса, тем меньше вероятность искажения уже запомненных образов. Поэтому множитель x_ijоправдан.

Данный метод обучения был назван Ф.Розенблаттом “методом коррекции с обратной передачей сигнала ошибки”. Позднее более широко стало известно название “δ-правило”. Представленный алгоритм относится к широкому классу алгоритмов обучения с учителем, поскольку известны как входные вектора, так и требуемые значения выходных векторов (имеется учитель, способный оценить правильность ответа ученика).

Веса и пороговые уровни инициализируются случайными значениями. Созданная таким образом сеть абсолютно неадекватна решаемой задаче и может генерировать на выходе только шум. Поэтому ошибка в начале обучения очень велика, и есть смысл вводить большие коррекции параметров. Ближе к концу обучения ошибка значительно снижается, и коррекции должны быть малыми. Чтобы менять длину шагов по параметрам, используют расписание обучения (learning schedule). Выберем скорость обучения зависящей от времени обучения: ε (t) . Обычно скорость монотонно убывает с ростом времени. Для сходимости алгоритма необходимо:

t → ^∞

ε (t)→ 0 и

Часто выбирают ε (t) =1/α * t, α = > 0 или аналогичные функции.

Алгоритмы с расписанием обучения сходятся быстрее, т.к. в начале используются большие коррекции, и дают более точные результаты за счет точной настройки параметров в конце обучения.