Сдвиг обычно интерпретируется как связь, исходящая от элемента, активность которого всегда равна 1 (рис. 10). Комбинированный ввод в данном случае можно представить в виде
n
netj = Σ xi *wij
где x0всегда считается равным 1
Рис 10. Для удобства компонент смещения часто интерпретируется
как связь с элементом предыдущего слоя в предположении,
что активность этого элемента всегда равна 1
3. Сигмоидальная функция
Применяется очень часто для многослойных перцептронов и других сетей с непрерывными сигналами. Гладкость, непрерывность функции — важные положительные качества. Непрерывность первой производной позволяет обучать сеть градиентными методами (например, метод обратного
распространения ошибки).
Функция симметрична относительно точки (NET=0, OUT=1/2), это делает равноправными значения OUT=0 и OUT=1, что существенно в работе сети. Тем не менее, диапазон выходных значений от 0 до 1 несимметричен, из-за этого обучение значительно замедляется.
Данная функция — сжимающая, т.е. для малых значений NET коэффициент передачи K=OUT/NET велик, для больших значений он снижается. Поэтому диапазон сигналов, с которыми нейрон работает без насыщения, оказывается широким.
Значение производной легко выражается через саму функцию. Быстрый расчет производной ускоряет обучение.
Примером может служить логистическая функция (рис. 11)
OUT = 1/ 1 + e(-net)
Рис. 11 Логистическая функция НС
Наклон и область выходных значений логистической функции могут быть разными.
4. Гиперболический тангенс
Тоже применяется часто для сетей с непрерывными сигналами. Функция симметрична относительно точки (0,0), это преимущество по сравнению с сигмоидой.
Производная также непрерывна и выражается через саму функцию.
enet – e-net
OUT = th (net) = --------------
enet + e-net
OUT
net
Выбор функции активации определяется:
1. Спецификой задачи.
2. Удобством реализации на ЭВМ, в виде электрической схемы или другим способом.
3. Алгоритмом обучения: некоторые алгоритмы накладывают ограничения на вид функции активации, их нужно учитывать.
Чаще всего вид нелинейности не оказывает принципиального влияния на решение задачи. Однако удачный выбор может сократить время обучения в несколько раз.
Рис. 13 Однослойная нейронная сеть
Хотя один нейрон и способен выполнять простейшие процедуры распознавания, сила нейронных вычислений проистекает от соединений нейронов в сетях. Простейшая сеть состоит из группы нейронов, образующих слой, как показано в правой части рис. 13. Отметим, что вершины-круги слева служат лишь для распределения входных сигналов. Они не выполняют каких- либо вычислений, и поэтому не будут считаться слоем. По этой причине они обозначены кругами, чтобы отличать их от вычисляющих нейронов, обозначенных квадратами. Каждый элемент из множества входов Х отдельным весом соединен с каждым искусственным нейроном. А каждый нейрон выдает взвешенную сумму входов в сеть. В искусственных и биологических сетях многие соединения могут отсутствовать, все соединения показаны в целях общности. Могут иметь место также соединения между выходами и входами элементов в слое
Удобно считать веса элементами матрицы W. Матрица имеет т строк и п столбцов, где m – число входов, а n – число нейронов. Например, w2,3 – это вес, связывающий третий вход со вторым нейроном. Таким образом, вычисление выходного вектора N, компонентами которого являются выходы OUT нейронов, сводится к матричному умножению N =XW, где N и Х – векторы-строки.