Правило (принцип оптимальности по Беллману).
На любом k-ом шаге решение надо выбрать таким, чтобы было возможно выбрать последующие решения , для которых были бы максимальны как , так и .
Осуществление принципа Беллмана производится пошагово, «впопятную». Именно, вначале оценивается решение в момент времени tn-1 (последнее решение):
.
В пространстве решений перебираем решения . Для каждого состояния обозначим:
,
эффективность достигается выбором решения , которое называется условно оптимальным (при условии, что система находится в состоянии );
. Допустим, что состояние соответствует состоянию и решению .
Отступая назад на один шаг, находим:
;
значение зависит только от , так как , по модели управления системой.
Повторяем процедуру вплоть до вовлечения в выбор решения :
– это и есть уравнение Беллмана, воплощение принципа Беллмана. Таким образом находится набор оптимальных решений как функций аргументов соответственно, определяемых в обратном порядке (от к ). Зная значение и функцию , находится значение вектора решения; по модели управления определяется следующее состояние системы , по нему находится значение и так далее.
Уравнение Беллмана можно переписать в виде:
, демонстрирующим аддитивные свойства оптимальной эффективности.