Принцип и уравнение Беллмана

Дата добавления: 2013-12-23; просмотров: 1423; Нарушение авторских прав

Правило (принцип оптимальности по Беллману).

На любом k-ом шаге решение надо выбрать таким, чтобы было возможно выбрать последующие решения , для которых были бы максимальны как , так и .

Осуществление принципа Беллмана производится пошагово, «впопятную». Именно, вначале оценивается решение в момент времени t_n_-1 (последнее решение):

В пространстве решений перебираем решения . Для каждого состояния обозначим:

эффективность достигается выбором решения , которое называется условно оптимальным (при условии, что система находится в состоянии );

. Допустим, что состояние соответствует состоянию и решению .

Отступая назад на один шаг, находим:

;

значение зависит только от , так как , по модели управления системой.

Повторяем процедуру вплоть до вовлечения в выбор решения :

– это и есть уравнение Беллмана, воплощение принципа Беллмана. Таким образом находится набор оптимальных решений как функций аргументов соответственно, определяемых в обратном порядке (от к ). Зная значение и функцию , находится значение вектора решения; по модели управления определяется следующее состояние системы , по нему находится значение и так далее.

Уравнение Беллмана можно переписать в виде:

, демонстрирующим аддитивные свойства оптимальной эффективности.

<== предыдущая лекция	\|	следующая лекция ==>
Постановка задачи	\|	Решение примера