Рассмотрим конкретные примеры этого важного раздела теории игр. Но вначале обсудим критерии успеха в играх вообще и в играх с природой, в частности. Вернемся к одному из трудных вопросов: для данной конкретной ситуации построить отвечающую ей целевую функцию. Решение его выходит за рамки теории игр и относится уже к теории полезности.
Во многих экономических задачах подходящими по смыслу целевыми функциями являются прибыль (или убыток). Наиболее простая цель – это отыскание максимального среднего дохода (или минимального среднего убытка). Предполагаем, что доход зависит от случайно реализовавшегося состояния природы. Тогда средний (по возможным состояниям погоды) доход, точнее математическое ожидание дохода, определяется как сумма величин дохода, умноженных на вероятности появления тех состояний природы, которые этим доходам соответствуют.
Критерий этот употребляется далеко не всегда, так как доставляемая им информация слишком усреднена. Как уже отмечалось, часто каждое действие оценивается по наихудшему для него состоянию природы. Оптимальным действием считается то, которое приводит к наилучшему результату при наихудшем состоянии. Такой критерий качества управления носит название максиминного критерия. Ясно, что максиминная стратегия обеспечивает наилучший ответ на наихудшее состояние природы, то есть, по сути, это стратегия осторожного, пессимистичного игрока.
Вместо того чтобы рассматривать платежную матрицу при выборе решения в условиях неопределенности, часто используют разумно построенную матрицу риска, то есть потерь при разных ходах человека и состояниях природы. Тогда к матрице риска может применяться минимаксный критерий, то есть выбирается то действие, которое делает наименьшим максимальный риск. Это тоже осторожная стратегия.
Возможны и другие критерии, учитывающие не наихудшее состояние природы, а ее наилучшее состояние, комбинации наилучшего и наихудшего и т.п. Какой критерий выбрать, зависит от конкретной задачи, а также от человека, который ее решает. Целевая функция зачастую находится в сильной зависимости и от искусства решающего, и от некоторых черт его характера (например, пессимист он или оптимист).
После этих общих рассуждений перейдем к игровой задаче, предложенной Г. Черновым и Л. Мозесом для демонстрации применения целевых функций.
Имеются два возможных состояния природы:
О1 – хорошая погода;
О2 – дождливая, холодная погода.
Некто имеет возможность предпринимать одно из трех действий:
а1 – надеть костюм для хорошей погоды;
а2 – взять зонт;
а3 – надеть плащ.
Как должен поступить Некто?
Прежде всего, составим платежную матрицу (таблица).
Числа в таблице характеризуют его риск – потери из-за несоответствия одежды погоде. Определить их, конечно, трудно, и можно это сделать разными путями. Например, они могут выражаться
Состояние природы (реальная погода)
Возможное действие
а1 – надеть легкий костюм
а2 – взять зонт
а3– надеть плащ
О1
-1
-3
О2
-5
-3
-2
денежными единицами – средними потерями в зарплате из-за болезни, которая может быть вызвана несоответствием одежды и погоды.
Естественно, что до выбора одного из действий этот Некто хочет утром получить какие-нибудь сведения о погоде днем и звонит в бюро погоды. Для простоты будем считать, что этот эксперимент не ведет ни к каким затратам. Результатом может быть один из нижеследующих ответов:
х1 – ожидается ясная погода;
х2 – ожидается облачность;
х3– ожидается дождь и похолодание.
На основании многолетней истории предполагается известным вероятности каждого из трех прогнозов, если в действительности реализовалась погода О1 или О2 (таблица).
Состояние природы (реальная погода днем)
Вероятности разных прогнозов (утром)
Прогноз х1
Прогноз х2
Прогноз х3
О1
0,6
0,25
0,15
О2
0,2
0,3
0,5
Будем называть стратегией ту совокупность действий человека, которую он ставит в соответствие трем прогнозам. Например, отметим такие стратегии: (х1, х2, х3) →( a1, a1, a1), то есть, что бы ему не ответили утром, он наденет легкий костюм – стратегия крайне легкомысленная; (х1, х2, х3) →(a3, a3, a3), то есть, что бы ему не ответили, он наденет плащ – стратегия крайне пессимистичная; (х1, х2, х3) →(a1, a2, a3), то есть, полная вера в прогноз.
Легко подсчитать, что всего Некто имеет 33=27 различных стратегий. Какую же из них выбрать? Естественно вычислить средние потери для каждой стратегии и реальной погоды и сравнить их между собой. В качестве примера оценим R2 – средние потери при реализовавшейся плохой погоде, если человек придерживается стратегии полной веры в прогноз:
R2=0,2·(-5)+0,3·(-3)+0,5·(-2)=-2,9.
В хорошую погоду потери равны R1=-0,7
Так как любой стратегии сопоставляются два числа – средние потери при каждом из двух возможных состояний природы, то их легко изобразить геометрически точками, у которых абсциссы R1– потери при первом состоянии природы, а ординаты R2 – при втором (рисунок).
Предположим, что человек решил использовать минимаксный критерий, точнее подобрать стратегию, которая обеспечит ему наименьший максимум двух средних потерь: min max (R1, R2). Из рисунка видно, что стратегия в этом смысле тем лучше, чем левее и ниже расположена изображающая ее точка. Понятно, что если абсцисса и ордината какой-нибудь точки соответственно меньше, чем абсцисса и ордината другой точки, то последнюю точку (стратегию) можно просто выбросить из дальнейшего рассмотрения.
Применив это рассуждение (паретовский подход – раздел 4.4), установим, что на рисунке количество точек можно существенно уменьшить.
Теперь можно привести средние потери при реальных состояниях природы для некоторых оставшихся стратегий Si (таблица).
Состояние природы (реальная погода)
S1a1, a1, a1
S2a1, a1, a2
S5a1, a2, a2
…S27a3, a3, a3
О1
0,15
0,4
…3
О2
3,4
…2
max R1, R2
3,4
…3
Покажем теперь, как выбирать стратегии из оставшихся, пользуясь минимаксным критерием.
Точно так же, как и в обычной теории игр, в игре с природой могут применяться стратегии не только в том смысле, как было определено здесь (чистые стратегии), но и смешанные стратегии.
Можно доказать, что смешанная стратегия, изображенная точкой Х обеспечивает минимум максимальных потерь. Чтобы ее реализовать, Некто должен использовать вероятностный механизм, с помощью которого он утром осуществит выбор только между стратегиями S18 (a2, a3, a3) и S27 (a3, a3, a3). Вероятности выбора S18 и S27 должны быть обратно пропорциональны расстояниям от точки Х до вершин S18 и S27, отвечающих этим стратегиям. Такая смешанная стратегия обеспечит не более, чем 2,3 единицы потерь при любой