三个项目比大小的博弈
两个人分别在三个项目上投入总和固定的精力,该总和记为“1”;第一个人投入到三个项目的精力分别记为a1,a2,a3,
满足a1≥0,a2≥0,a3≥0,a1+a2+a3=1。
第二个人的约束是类似的,只是把所有的a改成b。
双方都分配好精力后,依次比较第一个、第二个、第三个项目,谁投入的精力更多,
多的一方得1分,若相同则各得0.5分。
三项得分之和大于1.5分的一方获胜,双方均为1.5分则打平。
问该博弈的纳什均衡策略是什么?
也就是求我方出手的概率密度函数p(a1,a2),
使得对方无论怎么分配精力,我方的获胜概率均不低于0.5。 如果对方恰好与我方采取相同策略分配精力呢? 本帖最后由 .·.·. 于 2020-4-6 18:21 编辑
diff(c(0,sort(runif(2)),1))
x~Dirichlet(1,1,1)
$p(p1,p2)=f_{U_{(1)},U_{(2)}}(p1,p2)$
这里f是两个均匀分布的次序统计量的联合分布,书上有公式但我实在懒得查
或者……Dirichlet分布里面抽样就完了。
证明大概是体力活
我只知道这样是最优解…… 由于 3 项精力的投入值 a1、a2、a3 是对称的,不妨设 a1≥a2≥a3。
实际对战的时候,我方先以 a1≥a2≥a3 的策略分配精力,
然后把所分配的精力值随机打乱顺序后,再和对方对战即可。
由于连续的概率分布比较难计算,所以先把取值范围离散化之后求解。
把精力投入值离散成 0/15、1/15、2/15、……、14/15、15/15 这 16 种取值之后,
编程求得我方的最佳策略是把以下标红的 4 个策略进行随机混合:
精力分配策略 使用该策略的概率
5/15 5/15 5/15 0.00000000000000
6/15 5/15 4/15 0.00000000000000
6/15 6/15 3/15 0.00000000000000
7/15 4/15 4/15 0.00000000000000
7/15 5/15 3/15 0.20000000000000
7/15 6/15 2/15 0.00000000000000
7/15 7/15 1/15 0.20000000000000
8/15 4/15 3/15 0.00000000000000
8/15 5/15 2/15 0.00000000000000
8/15 6/15 1/15 0.00000000000000
8/15 7/15 0/15 0.00000000000000
9/15 3/15 3/15 0.20000000000000
9/15 4/15 2/15 0.00000000000000
9/15 5/15 1/15 0.40000000000000
9/15 6/15 0/15 0.00000000000000
10/15 3/15 2/15 0.00000000000000
10/15 4/15 1/15 0.00000000000000
10/15 5/15 0/15 0.00000000000000
11/15 2/15 2/15 0.00000000000000
11/15 3/15 1/15 0.00000000000000
11/15 4/15 0/15 0.00000000000000
12/15 2/15 1/15 0.00000000000000
12/15 3/15 0/15 0.00000000000000
13/15 1/15 1/15 0.00000000000000
13/15 2/15 0/15 0.00000000000000
14/15 1/15 0/15 0.00000000000000
15/15 0/15 0/15 0.00000000000000
当我方使用上述混合策略时,对方各种策略的收益如下:
精力分配策略 该策略的获胜概率
5/15 5/15 5/15 0.50000000000000(打平)
6/15 5/15 4/15 0.50000000000000(打平)
6/15 6/15 3/15 0.50000000000000(打平)
7/15 4/15 4/15 0.50000000000000(打平)
7/15 5/15 3/15 0.50000000000000(打平)
7/15 6/15 2/15 0.50000000000000(打平)
7/15 7/15 1/15 0.50000000000000(打平)
8/15 4/15 3/15 0.50000000000000(打平)
8/15 5/15 2/15 0.50000000000000(打平)
8/15 6/15 1/15 0.50000000000000(打平)
8/15 7/15 0/15 0.50000000000000(打平)
9/15 3/15 3/15 0.50000000000000(打平)
9/15 4/15 2/15 0.50000000000000(打平)
9/15 5/15 1/15 0.50000000000000(打平)
9/15 6/15 0/15 0.50000000000000(打平)
10/15 3/15 2/15 0.50000000000000(打平)
10/15 4/15 1/15 0.50000000000000(打平)
10/15 5/15 0/15 0.50000000000000(打平)
11/15 2/15 2/15 0.40000000000000(劣势)
11/15 3/15 1/15 0.40000000000000(劣势)
11/15 4/15 0/15 0.40000000000000(劣势)
12/15 2/15 1/15 0.30000000000000(劣势)
12/15 3/15 0/15 0.30000000000000(劣势)
13/15 1/15 1/15 0.20000000000000(劣势)
13/15 2/15 0/15 0.20000000000000(劣势)
14/15 1/15 0/15 0.10000000000000(劣势)
15/15 0/15 0/15 0.00000000000000(必败)
也就是说,我方只需在 4 种分配方案里以 0.2、0.2、0.2、0.4 的概率随机出手,
就可以使得对方无论怎么分配精力,最多都只是和我方打平而已。
根据上述离散的解,我们可以初步断定:最大的分配值不会超过 2/3,否则就处于劣势了。
至于在 0 ~ 2/3 之间该如何取值,则需要继续细分,才能找到规律。 把精力分配的取值范围扩大到 31 个离散值,程序求解的结果如下:
我方的最佳策略如下:
精力分配策略 使用该策略的概率
10/30 10/30 10/30 0.00000000000000
11/30 10/309/30 0.00000000000000
11/30 11/308/30 0.00000000000000
12/309/309/30 0.00000000000000
12/30 10/308/30 0.00000000000000
12/30 11/307/30 0.00000000000000
12/30 12/306/30 0.00000000000000
13/309/308/30 0.00000000000000
13/30 10/307/30 0.00000000000000
13/30 11/306/30 0.00000000000000
13/30 12/305/30 0.00000000000000
13/30 13/304/30 0.03636363636364
14/308/308/30 0.00000000000000
14/309/307/30 0.00000000000000
14/30 10/306/30 0.00000000000000
14/30 11/305/30 0.05454545454545
14/30 12/304/30 0.00000000000000
14/30 13/303/30 0.03636363636364
14/30 14/302/30 0.00000000000000
15/308/307/30 0.03636363636364
15/309/306/30 0.05454545454545
15/30 10/305/30 0.09090909090909
15/30 11/304/30 0.00000000000000
15/30 12/303/30 0.00000000000000
15/30 13/302/30 0.01818181818182
15/30 14/301/30 0.00000000000000
15/30 15/300/30 0.00000000000000
16/307/307/30 0.00000000000000
16/308/306/30 0.00000000000000
16/309/305/30 0.05454545454545
16/30 10/304/30 0.00000000000000
16/30 11/303/30 0.03636363636364
16/30 12/302/30 0.00000000000000
16/30 13/301/30 0.00000000000000
16/30 14/300/30 0.00000000000000
17/307/306/30 0.03636363636364
17/308/305/30 0.00000000000000
17/309/304/30 0.00000000000000
17/30 10/303/30 0.00000000000000
17/30 11/302/30 0.00000000000000
17/30 12/301/30 0.09090909090909
17/30 13/300/30 0.07272727272727
18/306/306/30 0.00000000000000
18/307/305/30 0.00000000000000
18/308/304/30 0.00000000000000
18/309/303/30 0.00000000000000
18/30 10/302/30 0.00000000000000
18/30 11/301/30 0.09090909090909
18/30 12/300/30 0.00000000000000
19/306/305/30 0.00000000000000
19/307/304/30 0.05454545454545
19/308/303/30 0.05454545454545
19/309/302/30 0.07272727272727
19/30 10/301/30 0.00000000000000
19/30 11/300/30 0.01818181818182
20/305/305/30 0.00000000000000
20/306/304/30 0.00000000000000
20/307/303/30 0.07272727272727
20/308/302/30 0.00000000000000
20/309/301/30 0.01818181818182
20/30 10/300/30 0.00000000000000
21/305/304/30 0.00000000000000
21/306/303/30 0.00000000000000
21/307/302/30 0.00000000000000
21/308/301/30 0.00000000000000
21/309/300/30 0.00000000000000
22/304/304/30 0.00000000000000
22/305/303/30 0.00000000000000
22/306/302/30 0.00000000000000
22/307/301/30 0.00000000000000
22/308/300/30 0.00000000000000
23/304/303/30 0.00000000000000
23/305/302/30 0.00000000000000
23/306/301/30 0.00000000000000
23/307/300/30 0.00000000000000
24/303/303/30 0.00000000000000
24/304/302/30 0.00000000000000
24/305/301/30 0.00000000000000
24/306/300/30 0.00000000000000
25/303/302/30 0.00000000000000
25/304/301/30 0.00000000000000
25/305/300/30 0.00000000000000
26/302/302/30 0.00000000000000
26/303/301/30 0.00000000000000
26/304/300/30 0.00000000000000
27/302/301/30 0.00000000000000
27/303/300/30 0.00000000000000
28/301/301/30 0.00000000000000
28/302/300/30 0.00000000000000
29/301/300/30 0.00000000000000
30/300/300/30 0.00000000000000
对方策略的收益如下:
精力分配策略 该策略的获胜概率
10/30 10/30 10/30 0.50000000000000(打平)
11/30 10/309/30 0.50000000000000(打平)
11/30 11/308/30 0.50000000000000(打平)
12/309/309/30 0.50000000000000(打平)
12/30 10/308/30 0.50000000000000(打平)
12/30 11/307/30 0.50000000000000(打平)
12/30 12/306/30 0.50000000000000(打平)
13/309/308/30 0.50000000000000(打平)
13/30 10/307/30 0.50000000000000(打平)
13/30 11/306/30 0.50000000000000(打平)
13/30 12/305/30 0.50000000000000(打平)
13/30 13/304/30 0.50000000000000(打平)
14/308/308/30 0.50000000000000(打平)
14/309/307/30 0.50000000000000(打平)
14/30 10/306/30 0.50000000000000(打平)
14/30 11/305/30 0.50000000000000(打平)
14/30 12/304/30 0.50000000000000(打平)
14/30 13/303/30 0.50000000000000(打平)
14/30 14/302/30 0.50000000000000(打平)
15/308/307/30 0.50000000000000(打平)
15/309/306/30 0.50000000000000(打平)
15/30 10/305/30 0.50000000000000(打平)
15/30 11/304/30 0.50000000000000(打平)
15/30 12/303/30 0.50000000000000(打平)
15/30 13/302/30 0.50000000000000(打平)
15/30 14/301/30 0.50000000000000(打平)
15/30 15/300/30 0.50000000000000(打平)
16/307/307/30 0.50000000000000(打平)
16/308/306/30 0.50000000000000(打平)
16/309/305/30 0.50000000000000(打平)
16/30 10/304/30 0.50000000000000(打平)
16/30 11/303/30 0.50000000000000(打平)
16/30 12/302/30 0.50000000000000(打平)
16/30 13/301/30 0.50000000000000(打平)
16/30 14/300/30 0.50000000000000(打平)
17/307/306/30 0.50000000000000(打平)
17/308/305/30 0.50000000000000(打平)
17/309/304/30 0.50000000000000(打平)
17/30 10/303/30 0.50000000000000(打平)
17/30 11/302/30 0.50000000000000(打平)
17/30 12/301/30 0.50000000000000(打平)
17/30 13/300/30 0.50000000000000(打平)
18/306/306/30 0.50000000000000(打平)
18/307/305/30 0.50000000000000(打平)
18/308/304/30 0.50000000000000(打平)
18/309/303/30 0.50000000000000(打平)
18/30 10/302/30 0.50000000000000(打平)
18/30 11/301/30 0.50000000000000(打平)
18/30 12/300/30 0.50000000000000(打平)
19/306/305/30 0.50000000000000(打平)
19/307/304/30 0.50000000000000(打平)
19/308/303/30 0.50000000000000(打平)
19/309/302/30 0.50000000000000(打平)
19/30 10/301/30 0.50000000000000(打平)
19/30 11/300/30 0.50000000000000(打平)
20/305/305/30 0.50000000000000(打平)
20/306/304/30 0.50000000000000(打平)
20/307/303/30 0.50000000000000(打平)
20/308/302/30 0.50000000000000(打平)
20/309/301/30 0.50000000000000(打平)
20/30 10/300/30 0.50000000000000(打平)
21/305/304/30 0.46666666666667(劣势)
21/306/303/30 0.46666666666667(劣势)
21/307/302/30 0.46666666666667(劣势)
21/308/301/30 0.46666666666667(劣势)
21/309/300/30 0.46666666666667(劣势)
22/304/304/30 0.41818181818182(劣势)
22/305/303/30 0.41818181818182(劣势)
22/306/302/30 0.41818181818182(劣势)
22/307/301/30 0.41818181818182(劣势)
22/308/300/30 0.41818181818182(劣势)
23/304/303/30 0.36969696969697(劣势)
23/305/302/30 0.36969696969697(劣势)
23/306/301/30 0.36969696969697(劣势)
23/307/300/30 0.36969696969697(劣势)
24/303/303/30 0.32121212121212(劣势)
24/304/302/30 0.32121212121212(劣势)
24/305/301/30 0.32121212121212(劣势)
24/306/300/30 0.32121212121212(劣势)
25/303/302/30 0.27272727272727(劣势)
25/304/301/30 0.27272727272727(劣势)
25/305/300/30 0.27272727272727(劣势)
26/302/302/30 0.22424242424242(劣势)
26/303/301/30 0.22424242424242(劣势)
26/304/300/30 0.22424242424242(劣势)
27/302/301/30 0.17575757575758(劣势)
27/303/300/30 0.17575757575758(劣势)
28/301/301/30 0.12727272727273(劣势)
28/302/300/30 0.12727272727273(劣势)
29/301/300/30 0.07878787878788(劣势)
30/300/300/30 0.03030303030303(劣势)
对于上述求解结果,【最大的分配值不超过 2/3】依然成立,
但是最佳策略变复杂了,一共混合了 19 种分配方案。
由此可见,该博弈不太可能有简单策略,
当取值继续细分之后,最佳策略会逐渐趋近于某个概率密度函数,
但这个概率密度函数的表达式,目前我还求不出来。 假设 2/3 的分界点是对的,那就是要求一个概率密度函数 f(x,y,z),使得:
(1) 该概率密度函数在定义域范围内的积分等于 1:
$\int_{(x,y,z)\in D}f(x,y,z)dxdydz=1$
其中 $D=\{(x,y,z)|x+y+z=1, 0\leq x\leq 2/3, 0\leq y\leq 2/3, 0\leq z\leq 2/3\}$
(2) 无论对手采用哪种精力分配策略,他的胜率都是 0.5,
也就是对于所有的 $(u,v,w)\in D$,都有:
$\int_{(x,y,z)\in G(u,v,w)}f(x,y,z)dxdydz=0.5$
其中 $G(u,v,w)=\{(x,y,z)|x<u,y<v or x<u,z<w or y<v,z<w\}$
这个积分方程该怎么解呢?
页:
[1]