- 注册时间
- 2007-12-27
- 最后登录
- 1970-1-1
- 威望
- 星
- 金币
- 枚
- 贡献
- 分
- 经验
- 点
- 鲜花
- 朵
- 魅力
- 点
- 上传
- 次
- 下载
- 次
- 积分
- 40155
- 在线时间
- 小时
|
发表于 2017-4-16 11:26:55
|
显示全部楼层
我们假设游戏结束后赢的人获得利润1,输的获得利润-1,于是这是一个零和游戏。
先考虑最后一轮的时候,假设两者现在相差$k$倍,不妨设$k>=1$,其中玩家1领先。显然在$k>=2$时,玩家1采用最保守策略必然可以赢得比赛,获得利润1。
所以我们主要看$1<=k<=2$的情况。
于是假设这时第一个玩家使用策略$a$,第二个玩家使用策略$b$,那么第二个玩家赢的概率为
$ Q(k,a,b)=[((2-b)>k(2-a))?ab:0] +[(2-b)(1+a)>k?(1-a)b:0]+[(1+a)>k(1+b)?(1-a)(1-b):0] $
如图三条彩色曲线代表上面三个不等式在a-b曲面上的图。双方博弈时,对于每个a的取值,如果和
某些边界相交,那么相当于要求对应处b的密度函数取值之间存在某些关系。
于是这种策略下,玩家1的利润的期望为$1-2Q(k,a,b)$,同样玩家2的利润的期望为$2Q(k,a,b)-1$
于是假设玩家2的最优策略的密度函数为g(b),必然有$\int_{b=0}^1 (2Q(k,a,b)-1)g(b)db = 2\int_{b=0}^1Q(k,a,b)g(b)db-1$的取值和a无关(或者玩家1不使用a)
于是表达式$H(k,a)=\int_{b=0}^1Q(k,a,b)g(b)db=C$对于a求偏导必然为0.
由于
$H(k,a) = a\int_{b=0}^{max{0, 2-k(2-a)}} bg(b)db + (1-a)\int_{b=0}^{min{1, 2-k/{1+a}}} bg(b)db + (1-a)\int_{b=0}^{max{0,(1+a)/k-1}}(1-b)g(b)db = C$
由$2-k/(1+a)>0$,而且$1>=2-2/k>k-1>=0$
第一个积分非零的条件是$a>2-2/k$,第三个积分非零的条件是$a>k-1$
我们得出
\(H(k,a)=C=\begin{cases}a\int_{b=0}^{2-k(2-a)}bg(b)db + (1-a)\int_{b=0}^1 bg(b)db + (1-a)\int_{b=0}^{\frac{1+a}{k}-1}(1-b)g(b)db && 2-\frac{2}{k}\le a\le 1\\ \\ (1-a)\int_{b=0}^{\frac{1+a}{k}-1}(1-b)g(b)db+ (1-a)\int_{b=0}^1bg(b)db && k-1\le a\le 2-\frac{2}{k}\\ \\(1-a)\int_{b=0}^{2-\frac{k}{1+a}} bg(b)db && 0\le a\le k-1\end{cases}\)
于是根据第二部分条件可以得出$\int_{b=0}^{{1+a}/k-1}(1-b)g(b)db=C/{1-a}-C_2$,
变量替换得出$\int_{b=0}^x(1-b)g(b)db=C/{2-k-kx}-C_2$,所以$g(x)={Ck}/{(1-x)(2-k-kx)^2}$对于一切$x\in(0,3/k-2/{k^2}-1)$,
根据第三部分$a=k-1$代入得出$C_2=\int_{b=0}^1bg(b)db=C/{2-k}$,顺带$a=0$代入可以有$C=\int_0^{2-k}bg(b)db=C$
同样对于第三类的情况,选手2的对策是$\int_{b=0}^{2-k/{1+a}} bg(b)db=C/{1-a}$,变量替换得出$\int_{b=0}^xbg(b)db={C(2-x)}/{4-k-2x}$
同样求导可以得出$g(x)={k*C}/{x(4-k-2x)^2}$对于一切$x\in(2-k,1)$。
现在比较有意思的是,根据第二类和第三类我们分别可以确定$b\in(0,3/k-2/{k^2}-1)$和$b\in(2-k,1)$中$g(b)$表达式(只是还有待定参数)
现在我们查看第一类中$H(k,a)$的表达式,对于$a\in(2-2/k, 2-3/k-3/{k^2}+2/{k^3})$对应图中阶梯状黑线的两条竖线之间,其中$H(k,a)$中第一个积分表达式正好可以利用前面第二类出来的结果
而$H(k,a)$中第二部分我们已知$\int_{b=0}^1 bg(b)db=C/{2-k}$,由此可以利用最后一部分根据$H(k,a)$和$a$取值无关的条件求出$g(b)$更大范围的表达式,
这种方法可以确定$b\in(0,\bar{b}={2-k}/{k+1})$范围的g函数表达式,其中点$(\bar{a}=1-\bar{b},\bar{b})$是图中两彩色直线交叉点。同样如果已经确定$b\in({2-k}/k,2-k)$范围的函数g的表达式,继续可以使用第一个公式确定余下所有区间$(\bar{b},2-k)$的函数g的
表达式,现在唯一缺失的就是$b\in({2-k}/k,2-k)$部分的表达式,这个是不是表示我们有很多选择的自由度。到底是这个区间只能取零?还是我们可以任意定义这个区间的密度函数,然后就可以唯一确定$b\in({2-k}/{k+1}, {2-k}/k)$区间的密度函数了。
现在关键是虽然理论上我们已经可以计算出g在$(3/k-2/{k^2}-1,\bar{b})$上表达式,但是实际上结果过于复杂,无法写出。不过如果能够计算出$\int_0^{\bar{b}}bg(b)db$或$g(\bar{b})$,都可以有助于分析$(\bar{b},2-k)$区间的情况,还可以用于帮忙确定$C$的值。
我们可以获得的信息是将$a=\bar{a}$代入第一式可得$\bar{a}\int_0^{\bar{b}}bg(b)db+(1-\bar{a})C/{2-k}+(1-\bar{a})\int_0^{\bar{b}}(1-b)g(b)db=C$
同样如果将$a=\bar{a}$代入第一式的微分形式可以得到$(k+1/k)\bar{a}\bar{b}g(\bar{b})=C/{2-k}+\int_0^{\bar{b}}(1-b)g(b)db-\int_0^{\bar{b}}bg(b)db$
类似我们要对Q函数关于a积分对b求偏导数可以得出第一个玩家的策略函数,同样估计要分类计算,估计计算量也不会小,而且不一定能够有解析解。
然后再得出两个玩家的最有策略后,应该可以计算出他们的利润的期望值$P_1(k)$.
此后,理论上我们就可以计算第二轮对应的Q函数,然后继续类似上面过程就可以得出两个玩家的最佳策略和利润期望值函数...
|
|