德州扑克各种打法的最佳策略 - 第2页 - 编程擂台 - 数学研发论坛

KeyTo9_Fans 发表于 2016-10-11 16:01:12

之前讨论的都是限定下注打法。

德州扑克更普遍的打法是自由下注打法。

我们接下来研究一下自由下注该怎么打。

简单起见，我们先研究最简单的情形，规则如下：

——————————

首先双方各随机分得$1$张手牌，手牌只有$2$种：大和小，概率各为$50%$。

我方强制下注$1$筹码（小盲注），对方强制下注$2$筹码（大盲注）。

我方先行，有如下$3$种行动：

弃牌：输掉$1$筹码给对方；

跟注到$2$筹码：对方可选择摊牌比牌或者加注，若加注，则轮到我方选择弃牌或者跟注后摊牌比牌。

加注到$4$筹码：对方可选择弃牌或者跟注后摊牌比牌。

比牌规则：如果双方的手牌都是大，或者都是小，则为平局，双方平分底池；如果是一大一小，则大手牌赢得底池。

——————————

接下来讨论策略。

之前已经说过，策略就是

【状态】→【行动】

这样的一个函数。

由于上述游戏的状态数很少，我们可以把所有可能的策略一一列举出来。

我方一共有$16$种策略：

策略$01$：小:弃牌；大:弃牌。
策略$02$：小:弃牌；大:跟注，对方加注:弃牌。
策略$03$：小:弃牌；大:跟注，对方加注:跟注。
策略$04$：小:弃牌；大:加注。
策略$05$：小:跟注，对方加注:弃牌；大:弃牌。
策略$06$：小:跟注，对方加注:弃牌；大:跟注，对方加注:弃牌。
策略$07$：小:跟注，对方加注:弃牌；大:跟注，对方加注:跟注。
策略$08$：小:跟注，对方加注:弃牌；大:加注。
策略$09$：小:跟注，对方加注:跟注；大:弃牌。
策略$10$：小:跟注，对方加注:跟注；大:跟注，对方加注:弃牌。
策略$11$：小:跟注，对方加注:跟注；大:跟注，对方加注:跟注。
策略$12$：小:跟注，对方加注:跟注；大:加注。
策略$13$：小:加注；大:弃牌。
策略$14$：小:加注；大:跟注，对方加注:弃牌。
策略$15$：小:加注；大:跟注，对方加注:跟注。
策略$16$：小:加注；大:加注。

对方也是一共有$16$种策略：

策略$01$：小被跟注:看牌，小被加注:弃牌；大被跟注:看牌，大被加注:弃牌；
策略$02$：小被跟注:看牌，小被加注:弃牌；大被跟注:看牌，大被加注:跟注；
策略$03$：小被跟注:看牌，小被加注:弃牌；大被跟注:加注，大被加注:弃牌；
策略$04$：小被跟注:看牌，小被加注:弃牌；大被跟注:加注，大被加注:跟注；
策略$05$：小被跟注:看牌，小被加注:跟注；大被跟注:看牌，大被加注:弃牌；
策略$06$：小被跟注:看牌，小被加注:跟注；大被跟注:看牌，大被加注:跟注；
策略$07$：小被跟注:看牌，小被加注:跟注；大被跟注:加注，大被加注:弃牌；
策略$08$：小被跟注:看牌，小被加注:跟注；大被跟注:加注，大被加注:跟注；
策略$09$：小被跟注:加注，小被加注:弃牌；大被跟注:看牌，大被加注:弃牌；
策略$10$：小被跟注:加注，小被加注:弃牌；大被跟注:看牌，大被加注:跟注；
策略$11$：小被跟注:加注，小被加注:弃牌；大被跟注:加注，大被加注:弃牌；
策略$12$：小被跟注:加注，小被加注:弃牌；大被跟注:加注，大被加注:跟注；
策略$13$：小被跟注:加注，小被加注:跟注；大被跟注:看牌，大被加注:弃牌；
策略$14$：小被跟注:加注，小被加注:跟注；大被跟注:看牌，大被加注:跟注；
策略$15$：小被跟注:加注，小被加注:跟注；大被跟注:加注，大被加注:弃牌；
策略$16$：小被跟注:加注，小被加注:跟注；大被跟注:加注，大被加注:跟注；

于是这个游戏就转化成了经典的矩阵博弈问题。

我方的收益矩阵如下：

通过观察收益矩阵，我们可以发现：

我方有$4$种不败策略：$03$、$04$、$07$和$16$，

对方有$2$种不败策略：$02$和$04$，

由于双方都有不败策略，最终双方打成平手，期望收益皆为$0$。

#####

我们接下来尝试用同样的方法，

把手牌范围和下注额范围扩大，

然后把该游戏转化成矩阵博弈，

再通过分析收益矩阵来获得双方的最佳策略，

最后通过查看双方的最佳策略来学习范围扩大以后该怎么打:lol

（打了$7$年的德州，最近几个月静下心来研究，才悟出来德州扑克的本质是矩阵博弈:loveliness: 觉得这个想法靠谱的点个赞呗:handshake）

KeyTo9_Fans 发表于 2016-10-12 09:40:04

我们首先把手牌的范围扩大：

——————————
手牌一共有$n$种。

下注和比牌规则不变。
——————————

接下来讨论策略。

策略：状态 → 行动

对于先手来说，每种手牌就是一种状态，一共有$n$种状态。

每种状态有$4$种行动：弃、跟弃、跟跟、加。

弃：弃牌
跟弃：跟注，被加注就弃牌
跟跟：跟注，被加注就跟注
加：加注

所以一共有$4\times 4\times 4\times\cdots\times 4=4^n$种策略。

对于后手来说，状态 = 手牌 × 局面，

手牌有$n$种，局面有$2$种：被跟注、被加注，

所以一共有$2n$种状态。

每种状态都有$2$种行动：

被跟注：看牌、加注
被加注：弃牌、跟注

所以一共有$2\times 2\times 2\times\cdots\times 2=2^{2n}=4^n$种策略。

接下来就可以列出一张$4^n\times 4^n$的盈亏表了，

表的每一行表示我方的一个策略，每一列表示对方的一个策略，

每个单元格是我方策略与对方策略对战后的我方收益。

当$n=2$时，手工打表足矣，参见楼上。

当$n>2$时，手工打表就很吃力了，得编程打表。

程序正在编写，请大家静候佳音。

#####

程序编写完成。

运行$n=3$，得到一个$64\times 64$的收益矩阵。

通过分析收益矩阵，得到我方的最佳策略只有$1$种：

小 → 弃牌；中 → 加注；大 → 加注。

对方的最佳策略也只有$1$种：

小 → 看牌/弃牌；中 → 加注/跟注；大 → 加注/跟注。

#####

运行$n=4$，得到一个$256\times 256$的收益矩阵。

通过分析收益矩阵，发现双方所有的固定打法都不是最佳策略。

为什么会出现这样的结果呢？

我们举一个简单的例子：

——————————

在剪刀石头布游戏里，有$3$种固定的策略：

$1$、把把出剪刀
$2$、把把出石头
$3$、把把出布

但这$3$种固定的策略都不是最佳策略。

该游戏的最佳策略是以$1/3$的概率出剪刀、以$1/3$的概率出石头、以$1/3$的概率出布。

如果不同的赢法得分不一样，出剪刀、石头、布的概率还得相应地调整，以获得尽可能高的期望得分。

参见 mathe 大师在 http://bbs.emath.ac.cn/thread-3645-1-1.html 作出的解答。

——————————

当$n=4$时，

我方的最佳策略是把以下$4$种固定的策略按照特定的概率（$p_1$、$p_2$、$p_3$、$p_4$）随机选取一种。

$1$、最大 → 加注；次大 → 跟跟；次小 → 弃牌；最小 → 弃牌。
$2$、最大 → 加注；次大 → 跟跟；次小 → 跟弃；最小 → 弃牌。
$3$、最大 → 加注；次大 → 跟跟；次小 → 加注；最小 → 弃牌。
$4$、最大 → 加注；次大 → 跟跟；次小 → 加注；最小 → 加注。

选取概率必需满足这些条件：$p_2=0.5$，$p_1+p_3+p_4=0.5$，$p_1\leq 2p_4+p_3/2$，$p_4\leq p_1+p_3/2$。

以$p_1=p_4=0，p_2=p_3=0.5$为例，以上$4$种策略就组合成这样的最佳策略了：

最大 → 加注；次大 → 跟跟；次小 → 抛硬币，正面加注，反面跟弃；最小 → 弃牌。

对方的最佳策略是把以下$4$种固定的策略按照特定的概率（$q_1$、$q_2$、$q_3$、$q_4$）随机选取一种。

$1$、最大 → 加注/跟注；次大 → 看牌/跟注；次小 → 看牌/弃牌；最小 → 看牌/弃牌。
$2$、最大 → 加注/跟注；次大 → 看牌/跟注；次小 → 看牌/弃牌；最小 → 加注/弃牌。
$3$、最大 → 加注/跟注；次大 → 加注/跟注；次小 → 看牌/弃牌；最小 → 看牌/弃牌。
$4$、最大 → 加注/跟注；次大 → 加注/跟注；次小 → 看牌/弃牌；最小 → 加注/弃牌。

选取概率必需满足这些条件：$q_1+q_2+q_3+q_4=1$，$q_1=q_4$，$q_2=q_3$。

以$q_1=q_2=q_3=q_4=0.25$为例，以上$4$种策略就组合成这样的最佳策略了：

最大 → 加注/跟注；次大 → 抛硬币，正面加注/跟注，反面看牌/跟注；次小 → 看牌/弃牌；最小 → 抛硬币，正面加注/弃牌，反面看牌/弃牌。

#####

运行$n=5$，得到一个$1024\times 1024$的收益矩阵。

通过分析收益矩阵，得到我方的最佳策略：

最大 → $3/4$加注，$1/4$跟跟；次大 → 跟跟；中 → $1/4$跟跟，$3/4$跟弃；次小 → $1/4$加注，$3/4$弃牌；最小 → 弃牌。

对方的最佳策略：

最大 → 加注/跟注；次大 → ($7/8$加注,$1/8$看牌)/跟注；中 → 看牌/($1/2$弃牌,$1/2$跟注)；次小 → ($5/8$加注,$3/8$看牌)/弃牌；最小 → 看牌/弃牌。

#####

运行$n=6$，得到一个$4096\times 4096$的收益矩阵。

通过分析收益矩阵，得到我方的最佳策略：

最大 → $3/4$加注，$1/4$跟跟；次大 → 加注；中上 → 跟跟；中下 → $1/4$跟跟，$3/4$跟弃；次小 → $7/12$加注，$5/12$弃牌；最小 → 弃牌。

对方的最佳策略：

最大 → 加注/跟注；次大 → 加注/跟注；中上 → ($1/4$加注,$3/4$看牌)/跟注；中下 → 看牌/弃牌；次小 → ($3/4$加注,$1/4$看牌)/弃牌；最小 → 看牌/弃牌。

#####

运行$n=7$，得到一个$16384\times 16384$的收益矩阵。

通过分析收益矩阵，得到我方的最佳策略：

最大 → $3/4$加注，$1/4$跟跟；次大 → 加注；中上 → 跟跟；中中 → $1/4$跟跟，$3/4$跟弃；中下 → $7/12$加注，$5/12$弃牌；次小、最小 → 弃牌；

对方的最佳策略：

最大、次大 → 加注/跟注；中上 → ($5/8$加注,$3/8$看牌)/跟注；中中 → 看牌/($1/2$弃牌,$1/2$跟注)；中下 → 看牌/弃牌；次小 → ($7/8$加注,$1/8$看牌)/弃牌；最小 → 看牌/弃牌。

#####

根据上述结果依次类推，得到$n=8$时，我方的最佳策略：

最大 → $3/4$加注，$1/4$跟跟；次大、第三 → 加注；第四 → 跟跟；倒四 → $1/4$跟跟，$3/4$跟弃；倒三 → $11/12$加注，$1/12$弃牌；次小、最小 → 弃牌。

对方的最佳策略：

前三 →加注/跟注；第四 → 看牌/跟注；倒四 → 看牌/弃牌；倒三 → 加注/弃牌；次小、最小 → 看牌/弃牌。

#####

根据上述结果依次类推，得到$n=+\infty$时，我方的最佳策略：

前$1/4$ → 加注；$1/4$ 到正中间 → 跟跟；正中间到倒数$3/8$ → 跟弃；倒数$3/8$ 到倒数$7/24$ → 加注；后$7/24$ → 弃牌。

对方的最佳策略：

被加注时：前$1/2$ → 跟注；后$1/2$ → 弃牌；
被跟注时：前$3/8$ → 加注；$3/8$ 到倒数$3/8$ → 看牌；倒数$3/8$ 到倒数$1/4$ → 加注；后$1/4$ → 看牌。

如下图所示：

从上图可以看出，单手牌单轮下注的最基本打法是拿到大牌就加注、跟注，拿到小牌就看牌、弃牌。

但是加注行为都由$2$条线段组成：

拿大牌加注是想引诱对方跟注来获利，称为价值下注（value bet）；

拿小牌加注是想逼迫对方弃牌来获利，称为诈唬（bluff）。

诈唬的比例必需恰到好处（在上述规则下，双方皆为$1/4$），

这样加注可以使得被加注的一方由于不知道对方是大牌还是小牌，

拿到中间牌的时候就进退两难了：跟也不是（损失筹码的期望值恰好是$2$），弃也不是（必定损失$2$筹码），

于是加注方的利益得到了最大化。

而诈唬的比例稍高一点、稍低一点都不是最佳策略，都会被对方利用。

我们接下来将下注额的范围扩大，看看该怎么打。

KeyTo9_Fans 发表于 2016-10-15 13:49:30

当下注额的范围扩大到$6$筹码时，有效的加注额有$2$种：

$1$、加注到$4$筹码，简称【加注】
$2$、加注到$6$筹码，简称【全下】

我方会面临$4$种局面，对应的策略如下：

局面$1$：开局 → 弃牌，跟注，加注，全下；
局面$2$：跟注后被加注 → 弃牌，跟注，全下；
局面$3$：跟注后被全下 → 弃牌，跟注；
局面$4$：加注后被全下 → 弃牌，跟注。

对方也面临$4$种局面，对应的策略如下：

局面$1$：被跟注 → 看牌，加注，全下；
局面$2$：被加注 → 弃牌，跟注，全下；
局面$3$：被全下 → 弃牌，跟注；
局面$4$：加注后被全下 → 弃牌，跟注。

我们将手牌的范围设定为$0$到$1$之间均匀分布的随机数，求得双方的最佳策略如下图所示（没想到竟然如此复杂，才$6$筹码就要用$648$来做分母:dizzy: ）：

从图中可以看到，连我方的跟注行为也变成$2$条线段了，原因如下：

如果我方只拿中等牌跟注，会被对方利用：用大牌价值下注，拿小牌诈唬。

结果我方进退两难：跟也不是，弃也不是。

而我方拿一部分大牌跟注，就可以保护我方的中等牌不被对方利用了：

对方由于不知道我方跟注的是大牌还是中等牌，能进行价值下注的范围就变窄了，在很宽的范围里都只能直接看牌比牌了。

我们接下来会继续将下注额的范围扩大，看看该怎么打。

页: 1 [2]

数学研发论坛's Archiver