【关于概率分布可加性的一般讨论】

BeerRabbit · 发表于 2014-9-9 11:55:57

概率分布的可加性是指，多个独立同分布的随机变量之和仍然服从同类型的分布。

已知具有这种特性的分布函数有：

1、离散型：泊松分布、二项分布等；

2、连续型：正态分布、卡方分布、伽马分布等。

那么，是否还存在其他具有“可加性”的分布？

进一步，是否可以通过“可加性”的定义，推导该类分布的一个统一形式（如果存在）？

BeerRabbit · 发表于 2014-9-9 17:12:58

先贴一下自己胡乱想的一个思路，而且也仅仅是初步的尝试。

BeerRabbit · 发表于 2014-9-9 17:14:07

虽然对分布函数的形式没有直接的描述，但是从特征函数入手似乎也是一个不错的选择

kastin · 发表于 2014-9-9 19:55:35

本帖最后由 kastin 于 2014-9-9 19:57 编辑

统一形式是不大可能的，但是能找出一点蛛丝马迹。

1. 泊松分布
与泊松分布相联系的泊松随机过程有几个经典的特点，那就是平稳性和无后效性。前者是指任意时间区间内事件发生的次数只与时间区间的长度有关，与其时间区间的端点无关；后者是说不重叠的时间区间内事件发生是独立的，换句话说，也就是前面发生的事件次数是多还是少，不会影响到后面发生的次数。
这说明。独立性是很重要的。

2. 二项分布
二项分布又叫伯努利分布，本身就是独立重复试验产生的分布，可见跟独立性相关。

3. 泊松分布可以看成是二项分布的特殊情况的近似。即当二项分布中的总试验次数 `n` 很大，事件发生概率 `p` 非常小，并且期望值 `np` 适中的时候，二项分布可以近似写成泊松分布的形式。

4. 离散型和连续型的关系
正态分布形式很优美，性质独特，但它并非人们一下子想出来的。在整个正态分布被发现与应用的历史中，棣莫弗、拉普拉斯、高斯各有贡献——棣莫弗研究二项分布当n很大的时候，使用斯特林公式得到正态分布，拉普拉斯从中心极限定理的角度得到了它的踪影，高斯则是在线性回归的误差分析中推出了它【注】，这其实是殊途同归。

关于正态分布的历史源流，这里推荐科学松鼠会网站上rickjin(靳志辉)的一篇非常好的文章正态分布的前世今生（上）、正态分布的前世今生（下）
引用一下文章中的两段文字（这里合在一起）
正态分布是分布绝对是最完美的（甚至被人认为是上帝创造的最完美的规律），因为它具有很多良好的性质：

两个正态分布密度的乘积还是正态分布
两个正态分布密度的卷积还是正态分布，也就是两个正态分布的和还是正态分布
正态分布N(0,σ2)的傅立叶变换还是正态分布
中心极限定理保证了多个随机变量的求和效应将导致正态分布
正态分布和其它具有相同方差的概率分布相比，具有最大熵
二项分布B(n,p)在n很大逼近正态分布N(np,np(1−p))
泊松分布Poisson(λ)在λ较大时逼近正态分布N(λ,λ)
χ2(n)在n很大的时候接近正态分布N(n,2n)
t分布在n很大时接近标准正态分布N(0,1)
正态分布的共轭分布还是正态分布
几乎所有的极大似然估计在样本量n增大的时候都趋近于正态分布
Cramer分解定理（正态分布的血统）：如果X,Y是独立的随机变量，且S=X+Y是正态分布，那么X,Y也是正态分布
如果X,Y独立且满足正态分布N(μ,σ2)，那么X+Y,X−Y独立且同分布，而正态分布是唯一满足这一性质的概率分布
对于两个正态分布X,Y,如果X,Y不相关则意味着X,Y独立，而正态分布是唯一满足这一性质的概率分布

复制代码

5. 卡方分布本身是正态分布的平方叠加，伽马分布则是泊松分布中`n`取正实数时的连续形式。

从上面可以看出，具有叠加性质的概率分布都有着某种独立性。

注：这里应该引申一点，从贝叶斯的观点来审视的话，若误差分布是正态分布，那么极大似然估计方法就相当于最小二乘法（事实上，极大似然估计方法就相当于认为先验分布是均匀的）。具体参见我在这里的的回贴。

BeerRabbit · 发表于 2014-9-10 11:26:56

kastin 发表于 2014-9-9 19:55
统一形式是不大可能的，但是能找出一点蛛丝马迹。

1. 泊松分布

不否认正态分布的重要性和完美。但他的这些特点与我所说的问题都没有太大的关系。我关心的是有限个分布的卷积，而不是无穷多个。

另外，在实际应用的时候，往往会需要一些特殊的分布函数，比如我需要一个“可加的”、随机变量取值为[0,+Infinity)的分布，这时候就不能考虑了正态分布了。

还有，分布和的计算特征可能需要比较优良，需要容易对他进行符号计算，以便于理论分析。比如在游戏设计中，如果单次攻击伤害值的分布具有可加性等良好的计算特征，我就可以很方便的根据目标的生命值进行平均攻击次数的计算，而该问题的实质是”多个独立同分布的随机变量之和恰好大于某个正数“，此类问题在论坛中也讨论过不少——随机游走就是一个例子。

一言以蔽之，”针对给定分布进行计算“ 与 ”设计特殊分布以方便之后的计算“ ，楼主更关心后一个。

账号		自动登录	找回密码
密码			欢迎注册

[悬赏] 【关于概率分布可加性的一般讨论】

点评