Meditations on probability theory: a theory of primary sampling

导言

我们在上一篇博客《概率论沉思录：定量规则》中介绍了合情推理^[1][2]的定量规则，即：

乘法规则：\(p(AB\mid C) = p(A\mid C)p(B\mid AC)=p(B\mid C)p(A\mid BC)\)；
加法规则：\(p(A\mid B) + p(\bar{A}\mid B) = 1\)；
无差别原则：\(p(A_i\mid B) = \frac{1}{N}, \quad 1 \leqslant i \leqslant N\)
（其中\(\{A_1, \cdots, A_N\}\)互斥完备，且背景信息\(B\)不倾向于其中任何一个）。

根据乘法规则和加法规则，可以导出广义加法规则：\(p(A + B \mid C) = p(A\mid C) + p(B\mid C) - p(AB\mid C)\)；
根据加法规则和无差别原则，我们又得到了伯努利坛子规则：如果有\(N\)个除标号外各方面都相同的球，命题\(A\)被定义为在任意的\(M\)个球的子集上为真（\(0\leqslant M \leqslant N\)），在其补集上为假，我们有：

\[p(A\mid B) = \frac{M}{N} \]

事实上，只需要以上规则就可以导出概率论中的许多结论。接下来我们来看看我们的推理机器人是如何依据这些规则完成推理，并得到许多经典的结论的。

首先，我们做一个术语约定，我们称从坛子里抽一次球为一次试验（trial），\(n\)次试验构成一次实验（experiment）。我们接下来会先考察无放回抽样（sampling without replacement） 实验，也即从有\(N\)个球的坛子里无放回地抽\(n\)个球，我们会发现实验结果服从超几何分布/广义超几何分布。接着，我们会讨论前向推断和后向推断两类问题。然后，我们会研究无放回抽样的极限形式，这将导出二项分布/多项分布。关于多项分布，我们还会进一步讨论统计力学中的麦克斯韦-玻尔兹曼统计。

最后，我们会考察更复杂的有放回抽样（sampling with replacement） 实验，也即从有\(N\)个球的坛子里无放回地抽\(n\)个球。注意，与许多人认为的相反，我们认为无放回抽样更复杂，因为我们需要考虑大量的额外背景信息并进行分析。之所其二项分布的数学形式更简单，是由于我们做出了随机化的额外假设导致的，我们所得到的只是个近似的结果。最后，我们会对有放回抽样的近似结果做进一步的相关性校正，这将得到一个马尔可夫链模型。

本文的思维导图如下所示：

电影爱好者的评分情况示意图

1 无放回抽样

1.1 超几何分布与广义超几何分布

首先，我们通过以下命题的定义来进一步明确无放回抽样实验的定义：

\(B\)：一个坛子里有\(N\)个球，这些球除了带有不同的标号（\(1, 2, \cdots, N\)）和分为两种颜色以外，其它各个方面都相同，其中\(M\)个为红色，剩余\(N-M\)个为白色，\(0\leqslant M \leqslant N\)。我们从坛子中随机抽取一个球，观察并记录它的颜色，将它放在一边，然后重复这个过程，直到取出\(n\)个球，\(0\leqslant n \leqslant N\)。
\(R_k\)：第\(k\)次取出的是红球。
\(W_k\)：第\(k\)次取出的是白球。

对于第\(k\)次（\(1 \leqslant k \leqslant N\)）抽取而言，根据背景信息\(B\)，取出红球和取出白球是互斥的，故有\(\overline{R_k}=W_k\)（\(\overline{W_k}=R_k\)），且根据加法规则满足\(p(R_k\mid B) + P(W_k\mid B) = 1\)。

特别地，对于第1次抽取而言，可以直接结合伯努利坛子规则得：

\[P(R_1\mid B) = \frac{M}{N}, \quad P(W_1\mid B) = 1 - \frac{M}{N} \]

让我们重申一次：上述两个概率赋值不是对坛子与其容纳物的任何物理属性的断言，而是在抽取前对机器人知识状态的描述（初始时的知识状态即背景信息\(B\)）。试想，如果机器人初始的知识状态与\(B\)不同，例如它知道坛子中红球和白球的实际位置，或者它不知道\(N\)与\(M\)的实际值，那么它对\(R_1\)和\(W_1\)的概率赋值将会不同，但是坛子本身的物理属性是一样的。

而当我们询问第二次抽取相关的概率时，机器人的知识状态就会出现变化。例如，问前两次取出的都是红球的概率\(P(R_1R_2\mid B)\)是多少？我们使用乘法规则将其拆解为分步判定：

\[P(R_1R_2\mid B) = P(R_1\mid B) P(R_2 \mid R_1 B) \]

注事实上，这里我们默认了按照时间顺序，也即先\(1\)后\(2\)，这就是所谓的前向推断；但是在逻辑上（而非物理因果上）我们也可以定义先\(2\)后\(1\)，这叫后向推断。具体区别我们后面会进行详述。就是要注意我们一直说的是“分步判定”而非“分步决策”，就是因为我们只考虑逻辑上的先后而不考虑时间上的先后（逻辑上的先后可能和时间符合，也可能不符合）。

注意在判定最后一项时，机器人需要再次应用伯努利坛子规则，不过必须考虑到在第一次抽取中已经取走了一个红球，所以：

\[P(R_1R_2 \mid B) = \frac{M}{N}\cdot \frac{M-1}{N-1} \]

这样继续进行下去，重复应用伯努利坛子规则，则前\(r\)次取出的都是红球的概率\(P(R_1R_2\cdots R_r\mid B)\)可以表示为：

\[P(R_1R_2\cdots R_r\mid B) = \frac{M}{N}\cdot \frac{M-1}{N-1}\cdots\frac{M-r+1}{N-r+1}=\frac{(M)_r}{(N)_r} \]

这里\((M)_r=M(M-1)\cdots (M-r+1)\)，\((N)_r=N(N-1)\cdots (N-r+1)\)（\(r\leqslant M\)）（该记号来自William Feller的书^[3]，我觉得不错故用之）。对于白球而言只需要把\(M\)换成\(N-M\)，然后把\(r\)换成\(w\)即可，即\(P(W_1W_2\cdots W_w\mid B) = \frac{(N-M)_w}{(N)_w}\)。

现在，我们要问：如果我已知前\(r\)次取到的都是红球，那么后\(r+1, r+2, \cdots, r+w\)次取到的都是白球的概率是多少？此时，机器人已经知道了\(r\)个红球已拿出，也即总共还剩下\(N-r\)个球了（当然，白球数量还是\(N-M\)），那么：

\[P(W_{r+1}W_{r+2}\cdots W_{r+w}\mid R_1R_2\cdots R_rB) = \frac{(N-M)_w}{(N-r)_w} \]

利用乘法规则，可得在\(r+w\)次抽取中，先抽中\(r\)个红球，再抽中\(w\)个白球的概率为：

\[P(R_1R_2\cdots R_rW_{r+1}W_{r+2}\cdots W_{r+w} \mid B) = \frac{(M)_r}{(N)_r}\cdot\frac{(N-M)_w}{(N-r)_w} = \frac{M_r (N-M)_w}{(N)_{r+w}} \]

事实上，即使红球和白球的取出以其它顺序进行交错，所得结果也是这个。也就是说，上式给出了以任意指定顺序\(S_l\)（比如指定\(RRRW\cdots\), \(RWRW\cdots\)等序列其中一种）取出\(r\)个红球与\(w\)个白球的概率\(P(S_l\mid B)\)。因为不管以怎样的顺序交错地取出红球和白球，分母都是从\(N\)跑到\(N-r-w+1\)，而分子中红球数总得从\(M\)扣到\(M-r+1\)，白球数也总得从\(N-M\)扣到\(N-M-w+1\)（不论其以什么顺序来扣）。

接下来，我们要问：以任意顺序取出\(r\)个红球与\(w\)个白球的概率是多少？任何一个红球和白球出现的指定序列\(S_l\)都是互斥的事件，因此我们根据加法规则来求和（注意和的每一项\(P(S_l\mid B)\)都是相同的）：

\[h(r \mid N, M, w) = \sum_{l=1}^{\binom{r+w}{r}}P(S_l\mid B) = \binom{r+w}{r}\frac{M_r (N-M)_w}{(N)_{r+w}} \]

式子中的组合数\(\binom{r+w}{r}\)为在\(r+w\)次抽取中取出\(r\)个红球的可能序列的数量，我们称其为事件「在\(r+w\)次抽取中取出\(r\)个红球」的重数（multiplicity）。事件的重数可能具有多种形式，这里的形式为二项式系数（binomial coefficient），我们后面还会看到更多类型的重数。

注这里有读者可能会细究，既然我们的球是有标号的，那么所有的可能序列数为啥不是\((r+w)!\)呢？请注意，尽管球有标号，但我们的机器人在每轮抽球即计算\(P(R_1\mid B), P(R_2\mid R_1B), \cdots\)时并没有指定抽哪个红球或白球（也即每轮计算的概率本身就包含了各种标号的概率，如\(P(R_1\mid B)=P(A_4 + A_6 + A_7 \mid B)\)，这里\(4, 6, 7\)为所有红球的标号），乃至最后计算\(P(S_l\mid B)\)时也并没有指定要取出哪些红球和白球，故这里不是\((r+w)!\)。

利用事实\((M)_r=\frac{M!}{(M-r)!}\)，\((N)_r=\frac{N!}{(N-r)!}\)，\(\binom{r+w}{r}=\frac{(r+w)!}{r!w!}\)来进行化简，我们就得到了超几何分布（hypergeometric distribution） 的定义：

\[h(r \mid N, M, n) = \frac{\binom{M}{r}\binom{N-M}{w}}{\binom{N}{r+w}} = \frac{\binom{M}{r}\binom{N-M}{n-r}}{\binom{N}{n}} \]

注意，概率只在\(r\leqslant n\)且\(r\leqslant M\)时有定义。虽然如此，当\(b>a\)时\(\binom{a}{b}=0\)，因此当\(r > n\)或\(r > M\)时，上式会给出\(0\)。因此，只要规定\(r > 0\)且把\(h=0\)的事件解释为不可能事件就行了。

进一步推广，假设坛子里面有\(c\)种不同颜色的球，颜色\(c\)的球有\(N_c\)个，则在\(n=\sum_{i=1}^c r_i\)次抽取中取出“\(r_1\)个颜色1的球，\(r_2\)个颜色2的球，...，\(r_c\)个颜色\(c\)的球”的概率是广义超几何分布：

\[h(r_1\cdots r_c\mid N_1\cdots N_c) = \frac{\binom{N_1}{r_1}\cdots \binom{N_c}{r_c}}{\binom{\sum N_i}{\sum r_i}} \]

一般地，对于概率分布\(p(x_1, \cdots, x_n\mid B)\)，其中\(x_k\)表示第\(k\)次的试验结果，并且可以取不止两个值（红色和白色），比如，\(x_k=1, 2, \cdots, c\)标记\(c\)种不同的颜色。如果该概率在\(x_k\)的任何排列下都是不变的，则它仅取决于表示“结果\(x_k=1\)出现了多少次，\(x_k=2\)出现了多少次等等”的样本数\((n_1,\cdots, n_c)\)。这种分布称为可交换的（exchangeable）。我们这里的超几何分布/广义超几何分布就是可交换的。

超几何分布具有以下两种较为显著的对称性（symmetry）：

对称性1：关于\(M\)和\(n\)的对称性

超几何分布在交换\(M\)和\(n\)时值不变：

\[h(r\mid N, M, n) = h(r\mid N, n, M) \]

这也就意味着当总球数为100时，无论我们是从包含50个红球的坛子里抽取10个球，还是从包含10个红球的坛子里抽取50个球，再取出的样本里找到\(r\)个红球的概率是相同的。

对称性2：关于峰值的对称性

如果我们交换\(M\)和\(N-M\)，并同时交换\(r\)和\(n-r\)，那么实际上是交换了“红色”和“白色”的定义，所以分布不变，即

\[h(n - r\mid N, N - M, n) = h(r\mid N, M, n) \]

除了以上两种对称性之外，超几何分布还有两种在直观上并不显而易见的对称性，其中一种为关于\(k\)的对称性。

隐藏对称性1：关于\(k\)的对称性

现在我们想问机器人第2次取出红球的概率\(P(R_2\mid B)\)是多少？此时我们是否还能够像计算\(P(R_2\mid R_1B)\)那样利用伯努利坛子规则呢？我们虽然已知第二次抽时只剩下\(N-1\)个球，但是红球数\(M\)是不确定的（或为\(M\)或为\(M-1\)）。因此，伯努利坛子规则的前提就不存在，看起来问题是不确定的。

然而，问题其实是确定的。以下是我们在概率计算中使用实用技术的第一个例子，它将一个命题分解为更简单的子命题（当然，这里的子命题选择必须恰当，不然就会和上一篇博客提到的南极企鹅个数一样无用）。机器人知道\(R_1\)或\(W_1\)是真的，因此使用布尔代数可以得到

\[R_2 = (R_1 + W_1)R_2 = R_1R_2 + W_1R_2 \]

那么我们应用加法规则和乘法规则就可以得到

\[\begin{aligned} P(R_2\mid B) &= P(R_1R_2\mid B) + P(W_1R_2\mid B) \\ & = P(R_1\mid B) P(R_2\mid R_1B) + P(W_1\mid B) P(R_2\mid W_1B) \\ \end{aligned} \]

由于\(P(R_1\mid B)=\frac{M}{N}, P(R_2\mid R_1B)=\frac{M-1}{N-1}\)，且\(P(W_1\mid B)=\frac{N-M}{N}, P(R_2\mid W_1B)=\frac{M}{N-1}\)，所以

\[P(R_2\mid B) = \frac{M}{N} \]

复杂性消失了！第二次抽出红球的概率居然和第一次相同！事实上，我们继续验证，可以得到\(R_3, R_4, \cdots\)都为\(M/N\)。事实上，如果不知道任何其它次抽取的结果，机器人在任何一次抽取中抽中红球的概率总与伯努利坛子规则相同，也即：

\[P(R_k\mid B) = \frac{M}{N} \]

这是第一个并不显而易见的对称性。后面我们会看到，这是一个更一般结果的特例（证明我们往后放，参见3.2节相关性校正：马尔可夫链）。

1.2 前向推断

我们前面提到超几何分布上可交换的，也即满足概率分布\(p(x_1, \cdots, x_n\mid B)\)在\(x_k\)的任何排列下都是不变的。那么要保证这种可交换性，必然要求每次抽取对其它次抽取施加相同的影响，无论其时间顺序或在序列中的位置如何。这并不限于超几何分布，对于任何可交换分布都是正确的。

让我们定量地计算这一影响。假设\(j<k\)，则命题\(R_jR_k\)（在第\(j\)次和第\(k\)次均取出红球）在布尔代数中与以下命题等价：

\[R_j R_k = \underbrace{(R_1 + W_1)\cdots(R_{j-1} + W_{j-1})}_{j-1项}R_j\underbrace{(R_{j+1} + W_{j+1})\cdots(R_{k-1} + W_{k-1})}_{k-j-1项}R_k \]

上式实际上为\(2^{j-1}\times 2^{k-j-1}=2^{k-2}\)个合取命题的逻辑和（也即我们提到过的析取范式，DNF），其中每一个合取命题代表诸如\(W_1R_1W_3\cdots R_j \cdots R_k\)的完整序列。

上式看起来比较难以处理，因为\(R_j\)、\(R_k\)之间还相隔了许多次抽取。但是，我们已经知道，在给定\(B\)的情况下，任何一个序列的概率都与其红球和白球的出现顺序无关。因此，我们可以变换序列，将\(R_j\)移动到第1个位置，将\(R_k\)移动到第2个位置。此时：

\[R_jR_k = R_1R_2(R_3+W_3)\cdots (R_k + W_k)=R_1R_2 \]

此时，最后一个等式成立的理由是已知在第1次和第2次之后“摸到红球或白球”并没有为我们提供背景信息\(B\)之外的更多信息。

这样，我们就有

\[P(R_jR_k\mid B) = P(R_1R_2\mid B) = \frac{M(M - 1)}{N (N - 1)} \]

根据乘法规则，对所有\(j < k\)，有

\[P(R_k\mid R_jB) = \frac{P(R_jR_k\mid B)}{P(R_j\mid B)} = \frac{M-1}{N-1} \]

这种已知第\(j\)次的抽取结果，对第\(k\)次（\(k > j\)）抽取结果的概率所进行的推断，我们称之为前向推断（forward inference）。我们惊奇地发现，\(P(R_k\mid R_jB)=(M-1)/(N-1)\)意味着对于前向推断而言，我们的伯努利坛子规则仍然适用，只不过初始条件变化了而已（已知从罐子里面取出了一个红球）。最后，问题规约为从有\(N-1\)个球的坛子（其中有\(M-1\)个是红球）里抽球。

1.3 后向推断

从上一节我们可以看出，当机器人在计算第\(k\)次抽取红球的概率时，显然与之前抽取的结果信息是相关的（例如，\(P(R_k\mid B) \neq P(R_k\mid R_jB)\)），这是因为更早的抽取结果会在物理上影响第\(k\)次抽取时坛子中的红球数量\(M_k\)。这种前向推断的结果是符合我们物理直觉的。

那么第\(k\)次推断的结果是否与后面某次抽取的结果相关呢？咋一看不太可能，因为之后抽取的结果在物理上不会影响\(M_k\)的值。比如，彭罗斯（Penrose）在著名统计力学文献《Foundations of Statistical Mechanics》就将“当前事件的概率只能取决于前面发生的事件，而不取决于后面发生的事件”做为基本公理。作者认为这是“因果律”（Causality）的必要物理条件。

但是正如我们已经声明的，我们只关心逻辑关系，而逻辑关系可能与物理因果作用相关，可能无关。有一个极端的例子可以说明为什么后面发生的事件的信息与前面发生的事件有关。假设坛子里面只有一红一白两个球，如果机器人知道第2次抽取时抽中红球，那么它会直接将第一次抽中红球的概率判为0：\(P(R_1\mid R_2B)=0\)，而不再是\(1/2\)。

隐藏对称性2：\(k\rightarrow j\)与\(j\rightarrow k\)的对称性

接下来让我们来推导更一般的结论。根据乘法规则，我们有

\[P(R_jR_k\mid B) = P(R_j\mid B)P(R_k\mid R_jB) = P(R_k\mid B)P(R_j\mid R_kB) \]

我们在1.1节中已经知道，对于所有的\(j\)和\(k\)都有\(P(R_j\mid B) = P(R_k\mid B)=M/N\)，那么必要就有

\[P(R_j\mid R_k B) = P(R_k\mid R_j B) \]

这说明后面的抽取结果与前面的抽取结果具有完全相同的作用。这是因为，尽管第\(k\)次抽取后的抽取不会物理地影响坛子中的红球数量\(M_k\)，但后面抽取结果的信息与前面抽取结果的信息对第\(k\)次抽取的知识状态具有相同的影响。这是第二个并不显而易见的对称性。

注这一结果可能会让某些对“概率意义”持有思想的流派不安。尽管人们普遍认同逻辑蕴含关系与因果关系不同，但是很倾向于将概率\(P(A\mid B)\)解释为\(B\)对\(A\)的某种部分因果作用。这不仅在前面提到的彭罗斯的著作中很明显，在哲学家卡尔·波普尔（Karl Popper）对概率做出的倾向性（propensity） 解释中也很明显。波普尔将概率看做是一集可重复的条件所固有的客观倾向。他认为在量子理论中人们在客观的纯统计解释和基于不完全知识的解释之间摇摆，而他的倾向性解释可以避免使用不完全知识的解释。我们认为他完全错了，不完全的知识是科学家拥有的唯一工作材料。

但是，这并不意味着我们禁止引入“倾向”或“物理因果”的概念，这里的关键是无论是否存在倾向，逻辑推断都是适用且有用的。事实上，在所有科学中，逻辑推断都具有更普遍的适用性，因为物理作用只能沿时间前向传播，但是逻辑推断在前后两个方向上都可以传播。考古学家发现的一件人造物能改变他对几千年前的事件的认识，夏洛克·福尔摩斯的推理旨在根据现有的证据推断过去发生的事件。其中的关键在于，我们对任何现象做出的最佳科学推断，都必须参考我们拥有的所有相关信息，无论这些信息是在现象发生之前还是之后的。

接下来让我们定量地计算这一影响。我们之前在计算前向推断时，已经得到\(P(R_jR_k\mid B) = \frac{M(M - 1)}{N (N - 1)}\)。请注意，乘法规则对后向推断也同样适用，于是对所有\(j < k\)，有

\[P(R_j\mid R_kB)=\frac{P(R_jR_k\mid B)}{P(R_k\mid B)} = \frac{M-1}{N-1}\\ \]

我们惊奇地发现，\(P(R_j\mid R_kB)=P(R_k\mid R_jB)=(M-1)/(N-1)\)。说明已知之前抽了个红球和已知之后抽了个红球有同样的作用。这是因为，如果机器人知道后面会取出红球，那么实际上必须将坛子中的红球之一“搁置”起来，以使这成为可能。于是，本可以在前面取出的红球数就少了一个。

然而，这里的直观理解当问题更复杂时可能会带来一定的误导。比如，我们假设机器人在后面的抽取中至少会取出一个红球，但不知道是哪一（几）次。也就是说，新信息可以用布尔代数的命题形式表示为\(R_{\text{later}}\equiv R_{k+1} + R_{k+2} + \cdots R_n\)。我们可能会凭借自己直觉认为\(P(R_k\mid R_{\text{later}}B) < P(R_k\mid B)\)，然而事实却出人意料，应该是：\(P(R_k\mid R_{\text{later}}B) > P(R_k\mid B)\)。

这是为什么呢？因为在之前的\(P(R_j\mid R_kB)=\frac{M-1}{N-1}\)的情况里，信息\(R_k\)可让第\(j\)次可抽的红球数减1，也可以让第\(k\)次可抽的总球数减1。但是，在\(P(R_k\mid R_{\text{later}}B)=\frac{M-(1 + p_\delta)}{N-\Delta}\)（其中\(\Delta, \delta > 1\)，\(p_{\delta}\)为\([0, 1]\)之间的小数，表示后面抽中\(\delta\)个红球的概率）的情况里，第\(k\)次可抽的红球数虽然也是减掉大约1，但是第\(k\)次可抽的总球数却需要减去\(\Delta > 1\)（因为它向机器人说明以后还要进行\(\Delta\)次抽取，还要减去\(\Delta\)个球）。

2 极限形式

2.1 二项分布

尽管数学形式上有些复杂，但超几何分布是一个概念上非常清晰、简单的问题引起的。为了引入一个数学上更简单但概念上更困难的问题，我们先来研究超几何分布的一种极限形式。

超几何分布之所以复杂，是因为它考虑了坛子内容的不断变化，知道任何一次抽取的结果都会改变其它次抽中红球的概率。但是，如果坛子中的球数\(N\)比取出的球数\(n\)大得多（\(N\gg n\)），那么该概率的变化很小。在极限\(N\rightarrow + \infty\)时，我们会得到一个更简单的结果，直接没有这种依赖性。为了验证这一点，我们将超几何分布分子分母同乘\(N^n\)并配凑为：

\[h(r \mid N, M, n) = \frac{\left[\frac{1}{N^r}\binom{M}{r}\right]\left[\frac{1}{N^{n-r}}\binom{N-M}{n-r}\right]}{\frac{1}{N^n}\binom{N}{n}} \]

第一个因子是

\[\frac{1}{N^r}\binom{M}{r} = \frac{1}{N^r}\cdot\frac{(M)_r}{r!} = \frac{1}{r!} \frac{M}{N}(\frac{M}{N} - \frac{1}{N})\cdots (\frac{M}{N} - \frac{r-1}{N}) \]

取极限\(N\rightarrow + \infty, M\rightarrow +\infty, M/N\rightarrow f\)，我们有

\[\frac{1}{N^r}\binom{M}{r} \rightarrow \frac{f^r}{r!} \]

类似地，我们有

\[\begin{aligned} \frac{1}{N^{n-r}}\binom{N-M}{n-r}&\rightarrow \frac{(1 - f)^{n - r}}{(n - r)!},\\ \frac{1}{N^n}\binom{N}{n}&\rightarrow \frac{1}{n!} \end{aligned} \]

将这些极限乘起来（原则上我们应该采用乘积的极限而非极限的乘积，但这些因子各自都有极限，故可以这样搞），就得到了超几何分布的极限——二项分布（binomial distribution）：

\[h(r \mid N, M, n) \rightarrow b(r, n, f) \equiv \binom{n}{r}f^r (1 - f)^{n - r} \]

和超几何分布相比，事件「在\(n\)次抽取中取出\(r\)个红球」的重数仍然是\(\binom{n}{r}\)，只不过生成每一个指定序列的概率取了极限，变为了\(f^r (1 - f)^{n - r}\)。

2.2 多项分布

对广义超几何分布执行类似的极限过程，可以证明：如果所有\(N_i\rightarrow +\infty\)，且满足\(N_i / \sum_{j=1}^c N_j\rightarrow f_i\)，那么广义超几何分布就会变成多项分布（multinomial distribution）：

\[m(r_1,\cdots, r_c\mid f_1, \cdots, f_c) = \frac{n!}{r_1!\cdots r_c!}f_1^{r_1}\cdots f_c^{r_c} \]

其中\(n\equiv \sum_{i=1}^c r_i\)。此时，事件「在\(n\)次抽取中取出\(r_1\)个颜色1球, \(r_2\)个颜色2的球，...，\(r_c\)个颜色\(c\)的球」的重数为\(n! / (r_1!\cdots r_c!)\)。这种形式的重数叫做多项式系数（binomial coefficient）。

多项式系数的应用非常广泛。比如在统计力学中，我们常常需要计算把\(n\)个不可区分的粒子（球）划分到\(c\)个相空间的小区域（盒子）中的概率。这种概率分布有两种计算方法，其中一种是麦克斯韦-玻尔兹曼统计（这里所用的“统计”一词是物理中的术语），其计算方法为：

\[\frac{n!}{r_1!r_2!\cdots r_c!}f^{n} \]

这里\(f= 1 / c\)。这里的思想和我们之前模球很相似，\(f^n\)可视为先按照球可区分（带标号）的情况所计算的每一种划分方式的概率，乘上重数\(n! / (r_1!r_2!\cdots r_c!)\)得到同盒子内的球不可区分（同一个盒子内的球可任意排列）的概率。不过，这个统计法则只在经典力学背景下适用。我自己的直观理解方式是，虽然我们假设球不可区分，但这些球依然具有标号，所以我们才能先按照可区分的情况计算概率然后再乘以重数。但是在量子力学的基本假设下，许多粒子（如电子、质子、中子等）常常是完全不可区分的，我们称为全同粒子（identical particles），假定所有球带有标号就不再适用了。

注还有一种适用于量子力学背景下的计算方法称为玻色-爱因斯坦统计，只考虑那些可区分的划分方式，且每一个可区分的划分方式都赋以相等的概率。根据组合数学知识我们知道，\(n\)个不可区分的球划分到\(c\)个可区分的盒子的划分方式共有\(\binom{n + c - 1}{n}\)种，于是每一种划分方式的概率为：

\[\binom{n + c - 1}{n}^{-1} \]

这个假设对于所有的玻色子（如光子、原子和原子核等）都是正确的。玻色子可以是基本粒子（如光子），也可以是复合粒子（如原子、原子核）。由偶数个费米子组成的复合粒子都是玻色子。玻色子的自旋为整数。

以上两种分布的分歧在于究竟怎么给样本空间赋概。麦克斯韦-玻尔兹曼分布可视为给（可区分划分方式构成的）样本空间中的\(\binom{n + c - 1}{n}\)个样本点按照多项式系数的重数来赋概，用扔硬币来类比就是扔两次硬币的样本空间{2正, 1正1反, 2反}中的样本点分别赋概\(1/4, 1/2, 1/4\)（不过注意我们这里的为“量子硬币”，也就是两个硬币具有全同性，正反和反正不可区分）。而玻色-爱因斯坦分布对每一个样本点赋概\(1/3\)。玻色最开始做出这个发现时其实就源于把扔两次“量子硬币”进行了（按照我们常识来看）“错误的”赋概，赋成了\(1/3\)，然后居然发现和黑体辐射相吻合！但是他投稿的时候论文被拒了。最后他给爱因斯坦写信，爱因斯坦马上意识到这个问题不简单，开始进行研究，最后提出了一种现在被称为玻色-爱因斯坦统计的新的统计方式。这其实也证明了一个观念，那就是不可能在毫无知识状态的情况下对样本空间赋概，频率派要求定义样本空间的麻烦之处也在此，尽管频率派常拿先验来攻击贝叶斯派，然而其样本空间的赋概却是用到了先验知识的。

最后，还有一种适用于量子力学背景下的方式是假设2个或多个球在同一个盒子中是不可能的（这里假定\(n\leqslant c\)），且满足该条件的所有可区分划分方式具有相同的概率，每一种划分方式都相当于\(c\)个盒子中某\(n\)个各含一个球，也就是说，每一种划分方式相当于从\(c\)个盒子中选取\(n\)个，这种计算方式称为费米-狄拉克统计：

\[\binom{c}{n}^{-1} \]

这个模型可以应用在费米子（如电子、质子和中子等）上。费米子可以是基本粒子（如电子），也可以是复合粒子（如质子、中子）。任何由奇数个夸克或轻子组成的复合粒子都是费米子。费米子的自旋为半整数。

3 有放回抽样

3.1 随机化与近似：二项分布

到目前为止，我们仅考虑了无放回抽样的情形。而这对于许多实际情况是合适的，比如在质量控制过程中我们“抽取一个球”可能是从一箱类似的产品（例如电灯泡）中抽取一个，并对其进行检测。我们很难想象在实际情况中能再次“抽取同一个球”。

但是，如果我们假设检测的破坏性较小，从坛子中抽取球并记录球的“颜色”（即相关属性）后，可以将其放回坛子中再抽下一个球。这种有放回抽样的情况在概念上要复杂得多，但是我们可以通过做出一些假设使其在数学上比无放回抽样更简单。对于我们之前提到的连续抽取两个红球的概率，用\(B^{\prime}\)表示与以前相同的背景信息（除了有放回外），根据乘法规则我们仍然有下列等式：

\[P(R_1R_2\mid B^{\prime}) = P(R_1\mid B^{\prime}) P(R_2\mid R_1 B^{\prime}) \]

第一个因子仍然是\(M / N\)，但第二个因子呢？

回答这个问题其实很困难，因为需要进行大量的额外分析，且要求背景信息\(B^{\prime}\)需要包含足够多的信息，比如：我们放回坛子的那个红球会怎样？如果我们将其放回的时候丢在其它球的上层，那么在下次抽取的时候它会比坛子中其它位置的球更有可能被取出。事实上，这动摇了我们计算的全部基础：我们的伯努利坛子规则不再适用！因此，即使掌握了这些信息，整个问题可能根本就无法下手，所产生的计算代价也可能是巨大的。但是这个问题在原理上并非不能解决，只是过于复杂，这该怎么办呢？

在概率论中，有一个非常巧妙的技巧可以解决过于困难的问题。无论问题多困难，我们都可以通过以下方式解决：

使它更困难；
通过重新定义“解决”，使得我们可以解决它；
发明一个高深而且听起来很技术化的词语来描述这个流程，以达到隐藏工作本质并起到令人肃然起敬的效果。

具体在有放回抽样的情况下，我们采用以下策略：

将球扔进去后，摇摇坛子。无论原来问题多么复杂，现在肯定又复杂了一个数量级，因为除了我们之前提到的所有因素之外，问题的答案还取决于我们摇动坛子的确切方式；
我们现在断言，摇动已经使得这些细节无关紧要，因此又回到了适用于伯努利坛子规则的简单问题；
我们发明一个冠冕堂皇的词语 “随机化”（randomization） 来描述我们已经做过的事。这显然只是委婉的说法，其真正含义在于：当信息变得过于复杂以至于我们无法处理时，故意丢弃掉相关信息。

注随机化通常会产生对正确解的有用近似。因为摇动不会使结果变得“随机”（random），因为该术语在做为现实世界的属性时基本上没有意义，它没有适用于现实世界的明确定义。认为“随机性”（randomness）是自然界中存在的某种真实性质，是思维投射谬误的一种形式，这相当于在说：“我不知道详细的原因（认识论角度），所以大自然也不知道（本体论角度）”。事实上，摇动不会以任何方式影响大自然的运作，只能确保没有人（human）能对结果施加主观影响。因此，没有人会因为随后“固定的”结果被指控（比如美国某电视节目中出现的从鱼缸里取数来确定服役顺序）。

但是，我们必须要坦诚地承认自己做了什么：我们不是在解决实际问题，而是在做出现实的妥协，并对近似答案感到满意。持柏拉图主义的数学家可能认为现实世界是对抽象数学的近似，但我们的观点恰恰相反：抽象数学才是对现实世界的近似。数学家们常常使用语言暗示他们是在证明真实世界的性质，但我们认为：没有任何数学模型可以捕获现实世界中所有与之相关的情况。任何认为自己在证明现实世界性质的人都是思维投射谬误的受害者。

现在回过头来看，我们对等式右侧的第二个因子\(P(R_2\mid R_1 B^{\prime})\)可以给出怎样的答案？按我们原本的观念来看，在第二次抽取时红球的概率\(P(R_2\mid R_1 B^{\prime})\)显然不仅取决于\(N\)和\(M\)，还取决于已经取出并放回红球的事实。但是后者的依赖非常复杂，以至于在现实中无法考虑。因此，我们采取新的策略：Shake the altar for“randomization”，And then announce\(R_2\)cap (a poem)\(R_1\)Irrelevant:\(P(R_2\mid R_1 B^{\prime}) = P(R_2\mid B) = M / N\). And so on, the probability of removing the red ball in each trial is\(M/N\)。

This again repeats the hidden symmetry we mentioned earlier1: the fact that the\(k\)of symmetry (which holds even if the robot knows any information about the other trial (extraction) cases due to the randomization process to be performed after each ball extraction). This lets us know that the\(n\)The test (extraction) is taken out of exactly\(r\)The probability of a red ball is independent of order, and that probability is

\[\binom{n}{r}(\frac{M}{N})^r(\frac{N - M}{N})^{n-r} \]

(Note that there is no requirement here for\(N\rightarrow + \infty\)）

That's what we've done before inSection 2.1 Binomial distributionThe binomial distribution mentioned in In the case of a distribution containing a finite number of\(N\)Randomized sampling with putbacks in an altar of balls has the same characteristics as sampling without putbacks in terms of taking the limit of the\(N\rightarrow +\infty\)When the effect is roughly the same.

For smaller\(n\)For that matter, this approximation is very good. But for larger\(n\)For example, these small errors can accumulate (depending on factors such as how we shake the altar) and eventually cause the above equation to be misleading. In the next section we analyze this point.

3.2 Correlation correction: Markov chains

Now let's assume that drawing and putting back a red ball slightly makes the probability of drawing a red ball the next time increase\(\epsilon > 0\).. Drawing and putting back a white ball slightly makes the probability of drawing a white ball the next time lower\(\delta > 0\)The effects here are only of a "single-step memory" nature. The effect here is only of a "single-step memory" nature, and the effect of earlier extractions is negligible by comparison. In a sense, this effect can be called a small "propensity" that expresses a physical causality that acts forward in time. Then, the effect of\(C\)Denote all of the above background information (including relevance statements), noting that\(p\equiv M / N\)We do.

\[P(R_k\mid R_{k-1}C) = p + \epsilon,\quad P(R_k\mid W_{k-1}C) = p - \delta \\ P(W_k\mid R_{k-1}C) = 1- p - \epsilon,\quad P(W_k\mid W_{k-1}C) = 1 - p + \delta \]

We now consider how the above correlation affects our ability to make a difference inSection 1.1: Forward extrapolationSome computational results obtained in the Given an initial state\(P(R_1\mid C) = M / N = p, P(W_1\mid C) = (N - M) / N = 1 - p\)We need to recursively solve for\(P(R_2\mid C), P(W_2\mid C), \cdots, P(R_k\mid C), P(W_k\mid C)\). The formula for recursion follows the multiplication rule:

\[\begin{aligned} P(R_k\mid C) &= P(R_k\mid R_{k-1}C)P(R_{k-1}\mid C) + P(R_k\mid W_{k-1}C)P(W_{k-1}\mid C)\\ P(W_k\mid C) &= P(W_k\mid R_{k-1}C)P(R_{k-1}\mid C) + P(W_k\mid W_{k-1}C)P(W_{k-1}\mid C) \end{aligned} \]

This defines a probabilisticMarkov chain.. We will be No.\(k\)The probability of a trial is written in vector form

\[\boldsymbol{v}_{k} = \left[\begin{matrix} P(R_k\mid C)\\ P(W_k\mid C) \end{matrix}\right] \]

Then the above iterative process can be represented using a matrix:

\[\boldsymbol{v}_{k} = \boldsymbol{M}\boldsymbol{v}_{k-1} = \left(\begin{matrix} p + \epsilon & p - \delta \\ 1 - p - \epsilon & 1 - p + \delta \end{matrix}\right)\left[\begin{matrix} P(R_{k-1}\mid C)\\ P(W_{k-1}\mid C) \end{matrix}\right] \]

In this way, the computation of the recursive procedure can be executed immediately to any step we need:

\[\boldsymbol{v}_{k} = \boldsymbol{M}^{k-1}\boldsymbol{v}_{1} \]

Thus, to obtain a generalized metropolis solution, we just need to find the\(\boldsymbol{M}\)The eigenvalues and eigenvectors of the\(\boldsymbol{M}\)The characteristic polynomial of

\[C(\lambda) = \mathrm{det}(\lambda \boldsymbol{I} - \boldsymbol{M}) = \lambda^2 - (1 + \epsilon + \delta)\lambda + \epsilon + \delta \]

\(C(\lambda)= 0\)The roots of the eigenvalues\(\lambda_1 = 1, \lambda_2 = \epsilon + \delta\)。

Known secondary conclusion: for eigenvalues of\(\lambda\)arbitrary\(2\times 2\)matrices\(\boldsymbol{M} = \left(\begin{matrix} a & b \\ c & d \end{matrix}\right)\), the corresponding (unnormalized) eigenvectors are\(\boldsymbol{x}=\left(\begin{matrix} b\\ \lambda - a \end{matrix}\right)\)(You can substitute your own conclusions on this one)\(\boldsymbol{M}\boldsymbol{x}=\lambda \boldsymbol{x}\)validation, is to note that the characteristic polynomial needs to be used at the end\(\lambda^2 - (a + d)\lambda + ad - bc = 0\)replace\(ad-bc\)(the value of which is simplified).

In this way, it will be\(\lambda_1, \lambda_2\)Substitution gives us our feature vector

\[\boldsymbol{x}_1 = \left(\begin{matrix} p - \delta \\ q - \epsilon \end{matrix}\right), \boldsymbol{x}_2 = \left(\begin{matrix} 1 \\ -1 \end{matrix}\right) \]

on account of\(\boldsymbol{M}\)is not a symmetric matrix, so the above eigenvectors are not orthogonal. However, if we use the above eigenvectors as a set of bases, we can still have an orthogonal view of the matrix\(\boldsymbol{M}\)Perform diagonalization. Let the

\[\boldsymbol{S} = \left(\begin{matrix} p - \delta & 1 \\ q - \epsilon & -1 \end{matrix}\right) \]

Use of formulas\(\boldsymbol{A}^{-1} = \frac{1}{\mathrm{det}(\boldsymbol{A})}\left(\begin{matrix} A_{22} & - A_{12}\\ -A_{21} & A_{11} \end{matrix}\right)\)(or Gaussian elimination) to find its inverse as\(\boldsymbol{S}^{-1}=\frac{1}{1-\epsilon - \delta}\left(\begin{matrix} 1 & 1 \\ q - \epsilon & -(p-\delta) \end{matrix}\right)\), whereupon we can make the matrix\(\boldsymbol{M}\)Perform diagonalization:

\[\boldsymbol{S}^{-1}\boldsymbol{M}\boldsymbol{S} = \boldsymbol{\Lambda} = \left(\begin{matrix} \lambda_1 & 0 \\ 0 & \lambda_2 \end{matrix}\right) \]

included among these\(\boldsymbol{\Lambda}\)is a diagonal matrix. Then, for any\(r\)(whether positive, negative or even complex), there are

\[\boldsymbol{M}^{r} = \underbrace{(\boldsymbol{S}\boldsymbol{\Lambda}\boldsymbol{S}^{-1})(\boldsymbol{S}\boldsymbol{\Lambda}\ boldsymbol{S}^{-1})\cdots (\boldsymbol{S}\boldsymbol{\Lambda}\boldsymbol{S}^{-1})}_{r item} = \boldsymbol{S}\boldsymbol{\Lambda}^r\ boldsymbol{S}^{-1} \]

Since the diagonal matrix\(\boldsymbol{\Lambda}^r = \left(\begin{matrix} \lambda_1^r & 0 \\ 0 & \lambda_2^r \end{matrix}\right)\)And so

\[\boldsymbol{M}^r = \frac{1}{1-\epsilon - \delta}\left( \begin{matrix} p - \delta + (\epsilon + \delta)^r(q - \epsilon) & (p - \delta)[1 - (\epsilon +\delta)^r]\\ (q - \epsilon)[1 - (\epsilon + \delta)^r] & q - \epsilon + (\epsilon + \delta)^r (p - \delta) \end{matrix} \right) \]

again because\(\boldsymbol{v_1} = \left(\begin{matrix} p \\ q \end{matrix}\right)\)Substitute\(\boldsymbol{v}_k = \boldsymbol{M}^{k-1}\boldsymbol{v}_1\)obtainable

\[P(R_k\mid C) = \frac{(p - \delta) - (\epsilon + \delta)^{k-1}(p\epsilon - q\delta)}{1 - \epsilon - \delta} \]

In particular, when\(\epsilon = \delta = 0\)When the above equation simplifies to\(P(R_k\mid C)=p\), and here's where it gets us inSection 1.1: Forward extrapolationrespond in singingSection 3.1 Randomization and approximation: binomial distributionThe conclusions mentioned in both (though not proved at the time). At this point the matrix\(\boldsymbol{M}=\left(\begin{matrix} p & p \\ 1 - p & 1 - p \end{matrix}\right)\)for singular matrices, returning to the case of the binomial distribution already discussed.

Next we look at how forward inference is performed for Markov chains corrected for correlation (i.e., computing the\(P(R_k\mid R_j B)\)). In paragraph\(j\)A red ball appears in the second trial, then\(\boldsymbol{v}_j = \left(\begin{matrix} 1\\ 0 \end{matrix}\right)\). According to the recursive formula for Markov chains, we have

\[\boldsymbol{V}_k = \boldsymbol{M}^{k-j}\boldsymbol{V}_j,\quad j < k \]

leave it (to sb)\(\boldsymbol{M}^{k-j} = \boldsymbol{S}\boldsymbol{\Lambda}^{k-j}\boldsymbol{S}^{-1}\)obtainable

\[P(R_k\mid R_j C) = \frac{(p - \delta)+ (\epsilon + \delta)^{k - j}(q - \epsilon)}{1 - \epsilon - \delta}, \quad j < k \]

We find that when\(|\epsilon + \delta| < 1\)both (... and...)\(k\rightarrow +\infty\)When it and\(P(P_k\mid C)\)Both will converge to\((p - \delta) / (1 - \epsilon - \delta)\)。

So can we still use symmetry when making backward inferences\(P(R_j\mid R_k C) = P(R_k\mid R_j C)\)And? According to the rules of multiplication, we have

\[P(R_jR_k\mid C) = P(R_j\mid C)P(R_k\mid R_jC) = P(R_k\mid C)P(R_j\mid R_kC) \]

Since we already know\(P(R_k\mid C) \neq P(R_j\mid C)\)So.

\[P(R_j\mid R_k C) \neq P(R_k\mid R_j C) \]

It can be seen that backward extrapolation, while still possible, can no longer have the same formula as forward extrapolation.

The example is the simplest version of a common and important physics problem: the Markov approximation in theIrreversible process. Another common technical term isAutoregressive model of first order (autoregressive model of first order)。

4 Commentary

On the scope of application of the altar model

In most experiments, we do not draw balls from a real "altar". However, the "Bernoulli altar" has proven to be a useful conceptual tool. However, some people may be offended by the term "altar". Thus, in much of the literature one finds expressions such as "extracting from the aggregate".

In scenarios such as sampling surveys, industrial quality control testing, etc., one really starts with theconstraintsof the results drawn from the true totality of the population, the analogy of the altar is actually very appropriate and applies to all the probability distributions mentioned in this chapter. For scenarios such as flipping a coin, measuring temperature and wind speed, and predicting the price of a commodity, however, the alt analogy is far-fetched. In much of the literature, however, altar distributions are still used to represent the probability of data, and attempts are made to do so by treating the experiment as if it had been drawn from some "hypotheticalinfinitelyTo justify this choice by drawing from the "aggregate" is a complete figment of their imagination. Because in real situations we cannot guarantee that successive extractions are strictly independent. The conceptualization of alt-types can only deal with the most primitive information, while truly complex applications require us to develop principles that go far beyond the alt-model. In conclusion, in the next applications, it is important to consider whether the experiment is really similar to extracting balls from an altar.

Sample distribution is never the end of the line

The probability distribution found in this chapter is calledSampling distributions (sampling distributions)orDirect probability. By direct probability, we mean that given the assumptions about the observed phenomenon\(H\)Data\(D\)probability distribution\(p(D \mid H)\)collaboration withInverse probability i.e., the distribution corresponding to the hypothesis\(p(H \mid D)\)Relative. In the Bernoulli alt model of this paper, it is assumed that the\(H\)i.e., the content of the altar\((M, N)\)Data\(D\)That is, the sequence of red and white balls generated.

Sampling distributions provide us with predictions of possible observations (e.g.\(r\)(the different possible values of the hypothesis and their corresponding probabilities). The magnitude of the difference between the predicted results of the sampling distribution and the actual observations provides a rational basis for accepting or rejecting the current hypothesis and is used in the search for a new hypothesis that isSignificance tests (significance tests) Theme.

Despite the dominance of sampling theory in the traditional teaching of probability theory, in the real world such problems are almost negligible. In almost all practical problems of scientific inference, we are in the opposite situation: the data\(D\)is known, but the correct assumptions are unknown. At this point we are faced withInverse problem: How to find a probability distribution\(p(H\mid D)\)? Thus, in the next sections, our attention will be focused almost entirely on methods for solving such inverse problems. Of course, computing the sampling distribution remains one of the components of our work, but it is by no means the end of the line.

consultation

[1] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
[2] Jaynes. Liao, H. R. Translation. Meditations on probability theory [M]. People's Posts and Telecommunications Publishing House, 2024.
[3] Feller W. An introduction to probability theory and its applications, Volume 1[M]. John Wiley & Sons, 1991.
[4] Penrose O. Foundations of statistical mechanics[J]. Reports on Progress in Physics, 1979, 42(12): 1937.