最小错误率贝叶斯决策

在一般的模式识别问题中,人们往往希望尽量减少分类的错误,即目标是追求最小的错误率。其中利用概率论中贝叶斯公式得到的分类决策被称之为最小错误率贝叶斯决策。

##问题引入 在某个地区中人们常对细胞中某一种物质(特征观察值)进行检测,来判定它是否是正常细胞。通常情况下这种细胞是正常(w1 类)的可能性是0.9,是异常(w2 类)的可能性是0.1。现在有一种待观察的细胞,其特征观察值是 x。根据以往的结果,正常(w1 类)细胞中其特征观察值是 x 的可能性是0.2;异常(w2 类)细胞中其特征观察值是 x 的可能性是0.4。试判断该细胞是正常还是异常。

##分析 我们的目标是让我们出现错误的概率尽可能的低,也就是所谓的最小错误率[^wrong rate] 准则。

那么我们如何才能实现最小错误率?试想一下如果我们只知道这个细胞是正常的可能性有0.9,异常的可能性有0.1。那么我们会认为这是正常细胞,因为我们判断失误的概率只有0.1。相对于其他判断结果(认为这是异常细胞),我们实现了最小错误率。

事实上,上面说的 0.1 和 0.9 是在没有对样本进行任何观察情况下得到的概率,因此我们称它为先验概率

现在我们观察细胞,知道它的特征值为 x,我们需要求在已知 x 的情况下细胞属于各类的概率,用 $P(\omega _{i}|x)$ 表示,相信学过条件概率的都清楚这个意思。这种概率也称为后验概率。 所以对于两类问题,我们的决策思想是谁的后验概率大,我们就认为它属于哪类。 P(ω1x)><P(ω2x),x{ω1ω2P(\omega _{1}|x)\begin{matrix}>\\<\end{matrix}P(\omega _{2}|x), x \in \begin{cases} \omega _{1} \\ \omega _{2} \end{cases}

那么怎么求后验概率呢?我们知道后验概率 $P(\omega _{i} x)$ 换一种求法是先求特征值是 x 且 属于 $\omega _{i}$ 类的概率 $p(x,\omega _{i})$,也称为联合概率密度。再除以特征值是 x 的概率 p(x),称为总体密度。而联合概率密度则是由类条件密度 $p(\omega _{i} x)$ 乘以先验概率 $P(\omega _{i} x)$ 得到。所以我们就得到经典的贝叶斯公式:
P(ωix)=p(x,ωi)p(x)=p(xωi)P(ωi)p(x)=p(xωi)P(ωi)j=1np(xωj)P(ωj)P(\omega _{i}|x)=\frac{p(x,\omega _{i})}{p(x)}=\frac{p(x|\omega _{i})P(\omega _{i})}{p(x)}=\frac{p(x|\omega _{i})P(\omega _{i})}{\sum_{j=1}^{n}p(x|\omega _{j})P(\omega _{j})}

所以在问题引入中,我们只需求出 w1 和 w2 的后验概率,比较它们的大小即可1

##未完待续 接下来还会介绍似然比,并用图形进一步解释贝叶斯决策,但最近学业繁忙,可能最近一段时间不会更新了。

  1. 此题答案是把 x 归于正常细胞。