【数学基础】参数估计之贝叶斯估计

您所在的位置：网站首页 › 矩估计的基本步骤 › 【数学基础】参数估计之贝叶斯估计

【数学基础】参数估计之贝叶斯估计

2024-07-18 05:41:14| 来源: 网络整理| 查看: 265

从统计推断讲起

统计推断是根据样本信息对总体分布或总体的特征数进行推断，事实上，这经典学派对统计推断的规定，这里的统计推断使用到两种信息：总体信息和样本信息；而贝叶斯学派认为，除了上述两种信息以外，统计推断还应该使用第三种信息：先验信息。下面我们先把是那种信息加以说明。

总体信息：总体信息即总体分布或总体所属分布族提供的信息。譬如，若已知“总体是正态分布”等等样本信息：即所抽取的样本的所有特征信息。先验信息：如果我们把抽取样本看作做一次试验，则样本信息就是试验中得到的信息。但实际中，人们在试验之前对要做的问题在经验上和资料上总是已经有所了解的。譬如之前文章中的那个例子，问在公园中随便看到一个穿凉鞋的人是男生还是女生，男女生穿凉鞋的概率可能不同，这叫做类条件概率，而男女生的比例就是先验概率。

在之前介绍最后后验估计时已经很清楚的讲了MAP与MLE的区别，MAP就是贝叶斯估计的方法之一。贝叶斯学派的MAP方法与频率学派的MLE方法的不同之处就在于先验信息的使用。

贝叶斯估计核心问题

这里定义已有的样本集合为 $D$ ，而不是之前的 $X$ 。样本集合 $D$ 中的样本都是从一个固定但是未知的概率密度函数 $p(x)$ 中独立抽取出来的，要求根据这些样本估计 $x$ 的概率分布，记为 $p(x|D)$ ，并且使得 $p(x|D)$ 尽量的接近 $p(x)$ ，这就是贝叶斯估计的核心问题。

贝叶斯估计常用方法

$p(x|D)$ 被称作后验分布（后验概率），使用它估计 $\theta$ 有三种常用的方法：

使用后验分布的密度函数最大值点作为 $\theta$ 的点估计的最大后验估计（MAP）。使用后验分布的中位数作为 $\theta$ 的点估计的后验中位数估计（基本没看到用过）。使用后验分布的均值作为 $\theta$ 的点估计的后验期望估计。

用的最多的是后验期望估计，它一般也直接简称为贝叶斯估计，即为 $\hat{\theta}_B$ .

贝叶斯定理：

边缘概率（又称先验概率）是某个事件发生的概率。边缘概率是这样得到的：在联合概率中，把最终结果中那些不需要的事件通过合并成它们的全概率，而消去它们（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率），这称为边缘化（marginalization），比如A的边缘概率表示为P(A)，B的边缘概率表示为P(B)。

贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

$P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}$

在参数估计中可以写成下面这样：

$p(\theta|D)=\frac{p(D|\theta)\cdot p(\theta)}{p(D)}$

这个公式也称为逆概率公式，可以将后验概率转化为基于似然函数和先验概率的计算表达式，即

$posterior = \frac{likelihood \cdot prior}{evidence}$

在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。 P(A|B)是已知B发生后A的条件概率(在B发生的情况下A发生的可能性)，也由于得自B的取值而被称作A的后验概率。 P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。 P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）

按这些术语，Bayes定理可表述为：

后验概率 = (似然函数*先验概率)/标准化常量，也就是说，后验概率与先验概率和似然函数的乘积成正比。

另外，比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood），Bayes定理可表述为：

后验概率 = 标准相似度*先验概率

一个简单的例子

贝叶斯估计

贝叶斯估计是在MAP上做进一步拓展，此时不直接估计参数的值，而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计，都求出了参数 $\theta$ 的值，而贝叶斯估计则不是，贝叶斯估计扩展了极大后验概率估计MAP（一个是等于，一个是约等于）方法，它根据参数的先验分布 $p(\theta)$ 和一系列观察 $X$ ，求出参数 $\theta$ 的后验分布 $p(\theta|X)$ ，然后求出 $\theta$ 的期望值，作为其最终值。另外还定义了参数的一个方差量，来评估参数估计的准确程度或者置信度。

贝叶斯估计：从分布的总体信息和参数的先验知识以及样本信息出发。

不同于ML估计，不再把参数 $\theta$ 看成一个未知的确定变量，而是看成未知的随机变量，通过对第 $i$ 类样本 $D_i$ 的观察，使概率密度分布 $p(D_i|\theta)$ 转化为后验概率 $p(\theta|D_i)$ ，再求贝叶斯估计。

假设：将待估计的参数看作符合某种先验概率分布的随机变量。

基本原理：

我们期望在真实的 $\theta$ 值处有一个尖峰。

贝叶斯估计的本质：贝叶斯估计的本质是通过贝叶斯决策得到参数 $\theta$ 的最优估计，使得总期望风险最小。

损失函数：通常规定函数是一个二次函数，即平方误差损失函数：

可以证明，如果采用平方误差损失函数，则θ的贝叶斯估计值是在给定x时θ的条件期望。

同理可得，在给定样本集D下，θ的贝叶斯估计值是：

贝叶斯估计算法：

贝叶斯估计的增量学习

为了明确的表示样本集合 $D$ 中有 $n$ 个样本，这里采用记号： $D^n=\{x_1,x_2,...,x_n\}$ 。根据前一个公式，在 $n1$ 的情况下有：

$p(D^n|\theta)=p(x_n|\theta)p(D^{n-1}|\theta)$

注：因为每次抽样之间是独立的，所以前 $n-1$ 次抽样与第 $n$ 次抽样是独立的。

可以很容易得到：

$p(\theta|D^n)=\frac{p(D^{n}|\theta)p(\theta)}{\int p(D^{n}|\theta)p(\theta)d\theta}=\frac{p(x_n|\theta)p(D^{n-1}|\theta)p(\theta)}{\int p(x_n|\theta)p(D^{n-1}|\theta)p(\theta)d\theta}=\frac{p(x_n|\theta)p(\theta |D^{n-1})}{\int p(x_n|\theta)p(\theta |D^{n-1})d\theta}$

参考文章：

贝叶斯估计详解

贝叶斯线性回归（Bayesian Linear Regression）

贝叶斯估计

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

【数学基础】参数估计之贝叶斯估计

【数学基础】参数估计之贝叶斯估计

今日新闻

点击排行

推荐新闻

图片新闻

专题文章