Chapter2概念: 似然函数（Frequentist approach）_语言综合

之前在学statistics1的时候我根本看不懂内容，全程死记乱背，哪怕是最基础的，似然函数（likelihood function），

当时只是纯属记住了公式，没有理解，书一翻就忘。

如果不理解，哪怕做了再多的笔记也没用，到时候该忘的都会忘掉。

相关链接：

如何理解似然函数(L)与极大似然估计（MLE）： https://zhuanlanzhihucom/p/32568242

似然（likelihood）与概率（probability）的区别： https://zhuanlanzhihucom/p/42598338

只要有统计模型，就会有似然函数，（似然函数是建立在统计模型上的）

给定输出X(x1,x2)时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。

似然函数并不仅仅概率，而是已知

是根据“概率”、“数学统计模型”、“参数”这些抽象概念为基础，而建立的更高一级抽象。

得到似然函数后，可以推导出极大似然估计(MLE) ，

那么极大似然函数估计的意义是什么呢？

“极大似然函数”，是通过似然函数来估计数学统计模型的参数。

虽然我们已知输出X（x1,x2），已知统计模型类型（normal，Bernoulli），但我们还不知道参数，

所以我们需要一个尽量似然（精确）的估计值来预测，完整的数学统计模型。

那么为什么“极大似然估计”可以得到最似然（精确）的估计值呢？

根据输出X(x1,x2)，和统计模型类型（例如normal，Bernoulli），再通过似然函数，所得到一个似然值。

似然值的大小会根据“统计模型的参数”而改变，

而似然值大小的意义在于，

似然值越大，也就意味着根据这个统计模型的参数得到的输出Y（output Y），和原本的输出X（x1,x2）数据重合的概率越大，这个参数的估计值也就越拟合（接近）原本的数值。

Frequentist risk，，

其实就是一种已知的loss function ，

此文章是在说，仅仅是有一个frequentist risk还不够去计算optimal decision rules，需要从一组decision rules中挑选出使frequentist risk降到最低才能找到admissible“可接受的”decision rule。

Definition 23 A decision rule δ is admissible if there exists no decision rule δ0 such that R(θ, δ0 ) ≤ R(θ, δ), ∀θ ∈ Θ with the above inequality being strict for at least one θ ∈ Θ

这是一个三项分布。

样本值是0,1,2,0,2,1，对应的概率分别是theta，（1-2theta），theta，theta，theta，（1-2theta）。

似然函数就是得到这个样本的概率，由于每次抽样独立，所以把这几个概率乘起来就是得到这个样本的概率了，也就是似然函数。

给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。

似然函数的主要用法在于比较它相对取值，虽然这个数值本身不具备任何含义。例如，考虑一组样本，当其输出固定时，这组样本的某个未知参数往往会倾向于等于某个特定值，而不是随便的其他数，此时，似然函数是最大化的。

扩展资料：

似然比检验是一种寻求检验方法的一般法则。其基本思想如下：设由n个观察值X1，X2，…，Xn组成的随机样本来自密度函数为f(X; θ)的总体，其中θ为未知参数。

要检验的无效假设是H0： θ=θ0，备择假设是H1：θ≠θ0，检验水准为α。为此，求似然函数在θ=θ0处的值与在θ=θ(极大点)处的值(即极大值)之比，记作λ，可以知道：

(1) 两似然函数值之比值λ只是样本观察值的函数，不包含任何未知参数。

(2) 0≤λ≤1，因为似然函数值不会为负，且λ的分母为似然函数的极大值，不会小于分子。

(3)越接近θ0时，λ越大；反之，与θ0相差愈大，λ愈小。因此，若能由给定的α求得显著性界值λ0，则可按以下规则进行统计推断：

当λ≤λ0，拒绝H0，接受H1；当λ>λ0，不拒绝H0，

这里 P(λ≤λ0)=α。(2)对于离散型的随机变量，只需把密度函数置换成概率函数p(X;θ)，即

这一检验方法还可以推广到有k个参数的情形。

参考资料：

——似然函数

矩估计，直接求期望！

显然 E(X)=∫xf(x)dx = 1/λ

而E(X)=1/n∑Xi

所以λ的矩估计为：λ^ =n/∑Xi

极大似然估计，先求极大似然函数为

f(x1,x2xn,λ）=λ^ne^[-λ(x1+x2+x3+xn)]

取自然对数，求导得

∂lnf(x1,x2xn,λ）/∂λ = n/λ-∑xi

令其为0，则可知

λ^=n/∑xi

也就是极大似然估计也是n/∑Xi

你写出它的似然函数，这个似然函数是关于thita和miu的函数，然后对这个似然函数求偏导数，用求函数最大值的方法得到关于此二变量的方程组，解方程组就行了。

你求出了thita没理由求不出miu。

转自博客： https://blogcsdnnet/zengxiantao1994/article/details/72787849

首先来看贝叶斯分类，我们都知道经典的贝叶斯公式：

但是在实际问题中并不都是这样幸运的，我们能获得的数据可能只有有限数目的样本数据，而先验概率p(w i )和类条件概率(各类的总体分布)p(x|w i )都是未知的。根据仅有的样本数据进行分类时，一种可行的办法是我们需要先对先验概率和类条件概率进行估计，然后再套用贝叶斯分类器。

先验概率的估计较简单，1、每个样本所属的自然状态都是已知的（有监督学习）；2、依靠经验；3、用训练样本中各类出现的频率估计。

类条件概率的估计（非常难），原因包括：概率密度函数包含了一个随机变量的全部信息；样本数据可能不多；特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是，把估计完全未知的概率密度p(x|w i )转化为估计参数。这里就将概率密度估计问题转化为参数估计问题，极大似然估计就是一种参数估计方法。当然了，概率密度函数的选取很重要，模型正确，在样本区域无穷时，我们会得到较准确的估计值，如果模型都错了，那估计半天的参数，肯定也没啥意义了。

上面说到，参数估计问题只是实际问题求解过程中的一种简化方法（由于直接估计类条件概率密度函数很困难）。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

重要前提：训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)，且有充分的训练样本。

求解极大似然函数

极大似然函数为-x1/θ-x2/θ--xn/θ-nlnθ

对θ求偏导数得到(x1+x2++xn)/θ^2-n/θ

令(x1+x2++xn)/θ^2-1/θ=0得出θ的极大似然估计=(x1+x2++xn)/n

其实也就是样本均值。这里的极大似然估计和矩估计的结果一样

极大似然估计的计算过程非常简单：

1写出似然函数；

2求出使得似然函数取最大值的参数的值，这个值就是我们对概率模型中参数值的极大似然估计。

1、极大似然估计从根本上遵循——眼见为实，这样的哲学思想。也就是说，它严格地仅仅利用了已知的实验结果，来估计概率模型中的参数。

2、极大似然估计是频率学派最经典的方法之一，它从实验结果出发，客观估计参数。而贝叶斯学派则认为世界是按某种规律来分布的，我们只有在假设了某种分布的前提下，才能对世界进行估计，放在这里，就是人们总是会认为正反面的概率是趋向于相同的。

3、在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。

对的，求导（令之为零）得出的只是驻点，该驻点有可能是最小值点。为了保证求出驻点确实是最大值点，需要对刚才求出的d（L）（L表示似然函数）再求一次导数，只有一阶导数为零且二阶导数小于零的驻点，才是似然函数的最大值点。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/langs/12155830.html

Chapter2概念: 似然函数（Frequentist approach）

发表评论

评论列表（0条）