Chapter2概念: 似然函数(Frequentist approach)

Chapter2概念: 似然函数(Frequentist approach),第1张

之前在学statistics1的时候我根本看不懂内容,全程死记乱背,哪怕是最基础的,似然函数(likelihood function),

当时只是纯属记住了公式,没有理解,书一翻就忘。

如果不理解,哪怕做了再多的笔记也没用,到时候该忘的都会忘掉。

相关链接:

如何理解似然函数(L)与极大似然估计(MLE): https://zhuanlanzhihucom/p/32568242

似然(likelihood)与概率(probability)的区别: https://zhuanlanzhihucom/p/42598338

只要有统计模型,就会有似然函数,(似然函数是建立在统计模型上的)

给定输出X(x1,x2)时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。

似然函数并不仅仅概率,而是已知

是根据“概率”、“数学统计模型”、“参数”这些抽象概念为基础,而建立的更高一级抽象。

得到似然函数后,可以推导出极大似然估计(MLE) ,

那么极大似然函数估计的意义是什么呢?

“极大似然函数”,是通过似然函数来估计数学统计模型的参数。

虽然我们已知输出X(x1,x2),已知统计模型类型(normal,Bernoulli),但我们还不知道参数,

所以我们需要一个尽量似然(精确)的估计值来预测,完整的数学统计模型。

那么为什么“极大似然估计”可以得到最似然(精确)的估计值呢?

根据输出X(x1,x2),和统计模型类型(例如normal,Bernoulli),再通过似然函数,所得到一个似然值。

似然值的大小会根据“统计模型的参数”而改变,

而似然值大小的意义在于,

似然值越大,也就意味着根据这个统计模型的参数得到的输出Y(output Y),和原本的输出X(x1,x2)数据重合的概率越大,这个参数的估计值也就越拟合(接近)原本的数值。

Frequentist risk, ,

其实就是一种已知的loss function ,

此文章是在说,仅仅是有一个frequentist risk还不够去计算optimal decision rules,需要从一组decision rules中挑选出使frequentist risk降到最低才能找到admissible“可接受的”decision rule。

Definition 23 A decision rule δ is admissible if there exists no decision rule δ0 such that R(θ, δ0 ) ≤ R(θ, δ), ∀θ ∈ Θ with the above inequality being strict for at least one θ ∈ Θ

这是一个三项分布。

样本值是0,1,2,0,2,1,对应的概率分别是theta,(1-2theta),theta,theta,theta,(1-2theta)。

似然函数就是得到这个样本的概率,由于每次抽样独立,所以把这几个概率乘起来就是得到这个样本的概率了,也就是似然函数。

给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。

似然函数的主要用法在于比较它相对取值,虽然这个数值本身不具备任何含义。例如,考虑一组样本,当其输出固定时,这组样本的某个未知参数往往会倾向于等于某个特定值,而不是随便的其他数,此时,似然函数是最大化的。

扩展资料:

似然比检验是一种寻求检验方法的一般法则。其基本思想如下: 设由n个观察值X1,X2,…,Xn组成的随机样本来自密度函数为f(X; θ)的总体,其中θ为未知参数。

要检验的无效假设是H0: θ=θ0,备择假设是H1:θ≠θ0,检验水准为α。为此,求似然函数在θ=θ0处的值与在θ=θ(极大点)处的值(即极大值)之比,记作λ,可以知道:

(1) 两似然函数值之比值λ只是样本观察值的函数,不包含任何未知参数。

(2) 0≤λ≤1,因为似然函数值不会为负,且λ的分母为似然函数的极大值,不会小于分子。

(3)越接近θ0时,λ越大;反之,与θ0相差愈大,λ愈小。因此,若能由给定的α求得显著性界值λ0,则可按以下规则进行统计推断:

当λ≤λ0,拒绝H0,接受H1;当λ>λ0,不拒绝H0,

这里 P(λ≤λ0)=α。(2)对于离散型的随机变量,只需把密度函数置换成概率函数p(X;θ),即

这一检验方法还可以推广到有k个参数的情形。

参考资料:

——似然函数

矩估计,直接求期望!

显然 E(X)=∫xf(x)dx = 1/λ

而E(X)=1/n∑Xi

所以λ的矩估计为:λ^ =n/∑Xi

极大似然估计,先求极大似然函数为

f(x1,x2xn,λ)=λ^ne^[-λ(x1+x2+x3+xn)]

取自然对数,求导得

∂lnf(x1,x2xn,λ)/∂λ = n/λ-∑xi

令其为0, 则可知

λ^=n/∑xi

也就是极大似然估计也是n/∑Xi

你写出它的似然函数,这个似然函数是关于thita和miu的函数,然后对这个似然函数求偏导数,用求函数最大值的方法得到关于此二变量的方程组,解方程组就行了。

你求出了thita没理由求不出miu。

转自博客: https://blogcsdnnet/zengxiantao1994/article/details/72787849

首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:

但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率p(w i )和类条件概率(各类的总体分布)p(x|w i )都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。

类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度p(x|w i )转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。

上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。

求解极大似然函数

极大似然函数为-x1/θ-x2/θ--xn/θ-nlnθ

对θ求偏导数得到(x1+x2++xn)/θ^2-n/θ

令(x1+x2++xn)/θ^2-1/θ=0得出θ的极大似然估计=(x1+x2++xn)/n

其实也就是样本均值。这里的极大似然估计和矩估计的结果一样

极大似然估计的计算过程非常简单:

1写出似然函数;

2求出使得似然函数取最大值的参数的值,这个值就是我们对概率模型中参数值的极大似然估计。

1、 极大似然估计从根本上遵循——眼见为实,这样的哲学思想。也就是说,它严格地仅仅利用了已知的实验结果,来估计概率模型中的参数。

2、 极大似然估计是频率学派最经典的方法之一,它从实验结果出发,客观估计参数。而贝叶斯学派则认为世界是按某种规律来分布的,我们只有在假设了某种分布的前提下,才能对世界进行估计,放在这里,就是人们总是会认为正反面的概率是趋向于相同的。

3、 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。

对的,求导(令之为零)得出的只是驻点,该驻点有可能是最小值点。为了保证求出驻点确实是最大值点,需要对刚才求出的d(L)(L表示似然函数)再求一次导数 , 只有一阶导数为零且二阶导数小于零的驻点,才是似然函数的最大值点 。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/12155830.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-21
下一篇2023-05-21

发表评论

登录后才能评论

评论列表(0条)

    保存