声学模型GMM-HMM

声学模型GMM-HMM,第1张

在语音识别中,HMM的每个状态都可对应多帧观察值,观察值概率的分布不是离散的,而是连续的,适合用GMM来进行建模。HMM模块负责建立状态之间的转移概率分布,而GMM模块则负责生成HMM的观察值概率。

模型自适应: 由于各地口音、采集设备、环境噪声等音素的差异,已训练过的GMM-HMM很可能和新领域的测试数据不匹配,导致识别效果变差,需要做自适应训练。

MAP(最大后验概率估计): 算法本质是重新训练一次,并且平衡原有模型参数和自适应数据的估计。

MLLR(最大似然线性回归): 算法核心思想是将原模型的参数进行线性变换后再进行识别,其优点是使用少量语音即可以对所有模型进行自适应训练,只要得到线性变换矩阵即可。

每个音素(或三音素)用一个 HMM 建模,每个 HMM 状态的发射概率对应一个 GMM。GMM-HMM 的目的即是找到每一帧属于哪个音素的哪个状态。GMM-HMM 的训练使用自我迭代式的 EM 算法,更直接的方式是采用维特比训练,即把EM算法应用到GMM参数的更新上,要求显示的输入每一帧对应的状态,使用带标注的训练数据更新GMM的参数,这种训练方法比Baum-Welch算法速度更快,模型性能却没有明显损失。

1、首次对齐时把训练样本按该句的状态个数平均分段。

2、每次模型参数的迭代都需要成对的使用gmm-acc-stats-ali和gmm-est工具。

3、进行多轮迭代训练后使用gmm-align-compiled工具通过其内部的维特比算法生成对齐结果。

单因子模型的基本假设是:一个音素的实际发音,与其左右相邻或相近的音素(上下文音素)无法。三因子结构中的每一个音素建模实例,都由其中心音素及其左右各一个上下文音素共同决定。无论是单因子还是三因子,通常都使用三状态的HMM结构来建模。为了解决三因子模型参数爆炸问题,将所有的三因子模型放到一起进行相似性聚类(决策树),发音相似的三因子被聚类到同一个模型,共享参数。训练脚本:steps/train_deltassh,目标训练一个10000状态的三因子系统:

1、以单因子为基础,训练一个5000状态的三因子模型

2、用5000状态的模型重新对训练数据进行对齐,其对齐质量必然比单因子系统对齐质量高

3、用新的对齐再去训练一个10000状态的三因子系统

 phone-id:音素的 ID,参见 data/lang/phonestxt,强制对齐的结果不含 0(表示<eps>)和消歧符 ID;

hmm-state-id:单个 HMM 的状态 ID,从 0 开始的几个数,参见 data/lang/topo;

 pdf-id:GMM 的 ID,从 0 开始,总数确定了 DNN 输出节点数,通常有数千个;

 transition-index:标识单个 Senone HMM 中一个状态的不同转移,从 0 开始的几个数;

 transition-id:上面四项的组合 (phone-id,hmm-state-id,pdf-id,transition-index),可以涵盖所有可能动作,表示哪个 phone 的哪个 state 的哪个 transition 以及这个 state 对应的 pdf 和这个 transition 的概率,其中元组 (phone-id,hmm-state-id,pdf-id) 单独拿出来,叫 transition-state,与 transition-id 都从1开始计数。

关系:transition-id可以映射到唯一的transition-state,而transition-state可以映射到唯一的pdf-id,因此transition-id可以映射到唯一的pdf-id。pdf-id不能唯一的映射成音素,因此kaldi使用transition-id表示对齐的结果。

语音识别过程是在解码空间中衡量和评估所有的路径,将打分最高的路径代表的识别结果作为最终的识别结果。传统的最大似然训练是使正确路径的分数尽可能高,而区分性训练则着眼于加大这些路径之间的打分差异,不仅要使正确路径的分数仅可能高,还要使错误路径尤其是易混淆路径的分数尽可能低。

常用的区分性训练准则有最大互信息、状态级最小贝叶斯风险、最小音素错误。

分子:对于某条训练数据,其正确标注文本在解码空间中对应的所有路径的集合。

分母:理论上值整个搜索空间。通常会通过一次解码将高分路径过滤出来,近似整个分母空间,从而有效的减小参与区分性优化的分母规模。

词格(Lattice):分子、分母其实都是解码过程中一部分解码路径的集合,将这些路径紧凑有效的保存下来的数据结构就是词格。

在 数理统计学 中, 似然函数 是一种关于 统计模型 中的 参数 的 函数 ,表示模型参数中的 似然性

似然函数在 统计推断 中有重大作用,如在 最大似然估计 和 费雪信息 之中的应用等等。“似然性”与“或然性”或“ 概率 ”意思相近,都是指某种事件发生的可能性,但是在 统计学 中,“似然性”和“或然性”或“概率”又有明确的区分。

概率 用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而

似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。

最大似然估计你可以把它看作是一个反推。多数情况下我们是根据已知条件来推算结

果,而最大似然估计是已经知道了结果,然后寻求使该结果出现的可能性最大的条件,以此作为估计值。

极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤:

(1)写出似然函数;

(2)对似然函数取对数,并整理;

(3)求导数,令导数为0,得到似然方程;

(4)解似然方程,得到的参数即为所求;

背景是数学之美的聚类的情况下,

首先,根据现有模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程(Expectation),或E过程;接下来,重新计算模型的参数,以最大化期望值。在上面的例子中,我们最大化D和 -d ,这个过程称为最大化的过程(Maximization),或 M 过程。这列算法都成为EM算法。

大西瓜:它是一种迭代式的方法,其基本思法是:若参数 s 已知,则可根据训练数据推断出最优隐变量 Z 的值(E 步);反之,若 Z 的值已知,则可方便地对参数 s 做极大似然估计(M 步)。

EM 算法还包括:隐马尔可夫模型的训练方法Baum-Welch 算法,以及最大熵模型的训练方法GIS算法。

EM 算法不一定保证全局最优解,如果目标函数是一个凸函数,那么一定能保证最优解。所幸熵函数是一个凸函数,如果在 N 维空间以欧氏距离做度量,聚类中我们试图优化的两个函数也是凸函数。但是,很多情况下,包括文本分类中的余弦距离都不能保证是凸函数,因此哟可能EM 算法给出的局部最优解而不是全局最优解。

高斯分布、指数分布那个得到全局最优。

混合高斯不一定,如果是凸函数就可以。

机器学习——几种距离度量方法比较

从最大似然到EM算法浅解

1 评估问题。

给定观测序列 O=O1O2O3…Ot和模型参数λ=(A,B,π),怎样有效计算某一观测序列的概率,进而可对该HMM做出相关评估。例如,已有一些模型参数各异的HMM,给定观测序列O=O1O2O3…Ot,我们想知道哪个HMM模型最可能生成该观测序列。通常我们利用forward算法分别计算每个HMM产生给定观测序列O的概率,然后从中选出最优的HMM模型。

这类评估的问题的一个经典例子是语音识别。在描述语言识别的隐马尔科夫模型中,每个单词生成一个对应的HMM,每个观测序列由一个单词的语音构成,单词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现的。

2解码问题

给定观测序列 O=O1O2O3…Ot 和模型参数λ=(A,B,π),怎样寻找某种意义上最优的隐状态序列。在这类问题中,我们感兴趣的是马尔科夫模型中隐含状态,这些状态不能直接观测但却更具有价值,通常利用Viterbi算法来寻找。

这类问题的一个实际例子是中文分词,即把一个句子如何划分其构成才合适。例如,句子“发展中国家”是划分成“发展-中-国家”,还是“发展-中国-家”。这个问题可以用隐马尔科夫模型来解决。句子的分词方法可以看成是隐含状态,而句子则可以看成是给定的可观测状态,从而通过建HMM来寻找出最可能正确的分词方法。

3 学习问题。

即HMM的模型参数λ=(A,B,π)未知,如何调整这些参数以使观测序列O=O1O2O3…Ot的概率尽可能的大。通常使用Baum-Welch算法以及Reversed Viterbi算法解决。

怎样调整模型参数λ=(A,B,π),使观测序列 O=O1O2O3…Ot的概率最大?

序言

1 我们为什么关注非线性

11   基本概念

12   线性时间序列

13   非线性时间序列的例子

14   非线性检验

141       非参数检验

142       参数检验

15   练习

参考文献

2     单变量参数非线性模型

21   一般的形式化表示

211       概率结构

22   门限自回归模型

221       两阶段门限自回归模型

222       两阶段TAR(1)模型的特征

223       多阶段TAR模型

224       TAR模型估计

225       TAR建模

226       例子

227       TAR模型预测

23   马尔科夫转换模型

231       马尔科夫转换模型的特性

232       状态变量的统计推断

233       马尔科夫转换模型的估计

234       选择状态数

235       马尔科夫转换模型预测

236       例子

24   平滑过渡自回归模型

25   时变系数模型

251       功能系数自回归模型

252       时变系数自回归模型

26   附录:马尔科夫链

27   练习

参考文献

3     单变量非参数模型

31   核平滑

32   局部条件均值

33   局部多项式拟合

34   样条

341       立方和B样条

342       平滑样条

35   小波平滑

351       小波

352       小波变换

353       阈值和平滑

36   非线性加性模型

37   指数模型和切片逆回归

38   练习

参考文献

4     神经网络,深度学习和基于树的方法

41   神经网络

411       神经网络训练估计

412       例子

42   深度学习

421       深度信念网络

422       论证

43   基于树的方法

431       决策树

432       随机森林

44   练习

参考文献

5     非高斯时间序列分析

51   广义线性时间序列模型

511       统计数据和GLARMA模型

52   自回归条件均值模型

53   Martingalized GARMA模型

54   抖动模型

55   函数时间序列

551       卷积FAR模型

552       CFAR模型估计

553       拟合值和近似残差

554       预测

555       渐进性

556       应用

附录:统计数据的离散分布

56   练习

参考文献

6     状态空间模型

61   一般模型和统计推断

62   可选例子

621       线性时间序列模型

622       可观测噪声时间序列

623       时变系数模型

624       目标追踪

625       通信信号处理

626       动态因子模型

627       函数和分布式时间序列

628       马尔科夫状态切换模型

629       随机抖动模型

6210      非高斯时间序列

6211      混合频率模型

6212      其它应用

63   线性高斯状态空间模型

631       滤波和卡尔曼滤波

632       似然函数估计

633       平滑

634       预测和缺失数据

635       顺序处理

636       例子和R示例

64   练习

参考文献

7     非线性状态空间模型

71   线性和高斯近似

711       线性非高斯卡尔曼滤波

712       扩展非线性系统卡尔曼滤波

713       高斯和滤波

714       Unscented卡尔曼滤波

715       集成卡尔曼滤波

716       例子和R示例

72   隐马尔科夫模型

721       滤波

722       平滑

723       最大似然状态路径:维特比算法

724       参数估计:Baum-Welch算法

725       HMM例子和R示例

73   练习

参考文献

8     顺序蒙特卡洛

81   蒙特卡洛方法的简单综述

811       生成随机样本的通用方法

812       减少方差方法

813       重要性采样

814       马尔科夫链蒙特卡洛

82   顺序蒙特卡洛框架

83   设计问题一:传播

831       建议分布

832       延迟策略(向前看)

84   设计问题二:重采样

841       优先级打分

842       重采样中采样方法选择

843       重采样调度

844       重采样优点

85   设计问题三:推断

86   设计问题四:边缘化和混合卡尔曼滤波

861       条件动态线性模型

862       混合卡尔曼滤波

87   具有SMC的蒙特卡洛平滑

871       简单加权方法

872       加权边际化方法

873       两滤波采样

88   具有SMC的参数估计

881       最大似然估计

882       贝叶斯参数估计

883       可变参数方法

89   执行考虑

810 例子和R示例

8101      SMC的R执行:一般SMC和重采样方法

8102      杂乱环境追踪

8103      被动声呐单方位追踪

8104      随机抖动模型

8105      衰落信道作为条件动态线性模型

811 练习

参考文献

索引

以上就是关于声学模型GMM-HMM全部的内容,包括:声学模型GMM-HMM、最大似然函数和EM 算法、隐马尔可夫模型的基本问题等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/10080288.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存