声学模型GMM-HMM_CMS教程

在语音识别中，HMM的每个状态都可对应多帧观察值，观察值概率的分布不是离散的，而是连续的，适合用GMM来进行建模。HMM模块负责建立状态之间的转移概率分布，而GMM模块则负责生成HMM的观察值概率。

模型自适应：由于各地口音、采集设备、环境噪声等音素的差异，已训练过的GMM-HMM很可能和新领域的测试数据不匹配，导致识别效果变差，需要做自适应训练。

MAP(最大后验概率估计)：算法本质是重新训练一次，并且平衡原有模型参数和自适应数据的估计。

MLLR（最大似然线性回归）：算法核心思想是将原模型的参数进行线性变换后再进行识别，其优点是使用少量语音即可以对所有模型进行自适应训练，只要得到线性变换矩阵即可。

每个音素（或三音素）用一个 HMM 建模，每个 HMM 状态的发射概率对应一个 GMM。GMM-HMM 的目的即是找到每一帧属于哪个音素的哪个状态。GMM-HMM 的训练使用自我迭代式的 EM 算法，更直接的方式是采用维特比训练，即把EM算法应用到GMM参数的更新上，要求显示的输入每一帧对应的状态，使用带标注的训练数据更新GMM的参数，这种训练方法比Baum-Welch算法速度更快，模型性能却没有明显损失。

1、首次对齐时把训练样本按该句的状态个数平均分段。

2、每次模型参数的迭代都需要成对的使用gmm-acc-stats-ali和gmm-est工具。

3、进行多轮迭代训练后使用gmm-align-compiled工具通过其内部的维特比算法生成对齐结果。

单因子模型的基本假设是：一个音素的实际发音，与其左右相邻或相近的音素（上下文音素）无法。三因子结构中的每一个音素建模实例，都由其中心音素及其左右各一个上下文音素共同决定。无论是单因子还是三因子，通常都使用三状态的HMM结构来建模。为了解决三因子模型参数爆炸问题，将所有的三因子模型放到一起进行相似性聚类（决策树），发音相似的三因子被聚类到同一个模型，共享参数。训练脚本：steps/train_deltassh，目标训练一个10000状态的三因子系统：

1、以单因子为基础，训练一个5000状态的三因子模型

2、用5000状态的模型重新对训练数据进行对齐，其对齐质量必然比单因子系统对齐质量高

3、用新的对齐再去训练一个10000状态的三因子系统

phone-id：音素的 ID，参见 data/lang/phonestxt，强制对齐的结果不含 0（表示<eps>）和消歧符 ID；

hmm-state-id：单个 HMM 的状态 ID，从 0 开始的几个数，参见 data/lang/topo；

pdf-id：GMM 的 ID，从 0 开始，总数确定了 DNN 输出节点数，通常有数千个；

transition-index：标识单个 Senone HMM 中一个状态的不同转移，从 0 开始的几个数；

transition-id：上面四项的组合 (phone-id,hmm-state-id,pdf-id,transition-index)，可以涵盖所有可能动作，表示哪个 phone 的哪个 state 的哪个 transition 以及这个 state 对应的 pdf 和这个 transition 的概率，其中元组 (phone-id,hmm-state-id,pdf-id) 单独拿出来，叫 transition-state，与 transition-id 都从1开始计数。

关系：transition-id可以映射到唯一的transition-state，而transition-state可以映射到唯一的pdf-id，因此transition-id可以映射到唯一的pdf-id。pdf-id不能唯一的映射成音素，因此kaldi使用transition-id表示对齐的结果。

语音识别过程是在解码空间中衡量和评估所有的路径，将打分最高的路径代表的识别结果作为最终的识别结果。传统的最大似然训练是使正确路径的分数尽可能高，而区分性训练则着眼于加大这些路径之间的打分差异，不仅要使正确路径的分数仅可能高，还要使错误路径尤其是易混淆路径的分数尽可能低。

常用的区分性训练准则有最大互信息、状态级最小贝叶斯风险、最小音素错误。

分子：对于某条训练数据，其正确标注文本在解码空间中对应的所有路径的集合。

分母：理论上值整个搜索空间。通常会通过一次解码将高分路径过滤出来，近似整个分母空间，从而有效的减小参与区分性优化的分母规模。

词格（Lattice）：分子、分母其实都是解码过程中一部分解码路径的集合，将这些路径紧凑有效的保存下来的数据结构就是词格。

在数理统计学中， 似然函数 是一种关于统计模型中的参数的函数，表示模型参数中的 似然性 。

似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“ 概率 ”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。

概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而

似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

最大似然估计你可以把它看作是一个反推。多数情况下我们是根据已知条件来推算结

果，而最大似然估计是已经知道了结果，然后寻求使该结果出现的可能性最大的条件，以此作为估计值。

极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数，令导数为0，得到似然方程；

（4）解似然方程，得到的参数即为所求；

背景是数学之美的聚类的情况下，

首先，根据现有模型，计算各个观测数据输入到模型中的计算结果，这个过程称为期望值计算过程（Expectation），或E过程；接下来，重新计算模型的参数，以最大化期望值。在上面的例子中，我们最大化D和 -d ，这个过程称为最大化的过程（Maximization），或 M 过程。这列算法都成为EM算法。

大西瓜：它是一种迭代式的方法，其基本思法是：若参数 s 已知，则可根据训练数据推断出最优隐变量 Z 的值（E 步）；反之，若 Z 的值已知，则可方便地对参数 s 做极大似然估计（M 步）。

EM 算法还包括：隐马尔可夫模型的训练方法Baum-Welch 算法，以及最大熵模型的训练方法GIS算法。

EM 算法不一定保证全局最优解，如果目标函数是一个凸函数，那么一定能保证最优解。所幸熵函数是一个凸函数，如果在 N 维空间以欧氏距离做度量，聚类中我们试图优化的两个函数也是凸函数。但是，很多情况下，包括文本分类中的余弦距离都不能保证是凸函数，因此哟可能EM 算法给出的局部最优解而不是全局最优解。

高斯分布、指数分布那个得到全局最优。

混合高斯不一定，如果是凸函数就可以。

机器学习——几种距离度量方法比较

从最大似然到EM算法浅解

1 评估问题。

给定观测序列 O=O1O2O3…Ot和模型参数λ=(A,B,π)，怎样有效计算某一观测序列的概率，进而可对该HMM做出相关评估。例如，已有一些模型参数各异的HMM，给定观测序列O=O1O2O3…Ot，我们想知道哪个HMM模型最可能生成该观测序列。通常我们利用forward算法分别计算每个HMM产生给定观测序列O的概率，然后从中选出最优的HMM模型。

这类评估的问题的一个经典例子是语音识别。在描述语言识别的隐马尔科夫模型中，每个单词生成一个对应的HMM，每个观测序列由一个单词的语音构成，单词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现的。

2解码问题

给定观测序列 O=O1O2O3…Ot 和模型参数λ=(A,B,π)，怎样寻找某种意义上最优的隐状态序列。在这类问题中，我们感兴趣的是马尔科夫模型中隐含状态，这些状态不能直接观测但却更具有价值，通常利用Viterbi算法来寻找。

这类问题的一个实际例子是中文分词，即把一个句子如何划分其构成才合适。例如，句子“发展中国家”是划分成“发展-中-国家”，还是“发展-中国-家”。这个问题可以用隐马尔科夫模型来解决。句子的分词方法可以看成是隐含状态，而句子则可以看成是给定的可观测状态，从而通过建HMM来寻找出最可能正确的分词方法。

3 学习问题。

即HMM的模型参数λ=(A,B,π)未知，如何调整这些参数以使观测序列O=O1O2O3…Ot的概率尽可能的大。通常使用Baum-Welch算法以及Reversed Viterbi算法解决。

怎样调整模型参数λ=(A,B,π)，使观测序列 O=O1O2O3…Ot的概率最大？

序言

1 我们为什么关注非线性

11 基本概念

12 线性时间序列

13 非线性时间序列的例子

14 非线性检验

141 非参数检验

142 参数检验

15 练习

参考文献

2 单变量参数非线性模型

21 一般的形式化表示

211 概率结构

22 门限自回归模型

221 两阶段门限自回归模型

222 两阶段TAR(1)模型的特征

223 多阶段TAR模型

224 TAR模型估计

225 TAR建模

226 例子

227 TAR模型预测

23 马尔科夫转换模型

231 马尔科夫转换模型的特性

232 状态变量的统计推断

233 马尔科夫转换模型的估计

234 选择状态数

235 马尔科夫转换模型预测

236 例子

24 平滑过渡自回归模型

25 时变系数模型

251 功能系数自回归模型

252 时变系数自回归模型

26 附录：马尔科夫链

27 练习

参考文献

3 单变量非参数模型

31 核平滑

32 局部条件均值

33 局部多项式拟合

34 样条

341 立方和B样条

342 平滑样条

35 小波平滑

351 小波

352 小波变换

353 阈值和平滑

36 非线性加性模型

37 指数模型和切片逆回归

38 练习

参考文献

4 神经网络，深度学习和基于树的方法

41 神经网络

411 神经网络训练估计

412 例子

42 深度学习

421 深度信念网络

422 论证

43 基于树的方法

431 决策树

432 随机森林

44 练习

参考文献

5 非高斯时间序列分析

51 广义线性时间序列模型

511 统计数据和GLARMA模型

52 自回归条件均值模型

53 Martingalized GARMA模型

54 抖动模型

55 函数时间序列

551 卷积FAR模型

552 CFAR模型估计

553 拟合值和近似残差

554 预测

555 渐进性

556 应用

附录：统计数据的离散分布

56 练习

参考文献

6 状态空间模型

61 一般模型和统计推断

62 可选例子

621 线性时间序列模型

622 可观测噪声时间序列

623 时变系数模型

624 目标追踪

625 通信信号处理

626 动态因子模型

627 函数和分布式时间序列

628 马尔科夫状态切换模型

629 随机抖动模型

6210 非高斯时间序列

6211 混合频率模型

6212 其它应用

63 线性高斯状态空间模型

631 滤波和卡尔曼滤波

632 似然函数估计

633 平滑

634 预测和缺失数据

635 顺序处理

636 例子和R示例

64 练习

参考文献

7 非线性状态空间模型

71 线性和高斯近似

711 线性非高斯卡尔曼滤波

712 扩展非线性系统卡尔曼滤波

713 高斯和滤波

714 Unscented卡尔曼滤波

715 集成卡尔曼滤波

716 例子和R示例

72 隐马尔科夫模型

721 滤波

722 平滑

723 最大似然状态路径：维特比算法

724 参数估计：Baum-Welch算法

725 HMM例子和R示例

73 练习

参考文献

8 顺序蒙特卡洛

81 蒙特卡洛方法的简单综述

811 生成随机样本的通用方法

812 减少方差方法

813 重要性采样

814 马尔科夫链蒙特卡洛

82 顺序蒙特卡洛框架

83 设计问题一：传播

831 建议分布

832 延迟策略（向前看）

84 设计问题二：重采样

841 优先级打分

842 重采样中采样方法选择

843 重采样调度

844 重采样优点

85 设计问题三：推断

86 设计问题四：边缘化和混合卡尔曼滤波

861 条件动态线性模型

862 混合卡尔曼滤波

87 具有SMC的蒙特卡洛平滑

871 简单加权方法

872 加权边际化方法

873 两滤波采样

88 具有SMC的参数估计

881 最大似然估计

882 贝叶斯参数估计

883 可变参数方法

89 执行考虑

810 例子和R示例

8101 SMC的R执行：一般SMC和重采样方法

8102 杂乱环境追踪

8103 被动声呐单方位追踪

8104 随机抖动模型

8105 衰落信道作为条件动态线性模型

811 练习

参考文献

索引

以上就是关于声学模型GMM-HMM全部的内容，包括:声学模型GMM-HMM、最大似然函数和EM 算法、隐马尔可夫模型的基本问题等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10080288.html

声学模型GMM-HMM

发表评论

评论列表（0条）