隐马尔可夫模型（基础）_软件运维

假设t时刻的状态只与t-1时刻的状态有关，与更早的时刻无关，这一假设称为一阶马尔可夫假设。如果状态有n种取值，在t时刻取任何一个值与t-1时刻取任何一个值的条件概率构成了一个n×n的矩阵A，称为状态转移概率矩阵。无论t时刻的状态值是什么，在下一时刻一定会转向n个状态种一个，因此他们的转移概率和必须为1。

在实际应用种，人们不能直接观察到状态的值，即状态的值是隐含的，只能得到观测的值。因此对模型进行扩充，得到隐马模型。

观测序列是能得到的值。

状态序列是因，观测序列是果，因为处于某种状态才有了某一观测值。

定义状态观测矩阵B，表示t时刻状态值为s时的观测值为v的概率

t时刻的状态z=i的概率最大状态序列中，t-1时刻的状态值，有了这两个变量，就可以得到维特比算法。

训练时给定一组样本，确定状态转移矩阵和观测矩阵，通过最大似然估计实现。如果已知训练样本集中每个观测序列对应的状态序列，给定初始状态如：p0=[0.5, 0.2, 0.3], k步转化过程为：p0=p0*pk。计算机程序需要利用迭代变量，借助循环实现。经过多步转化p0收敛于固定值(稳态)。可以通过最大似然估计得到模型参数。

状态空间：隐状态S的取值范围

观测空间：观测状态O的取值范围

转移概率：矩阵各元素都是用概率表示。其值非负，并且各行元素之和等于1。在一定条件下是互相转移的，故称为转移概率矩阵。矩阵中的行数与列数可以相等，也可以不等。当它们相等时，矩阵就是一个方阵。由转移概率组成的矩阵就是转移概率矩阵。也就是说构成转移概率矩阵的元素是一个个的转移概率不同状态之间的转移概率，可以用转移矩阵表示，记做a

发射概率：初始状态的概率分布，在知道当前标签的情况下，发射的概率，记做π

输出概率：基于当前状态，不同输出的概率分布，记做b

模型参数λ = (a, b, π)

1、齐次假设：即马尔科夫假设

2、观测独立性假设：观测值只取决于对应的状态值，与其他状态无关

（1）首先, HMM模型表示为: lambda = HMM(A, B, pi), 其中A, B, pi都是模型的参数, 分别称作: 转移概率矩阵, 发射概率矩阵和初始概率矩阵.

（2）接着, 我们开始训练HMM模型, 语料就是事先准备好的一定数量的观测序列及其对应的隐含序列, 通过极大似然估计求得一组参数, 使由观测序列到对应隐含序列的概率最大.

（3）在训练过程中, 为了简化计算, 马尔可夫提出一种假设: 隐含序列中每个单元的可能性只与上一个单元有关. 这个假设就是著名的隐含假设.

（4）训练后, 我们就得到了具备预测能力的新模型: lambda = HMM(A, B, pi), 其中的模型参数已经改变.

（5）之后给定输入序列(x1, x2, ..., xn), 经过模型计算lambda(x1, x2, ..., xn)得到对应隐含序列的条件概率分布.

（6）最后, 使用维特比算法从隐含序列的条件概率分布中找出概率最大的一条序列路径就是我们需要的隐含序列: (y1, y2, ..., yn).

状态转移矩阵通过训练样本学习得到，采用最大似然估计。

初始状态取每种值的概率Π，状态转移概率矩阵A，观测概率矩阵B

隐马尔可夫模型需要解决以下三个问题：

（1）估值问题（观测序列出现的概率）。给定隐马尔可夫模型的参数A和B，计算一个观测序列x出现的概率值p（x）。前向后向算法

（2）解码问题（观测序列最大化的隐含序列）。给定隐马尔可夫模型的参数A和B以及一个观测序列x，计算最有可能产生此观测序列的状态序列z。

已知一个观测序列，寻找最有可能产生它的状态序列。维特比算法

（3）学习问题。给定隐马尔可夫模型的结构，但参数未知，给定一组训练样本，确定隐马尔可夫模型的参数A和B。

保姆韦尔奇算法

隐马尔可夫模型对条件概率p（x|z）建模，因此是一个生成式模型。

中国部分著名数学家介绍（包括古代）

刘徽

刘徽（生于公元250年左右），是中国数学史上一个非常伟大的数学家，在世界数学史上，也占有杰出的地位．他的杰作《九章算术注》和《海岛算经》，是我国最宝贵的数学遗产．

贾宪

贾宪，中国古代北宋时期杰出的数学家。曾撰写的《黄帝九章算法细草》（九卷）和《算法斆古集》（二卷）（斆xiào，意：数导）均已失传。

他的主要贡献是创造了"贾宪三角"和增乘开方法，增乘开方法即求高次幂的正根法。目前中学数学中的混合除法，其原理和程序均与此相仿，增乘开方法比传统的方法整齐简捷、又更程序化，所以在开高次方时，尤其显出它的优越性，这个方法的提出要比欧洲数学家霍纳的结论早七百多年。

秦九韶

秦九韶（约1202--1261），字道古，四川安岳人。先后在湖北，安徽，江苏，浙江等地做官，1261年左右被贬至梅州，（今广东梅县），不久死于任所。他与李冶，杨辉，朱世杰并称宋元数学四大家。早年在杭州“访习于太史，又尝从隐君子受数学”，1247年写成著名的《数书九章》。《数书九章》全书凡18卷，81题，分为九大类。其最重要的数学成就----“大衍总数术”（一次同余组解法）与“正负开方术"(高次方程数值解法），使这部宋代算经在中世纪世界数学史上占有突出的地位。

李冶

李冶(1192----1279)，原名李治，号敬斋，金代真定栾城人，曾任钧州（今河南禹县）知事，1232年钧州被蒙古军所破，遂隐居治学，被元世祖忽必烈聘为翰林学士，仅一年，便辞官回乡。1248年撰成《测圆海镜》，其主要目的是说明用天元术列方程的方法。“天元术”与现代代数中的列方程法相类似，“立天元一为某某”，相当于“设x为某某“，可以说是符号代数的尝试。李冶还有另一步数学著作《益古演段》（1259）也是讲解天元术的。

朱世杰

朱世杰（1300前后），字汉卿，号松庭，寓居燕山（今北京附近），“以数学名家周游湖海二十余年”，“踵门而学者云集”(莫若、祖颐：《四元玉鉴》后序）。朱世杰数学代表作有《算学启蒙》（1299）和《四元玉鉴》（1303）。《算术启蒙》是一部通俗数学名著，曾流传海外，影响了朝鲜、日本数学的发展。《四元玉鉴》则是中国宋元数学高峰的又一个标志，其中最杰出的数学创造有“四元术”（多元高次方程列式与消元解法）、“垛积术”（高阶等差数列求和）与“招差术”（高次内插法）．

祖冲之

祖冲之（公元429～500年）祖籍是现今河北省涞源县，他是南北朝时代的一位杰出科学家。他不仅是一位数学家，同时还通晓天文历法、机械制造、音乐等领域，并且是一位天文学家。

祖冲之在数学方面的主要成就是关于圆周率的计算，他算出的圆周率为3.1415926<π<3.1415927，这一结果的重要意义在于指出误差的范围，是当时世界最杰出的成就。祖冲之确定了两个形式的π值，约率355/173(≈3.1415926）密率22/7(≈3.14)，这两个数都是π的渐近分数。

祖暅

祖暅，祖冲之之子，同其父祖冲之一起圆满解决了球面积的计算问题，得到正确的体积公式。现行教材中著名的“祖暅原理”，在公元五世纪可谓祖暅对世界杰出的贡献。

杨辉

杨辉，中国南宋时期杰出的数学家和数学教育家。在13世纪中叶活动于苏杭一带，其著作甚多。

他著名的数学书共五种二十一卷。著有《详解九章算法》十二卷（1261年）、《日用算法》二卷（1262年）、《乘除通变本末》三卷（1274年）、《田亩比类乘除算法》二卷（1275年）、《续古摘奇算法》二卷（1275年）。

他在《续古摘奇算法》中介绍了各种形式的"纵横图"及有关的构造方法，同时"垛积术"是杨辉继沈括"隙积术"后，关于高阶等差级数的研究。杨辉在"纂类"中，将《九章算术》246个题目按解题方法由浅入深的顺序，重新分为乘除、分率、合率、互换、二衰分、叠积、盈不足、方程、勾股等九类。

赵爽

赵爽，三国时期东吴的数学家。曾注《周髀算经》，他所作的《周髀算经注》中有一篇《勾股圆方图注》全文五百余字，并附有云幅插图（已失传），这篇注文简练地总结了东汉时期勾股算术的重要成果，最早给出并证明了有关勾股弦三边及其和、差关系的二十多个命题，他的证明主要是依据几何图形面积的换算关系。

赵爽还在《勾股圆方图注》中推导出二次方程 (其中a>0,A>0)的求根公式在《日高图注》中利用几何图形面积关系，给出了"重差术"的证明。（汉代天文学家测量太阳高、远的方法称为重差术）。

华罗庚

华罗庚，中国现代数学家。1910年11月12日生于江苏省金坛县。1985年6月12日在日本东京逝世。华罗庚1924年初中毕业之后，在上海中华职业学校学习不到一年，因家贫辍学，他刻苦自修数学，1930年在《科学》上发表了关于代数方程式解法的文章，受到专家重视，被邀到清华大学工作，开始了数论的研究，1934年成为中华教育文化基金会研究员。1936年作为访问学者去英国剑桥大学工作。1938年回国，受聘为西南联合大学教授。1946年应苏联普林斯顿高等研究所邀请任研究员，并在普林斯顿大学执教。1948年始，他为伊利诺伊大学教授。

1924年金坛中学初中毕业，后刻苦自学。1930年后在清华大学任教。

1936年赴英国剑桥大学访问、学习。1938年回国后任西南联合大学教授。1946年赴美国，任普林斯顿数学研究所研究员、普林斯顿大学和伊利诺斯大学教授，1950年回国。 40年代，解决了高斯完整三角和的估计这

一历史难题，得到了最佳误差阶估计（此结果在数论中有着广泛的应用）；对G.H.哈

代与J.E.李特尔伍德关于华林问题及E.赖特关于塔里问题的结果作了重大的改进，至今仍是最佳纪录。

代数方面，证明了历史长久遗留的一维射影几何的基本定理；给出

了体的正规子体一定包含在它的中心之中这个结果的一个简单而直接的证明，被称为嘉当-布饶尔-华定理。其专著《堆垒素数论》系统地总结、发展与改进了哈代与李特尔伍德圆法、维诺格拉多夫三角和估计方法及他本人的方法，发表40余年来其主要结果仍居

世界领先地位，先后被译为俄、匈、日、德、英文出版，成为20世纪经典数论著作之一。其专著《多个复变典型域上的调和分析》以精密的分析和矩阵技巧，结合群表示论，具体给出了典型域的完整正交系，从而给出了柯西与泊松核的表达式。这项工作在调和分析、复分析、微分方程等研究中有着广泛深入的影响，曾获中国自然科学奖一等奖。倡导应用数学与计算机的研制，曾出版《统筹方法平话》、《优选学》等多部著作并在中国推广应用。与王元教授合作在近代数论方法应用研究方面获重要成果，被称为 “华-王方法”。在发展数学教育和科学普及方面做出了重要贡献。发表研究论文200多篇，并有专著和科普性著作数十种。

陈景润

数学家，中国科学院院士。1933 年5月22日生于福建福州。1953年毕业于厦门大学

数学系。1957年进入中国科学院数学研究所并在华罗庚教授指导下从事数论方面的研究。历任中国科学院数学研究所研究员、所学术委员会委员兼贵阳民族学院、河南大学、青岛大学、华中工学院、福建师范大学等校教授，国家科委数学学科组成员，《数学季刊》主编等职。主要从事解析数论方面的研究，并在哥德巴赫猜想研究方面取得国际领先的成果。这一成果国际上誉为“陈氏定理”，受到广泛引用。这项工作，使之与王元教授、潘承洞教授共同获得1978年国家自然科学奖一等奖。其后对上述定理又作了改进，并于1979年初完成论文《算术级数中的最小素数》，将最小素数从原有的80推进到 16

，受到国际数学界好评。对组合数学与现代经济管理、科学实验、尖端技术、人类生活密切关系等问题也作了研究。发表研究论文70余篇，并有《数学趣味谈》、《组合数学》等著作！

苏步青（1902－2003）浙江平阳人。1927年毕业于日本东北帝国大学数学系，后入该校研究院，获理学博士学位。回国后，受聘于浙江大学数学系。1952年全国院系调整，到复旦大学任教，任教务长、副校长、校长等职，1983年起任复旦大学名誉校长。1985年起任温州大学名誉校长。历任第七、八届全国政协副主席，第五、六届全国人大常委，民盟中央副主席。1955年当选为中国科学院数学物理学部委员，兼任学术委员会常委，专长微分几何，创立了国内外公认的微分几何学派。撰有《射影曲线概论》、《射影曲面概论》等专著10部。研究成果“船体放样项目”、“曲面法船体线型生产程序”分别荣获全国科学大会奖和国家科技进步二等奖。

苏老虽然家境清贫，可他父母省吃俭用，拼死拼活也要供他上学。他在读初中时，对数学并不感兴趣，觉得数学太简单，一学就懂。可量，后来的一堂数学课影响了他一生的道路。

那是苏步青上初三时，他就读浙江省六十中来了一位刚从东京留学归来的教数学课的杨老师。第一堂课杨老师没有讲数学，而是讲故事。他说：“当今世界，弱肉强食，世界列强依仗船坚炮利，都想蚕食瓜分中国。中华亡国灭种的危险迫在眉睫，振兴科学，发展实业，救亡图存，在此一举。‘天下兴亡，匹夫有责’，在座的每一位同学都有责任。”他旁征博引，讲述了数学在现代科学技术发展中的巨大作用。这堂课的最后一句话是：“为了救亡图存，必须振兴科学。数学是科学的开路先锋，为了发展科学，必须学好数学。”苏步青一生不知听过多少堂课，但这一堂课使他终身难忘。

杨老师的课深深地打动了他，给他的思想注入了新的兴奋剂。读书，不仅为了摆脱个人困境，而是要拯救中国广大的苦难民众；读书，不仅是为了个人找出路，而是为中华民族求新生。当天晚上，苏步青辗转反侧，彻夜难眠。在杨老师的影响下，苏步青的兴趣从文学转向了数学，并从此立下了“读书不忘救国，救国不忘读书”的座右铭。一迷上数学，不管是酷暑隆冬，霜晨雪夜，苏步青只知道读书、思考、解题、演算，4年中演算了上万道数学习题。现在温州一中（即当时省立十中）还珍藏着苏步青一本几何练习薄，用毛笔书写，工工整整。中学毕业时，苏步青门门功课都在90分以上。

17岁时，苏步青赴日留学，并以第一名的成绩考取东京高等工业学校，在那里他如饥似渴地学习着。为国争光的信念驱使苏步青较早地进入了数学的研究领域，在完成学业的同时，写了30多篇论文，在微分几何方面取得令人瞩目的成果，并于1931年获得理学博士学位。获得博士之前，苏步青已在日本帝国大学数学系当讲师，正当日本一个大学准备聘他去任待遇优厚的副教授时，苏步青却决定回国，回到抚育他成长的祖任教。回到浙大任教授的苏步青，生活十分艰苦。面对困境，苏步青的回答是“吃苦算得了什么，我甘心情愿，因为我选择了一条正确的道路，这是一条爱国的光明之路啊！”

这就是老一辈数学家那颗爱国的赤子之心。

苏步青先生逝世的消息传开后，平阳人民的心情非常沉重。因为他与家乡人民的感情极深，他的名字早已与家乡的许多方面连在一起。

当我重新捧读“卧牛山下农家子，牛背讴歌带溪水。欲砍青阶竹作鞭，牵牛去耕天下田”的诗句，更是别有一番思绪。苏步青不仅是中外闻名的数学家，也是一位优秀的诗人。他一生与诗结缘，诗中不仅反映了他热爱祖国的精神，还渗透了浓郁乡情。仅以《苏步青业余诗词钞》几百首诗来说，赞美家乡的就有几十首：瓯江雁荡、卧牛带溪、农家风情、儿歌俚语，都在诗词中尽展风姿，其创作时间长达60余年。诗是苏步青的人格投影、情感物化和生命结晶。读他的诗，为我们了解现代中国正直知识分子的心灵世界提供了一份不可多得的艺术参照。

早在抗战时期，苏步青居于西北的一个小镇上，身处“流亡大学”的困难境地，仍不忘家乡父老，以诗寄情：“画角声声催铁血，烽烟处处缺金瓯。”“万里家乡隔战尘，江南烟雨梦归频。”“遥怜儿女牵衣小，无奈家山归梦长。”抗战胜利后，他到台湾负责接收台北大学，很多朋友劝他留在台湾，但他依然决定回浙大。1946年3月，苏步青在从台湾归来的飞机上作《忆秦娥》，充满思乡之情：“台湾峡，深蓝一片波声歇。波声歇，孤机遥指，浙东瓯北。白云开处山重叠，晴空万里归时节。归时节，红楼幽楼，菱花新雪。”后来，蒋介石发动内战，陷人民于水深火热之中。苏步青的诗词重又流露出感时伤世、心忧天下的情愫：“极目东西无净土”、“愁闻鼙鼓动余哀”。在旧中国的灾难岁月里，他的诗词多忧患之音，沉郁之作，赤子之心跃然纸上。

苏步青的家乡诗情在南雁这个主题上表现最丰富。他出生于1902年，1919年就离开家乡去日本留学，此后一直生活在他乡，可心中最牵挂的是家乡的南雁荡山，描写南雁风情的诗就有几十首：会文书院的古风、仙姑洞的香火、碧溪渡的竹筏、顺溪的香鱼、腾蛟的古桥……1940年他回乡时，写下了《南雁爱山亭晚眺》：“爱山亭上少淹留，烟绕村耕欲渐休。牛背只应横笛晚，羊肠从此入山幽。云飞千嶂风和雨，滩响一溪夏亦秋。长忆春来芳草遍，夕阳渡口系归舟。”由于诗人对环境十分熟悉，顺手拈来，把碧溪渡、东南屏嶂、云关等景点描绘得呼之欲出。1945年抗战刚胜利，他多想回家乡看看，可苦于没有机会，于是在《梦游仙姑洞》中写道：“梦里仙姑画里行，居然一水竹排轻。不知窗际寒灯影，竟化山头皓月明。”窗前的寒灯竟成了家乡的明月，可见其情深意切。他的《忆游南雁》、《南雁佳景吟》、《思乡》、《南雁寄怀》无不在回忆和思念中写就。1942年，友人在送他的诗中写道：“子规声里情难遣，心逐飞鸿雁荡边。”他和道：“云关千级迂仙道，月牖孤悬印雁行。”家乡的老同学施锵带来了南雁特产香鱼干，他又深情地写下：“闻道家园秋已晚，西风不用忆鲈鱼。”

家乡的故居前有座山叫牛山卧，是南雁景观之一。苏步青的诗中屡次出现此山，并自称是“卧牛山下看牛郎”、“ 卧牛山下旧耕农”、“卧牛山下农家子”。他与著名文史学家苏渊雷教授是同乡，两人同在上海工作，对南雁都深怀感情。1983年苏步青给苏渊雷写了《南雁荡寄怀似仲翔》：“一别名山四十春，有时归思寄南云。仙姑何幸馨香火，孙老无端榜会文（孙衣言题会文书院一联：‘伊洛微言持敬始，永嘉前辈读书多’）。牛背笛横斜日渡，羊肠径逐故园门。秋来处处堪留恋，朱橘黄柑又几村。”接到诗稿，激起苏渊雷无限怀想，写下了《步老寄示南雁荡长句儿时就读会文书院有同感焉次和却寄》：“南雁回翔六十春，辅仁会友气凌云。木樨淡放知无隐，华表斜看有逸文。野渡半篙真罨画，青灯一味足玄门。珂乡未觉灵山远，起凤腾蛟别有村。”两位名人的诗如今成了家乡的珍品。1985年，苏步青为《平阳地名志》题词，写下了“地灵人杰我平阳，鳌水雁山鱼米香”，诗句后来成为赞誉平阳的名句。

读苏步青的诗词，不难感觉到他是性情中人。其实，他无心做诗人，但经久不衰的生活热情，丰富多彩的人生阅历，渊博的学识，深厚的文学功底，加上炽热的怀乡情感，却使他每有所作皆臻佳境，成就为真正的诗人

作为一个标准的程序员，应该有一些基本的数学素养，尤其现在很多人在学习人工智能相关知识，想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。

作为一个傲娇的程序员，应该要掌握这些数学基础知识，才更有可能码出一个伟大的产品。

向量向量（vector）是由一组实数组成的有序数组，同时具有大小和方向。一个n维向量a是由n个有序实数组成，表示为 a = [a1, a2, · · · , an]

矩阵

线性映射 矩阵通常表示一个n维线性空间v到m维线性空间w的一个映射f: v ->w

注：为了书写方便， X.T ，表示向量X的转置。这里： X(x1,x2,...,xn).T，y(y1,y2,...ym).T ，都是列向量。分别表示v,w两个线性空间中的两个向量。A(m,n)是一个 m*n 的矩阵，描述了从v到w的一个线性映射。

转置将矩阵行列互换。

加法如果A和B 都为m × n的矩阵，则A和B 的加也是m × n的矩阵，其每个元素是A和B相应元素相加。 [A + B]ij = aij + bij .

乘法如A是k × m矩阵和B 是m × n矩阵，则乘积AB 是一个k × n的矩阵。

对角矩阵 对角矩阵是一个主对角线之外的元素皆为0的矩阵。对角线上的元素可以为0或其他值。一个n × n的对角矩阵A满足： [A]ij = 0 if i ̸= j ∀i, j ∈ {1, · · · , n}

特征值与特征矢量 如果一个标量λ和一个非零向量v满足 Av = λv, 则λ和v分别称为矩阵A的特征值和特征向量。

矩阵分解 一个矩阵通常可以用一些比较“简单”的矩阵来表示，称为矩阵分解。

奇异值分解 一个m×n的矩阵A的奇异值分解

其中U 和V 分别为m × m和n×n 的正交矩阵，Σ为m × n的对角矩阵，其对角线上的元素称为奇异值（singular value）。

特征分解 一个n × n的方块矩阵A的特征分解（Eigendecomposition）定义为

其中Q为n × n的方块矩阵，其每一列都为A的特征向量，^为对角阵，其每一个对角元素为A的特征值。如果A为对称矩阵，则A可以被分解为

其中Q为正交阵。

导数对于定义域和值域都是实数域的函数 f : R → R ，若f(x)在点x0 的某个邻域∆x内，极限

存在，则称函数f(x)在点x0 处可导， f'(x0) 称为其导数，或导函数。若函数f(x)在其定义域包含的某区间内每一个点都可导，那么也可以说函数f(x)在这个区间内可导。连续函数不一定可导，可导函数一定连续。例如函数|x|为连续函数，但在点x = 0处不可导。

加法法则

y = f(x),z = g(x) 则

乘法法则

链式法则 求复合函数导数的一个法则，是在微积分中计算导数的一种常用方法。若 x ∈ R，y = g(x) ∈ R，z = f(y) ∈ R ，则

Logistic函数是一种常用的S形函数，是比利时数学家 Pierre François Verhulst在 1844-1845 年研究种群数量的增长模型时提出命名的，最初作为一种生态学模型。 Logistic函数定义为：

当参数为 (k = 1, x0 = 0, L = 1) 时，logistic函数称为标准logistic函数，记为 σ(x) 。

标准logistic函数在机器学习中使用得非常广泛，经常用来将一个实数空间的数映射到(0, 1)区间。标准 logistic 函数的导数为：

softmax函数是将多个标量映射为一个概率分布。对于 K 个标量 x1, · · · , xK ， softmax 函数定义为

这样，我们可以将 K 个变量 x1, · · · , xK 转换为一个分布： z1, · · · , zK ，满足

当softmax 函数的输入为K 维向量x时，

其中，1K = [1, · · · , 1]K×1 是K 维的全1向量。其导数为

离散优化和连续优化 :根据输入变量x的值域是否为实数域，数学优化问题可以分为离散优化问题和连续优化问题。

无约束优化和约束优化 :在连续优化问题中，根据是否有变量的约束条件，可以将优化问题分为无约束优化问题和约束优化问题。 ### 优化算法

全局最优和局部最优

海赛矩阵

《运筹学里面有讲》，前面一篇文章计算梯度步长的时候也用到了：梯度下降算法

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

梯度下降法

梯度下降法（Gradient Descent Method），也叫最速下降法（Steepest Descend Method），经常用来求解无约束优化的极小值问题。

梯度下降法的过程如图所示。曲线是等高线（水平集），即函数f为不同常数的集合构成的曲线。红色的箭头指向该点梯度的反方向（梯度方向与通过该点的等高线垂直）。沿着梯度下降方向，将最终到达函数f 值的局部最优解。

梯度上升法

如果我们要求解一个最大值问题，就需要向梯度正方向迭代进行搜索，逐渐接近函数的局部极大值点，这个过程则被称为梯度上升法。

概率论主要研究大量随机现象中的数量规律，其应用十分广泛，几乎遍及各个领域。

离散随机变量

如果随机变量X 所可能取的值为有限可列举的，有n个有限取值 {x1, · · · , xn}, 则称X 为离散随机变量。要了解X 的统计规律，就必须知道它取每种可能值xi 的概率，即

称为离散型随机变量X 的概率分布或分布，并且满足

常见的离散随机概率分布有：

伯努利分布

二项分布

连续随机变量

与离散随机变量不同，一些随机变量X 的取值是不可列举的，由全部实数或者由一部分区间组成，比如

则称X 为连续随机变量。

概率密度函数

连续随机变量X 的概率分布一般用概率密度函数 p(x) 来描述。 p(x) 为可积函数，并满足：

均匀分布 若a, b为有限数，[a, b]上的均匀分布的概率密度函数定义为

正态分布 又名高斯分布，是自然界最常见的一种分布，并且具有很多良好的性质，在很多领域都有非常重要的影响力，其概率密度函数为

其中， σ >0，µ 和 σ 均为常数。若随机变量X 服从一个参数为 µ 和 σ 的概率分布，简记为

累积分布函数

对于一个随机变量X，其累积分布函数是随机变量X 的取值小于等于x的概率。

以连续随机变量X 为例，累积分布函数定义为：

其中p(x)为概率密度函数，标准正态分布的累计分布函数:

随机向量

随机向量是指一组随机变量构成的向量。如果 X1, X2, · · · , Xn 为n个随机变量, 那么称 [X1, X2, · · · , Xn] 为一个 n 维随机向量。一维随机向量称为随机变量。随机向量也分为离散随机向量和连续随机向量。条件概率分布对于离散随机向量 (X, Y) ，已知X = x的条件下，随机变量 Y = y 的条件概率为：

对于二维连续随机向量(X, Y )，已知X = x的条件下，随机变量Y = y 的条件概率密度函数为

期望对于离散变量X，其概率分布为 p(x1), · · · , p(xn) ，X 的期望（expectation）或均值定义为

对于连续随机变量X，概率密度函数为p(x)，其期望定义为

方差随机变量X 的方差（variance）用来定义它的概率分布的离散程度，定义为

标准差 随机变量 X 的方差也称为它的二阶矩。X 的根方差或标准差。

协方差 两个连续随机变量X 和Y 的协方差（covariance）用来衡量两个随机变量的分布之间的总体变化性，定义为

协方差经常也用来衡量两个随机变量之间的线性相关性。如果两个随机变量的协方差为0，那么称这两个随机变量是线性不相关。两个随机变量之间没有线性相关性，并非表示它们之间独立的，可能存在某种非线性的函数关系。反之，如果X 与Y 是统计独立的，那么它们之间的协方差一定为0。

随机过程（stochastic process）是一组随机变量Xt 的集合，其中t属于一个索引（index）集合T 。索引集合T 可以定义在时间域或者空间域，但一般为时间域，以实数或正数表示。当t为实数时，随机过程为连续随机过程；当t为整数时，为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。常见的和时间相关的随机过程模型包括贝努力过程、随机游走、马尔可夫过程等。

马尔可夫过程 指一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

其中X0:t 表示变量集合X0, X1, · · · , Xt，x0:t 为在状态空间中的状态序列。

马尔可夫链 离散时间的马尔可夫过程也称为马尔可夫链（Markov chain）。如果一个马尔可夫链的条件概率

马尔可夫的使用可以看前面一篇写的有意思的文章：女朋友的心思你能猜得到吗？——马尔可夫链告诉你随机过程还有高斯过程，比较复杂，这里就不详细说明了。

信息论（information theory）是数学、物理、统计、计算机科学等多个学科的交叉领域。信息论是由 Claude Shannon最早提出的，主要研究信息的量化、存储和通信等方法。在机器学习相关领域，信息论也有着大量的应用。比如特征抽取、统计推断、自然语言处理等。

在信息论中，熵用来衡量一个随机事件的不确定性。假设对一个随机变量X（取值集合为C概率分布为 p(x), x ∈ C ）进行编码，自信息I(x)是变量X = x时的信息量或编码长度，定义为 I(x) = − log(p(x)), 那么随机变量X 的平均编码长度，即熵定义为

其中当p(x) = 0时，我们定义0log0 = 0 熵是一个随机变量的平均编码长度，即自信息的数学期望。熵越高，则随机变量的信息越多；熵越低，则信息越少。如果变量X 当且仅当在x时 p(x) = 1 ，则熵为0。也就是说，对于一个确定的信息，其熵为0，信息量也为0。如果其概率分布为一个均匀分布，则熵最大。假设一个随机变量X 有三种可能值x1, x2, x3，不同概率分布对应的熵如下：

联合熵和条件熵 对于两个离散随机变量X 和Y ，假设X 取值集合为X；Y 取值集合为Y，其联合概率分布满足为 p(x, y) ，则X 和Y 的联合熵（Joint Entropy）为

X 和Y 的条件熵为

互信息 互信息（mutual information）是衡量已知一个变量时，另一个变量不确定性的减少程度。两个离散随机变量X 和Y 的互信息定义为

交叉熵和散度交叉熵对应分布为p(x)的随机变量，熵H(p)表示其最优编码长度。交叉熵是按照概率分布q 的最优编码对真实分布为p的信息进行编码的长度，定义为

在给定p的情况下，如果q 和p越接近，交叉熵越小；如果q 和p越远，交叉熵就越大。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/12200045.html

隐马尔可夫模型（基础）

发表评论

评论列表（0条）