
自从有了唇语识别技能的展示,就有声音说唇语识别是言语互动的下一个阶段,可以引发一场反革命。不会,从文字上看,唇语识别并不是能尽快提高的。
在今年的黑镇天地互联网科技大会上,搜狗搜索展出了一个高科技项目——唇语识别。12月14日,搜狗搜索再次在北京展示了这一技能。开发了唇语识别管理系统,在搜狗搜索非专项开放白话测试中通用识别准确率达到60%以上,在汽车停靠、智能家居系统等翘曲情况下准确率达到90%。
据说搜狗搜索是国内第一家在公开场合测试那项技能的企业,但早在2017年3月,海云数据的开创者兼CEO冯亦村就已经发布了重庆公安科学研究院基于海云数据合作研发的唇语识别技术,其中文识别模型的准确率已经达到70%。
GoogleDeepMind的精英团队,在2016年控制BBC视频终止了他们AI管理系统5000小时的训练,嘴唇识别准确率达到了46.8%。
其实也不是独角戏。什么是唇识别?你未来有什么样的室内空房间?
唇识别只是语音识别的没落。
虽然唇识别进入国民政府的时间不长,但是唇识别的发展可以追溯到上世纪80年代。
当时视频语音识别的技术开展很快,出现了很多真实的视频语音识别管理系统。然而,这些管理系统的抗入侵能力不强,当已经存在串扰时,它们的功能会大大降低。但是在纯天然应用的情况下,乐音的迹象是很常见的。为了处理缺陷,讨论者在一个圈子里接受了降噪技术的压抑,在另一个圈子里开始寻找其他解决方案。
嘴唇识别是如何工作的?语音识别的讨论者突然发明了。的确,人的语音识别管理系统是由两个认知过程组成的。虽然声音是人的言语认知能力过程中最关键的方式,但一直是照常交流的。我们可以用眼睛看到关于圈子的内心和情绪,从而更准确地掌握圈子的内容。受此启发,讨论者开始讨论唇语识别。如果在没有噪声侵入的情况下对嘴唇识别进行细化,并且能够在很多对话中有效地终止识别,那么视频语音识别的缺陷将在可预见的未来得到解决。最后,嘴唇识别与视频语音识别的分离可以极大地提高管理系统的准确性并防止入侵。所以唇语识别有大量的实验室空。
从伤口换汤到换药用了30年,管理中心走了三步。
通过讨论各种原材料的发明,唇识别的技巧从监控摄像头到掌握输出。管理中心的重点就是那三家企业——视效前端、视效特征呈现、嘴唇动作识别。
(如图:唇语识别的步伐)
其中,视觉效果的前端包括人脸识别算法的嘴唇检测和精确定位,最后的检查方法比较笨拙,对面部自满动作没有认可,还有人用脚抬起特殊的标志来跟踪嘴唇动作。目前,主要和次要的检查方法是,根据优化算法,首先使用人脸识别算法优化算法得到人脸,然后有目的地准确定位嘴唇运动;最好的控制算法是阈值二值优化算法,以唇部边缘为前提条件,以你设计的对称性为二值阈值选取的约束前提条件,得到平滑对称的唇部图像。
视觉效果特征提取是对获得的嘴唇图像进行终止应急处理,以获得匹配特征。特征提取方法可以分为两类:基于清晰度的方法和基于模型的方法。说白了,基于定义的方法是一种对口腔的灰度图像或经过前期急救处理后得到的特征背量进行控制的方法。那种方法的缺陷是对二维或三维的缩放、扭曲、移位、太阳光的变换、道人说话的变换比较敏感,会导致在呈现的过程中丢失特征,最好是得到完整的特征。搜狗搜索常用的基于模具的方法是在嘴唇表面创建一个模具,将特征信息包含在哪个模具中,用一个小的主参数来看模具中特征信息的变换。该方法的优点在于,关键特征被隐含为二维主参数,其不会由于阳光、缩放、变形或移动而被修改。该方法的缺点是它忽略了纤细的三维信息,这可能对前面的识别过程有害。
目前公认的唇动识别技术大多是藏马藏女的模型。这种技术的基本思想是嘴唇运动信号在很短的时间内是线性的,这可以通过线性主参数模型来暗示。然后,很多线性模型在时间上被连接起来,形成了一个马与女人的链条。马可福链可以通过对外貌的统计分析来分析特征信息的变换,那种变换过程与人的嘴唇运动是一致的。因此,隐藏的马可福模型可以识别嘴唇的运动,并采取响应句子来匹配并转换成墨水笔。
看起来应用标底的目的有很多,最关键的一个就是辅助视频语音识别。
唇识别技能的应用有很多目的,比如在脚战中对英语听力停滞的患者进行辅助和指导,在国防反恐的圈子中获取信息,对自己个人身份的真实识别以及每个人冷静的范围等。,都有很大的应用和发展潜力。然而,我们已经看到了视频语音识别的最大应用。最终从诞生开始就被研究收集,用来处理视频语音识别的音乐测试分数,也会让语音交互更加极致。
到了那里,就不得不提智能音响了。事实上,除了搜狗搜索,许多企业也对语音交互做出了整体规划。国内有Alibaba.com、百度搜索、科大讯飞,国外有美国的iPhone、谷歌、微硬件、亚马逊。今年7月,Alibaba.com发布了智能音响天猫商城,可以承接各种语音指令,拆解中文人机对战交流管理系统AliGenie,在可预见的未来成为家里的智能小帮手。11月16日,百度搜索还发布了剩余智能音ravenH,接受19×19面积触摸屏,嵌入DuerOS2.0语音交互管理系统,拥有视频和语音战控两种交互模式。其他还有JD.COM商城的丁咚丁咚,小米手机的小爱同学,喜欢马推关的低俗音等智能音材。这些企业似乎并没有发出智能化的声音,都欠了一个很好的实际意义,说是把自己天生的智能化范围搞混了。
智能声音和唇识别有什么联系?大厂们繁杂的发布智能音的结果是,看到了新交互方式的大趋势,但是智能音能满足需求的情况很少,智能音因为一个2岁的病——反音乐音,只能低到近场交互。
根据在音教主线上的检测,即使是市面情况最干支流的智能噪音,在没有抵抗过音乐声音之前,也无法获得近场交互,5米的中短距离也有不少失误。
(如图:5m间距智能声音唤醒故障频率统计分析)
而且在传统语音交互对传入音频的要求下,在场景音乐很响的情况下生效非常简单。如果人们带上机械设备,彼此靠得更近,效果就更不乐观了。但是嘴唇识别可以解决那两个测试分数。
要快速晋升,有两个考试成绩要解决。
自从有了唇语识别技能的展示,就有声音说唇语识别是言语互动的下一个阶段,可以引发一场反革命。不会,据不雅观察,现在唇语识别还不能尽快提高。那次重要考试的结果是:
1.监控摄像头的记录和存储受到了很大的限制,不能比平时详细满意的交互需求。
在今天的唇语识别管理系统中,所有获得的关于嘴的视觉效果特征的信息都是正反向的,这意味着当你拿它进行交互时,需要长时间面对它,第一视角被它牢牢占据,所以当它已经被应用时,很容易到达。为了能够应用大量的场景,人们应该能够被识别,即使他们在侧着身子说话。这就要求人脸识别和嘴唇检测必须在精确定位的范围内进行,以讨论更强的精确定位和跟踪优化算法,发展优化算法的普遍意义,使其适用于非特殊信息和战争影响下的精确定位。除此之外,还应该开发唇动识别技术,使其可以用来处理不直不背,不太完整的视觉效果特征。
2.识别的准确性也是一个核心区域的测试结果。在已经有风平浪静的情况下,准确性并不好。
但是,众所周知,拼音的编码顺序确实是一一对应的关系。如智、迟、时的匹配编码序列相同,童心控制视觉效果的特征容易识别,其测试结果亟待处理。传统的技术方法是语法型语音模型,按照自然语言教语法。那种语音模型一般用于解释特定范围内的句子,而不能紧急处理大范围内的真实单词。现在很多识别管理系统都是自然有限的结构,对于某个场景可以显示的句子,很多设置都已经终止了。当时搜狗搜索的唇语识别管理系统已经在弯道场景(比如汽车停靠)表现出了非常好的效果,这也是它无法应用到更大范畴的其他场景的结果。如果需要终止所有场景的设置,几乎是不可能的。
况且还是要谦虚自信,跟着人类社会的进步走。的确,疑惑越来越多,应急数据和信息的技能也越来越丰富。根据对词汇的统计分析,可以快速分析出语音模型,借助对语音模型的概率主要参数的统计分析,可以估计出每一句话在纯自然语音中出现的可能性,是有代价的。整个过程结束后,我们会停止工作的深度还原和词表中统计分析的学习,得到纯自然语音的基础知识,然后目前常见的识别场景的准确率是60%到70%。虽然有点隐蔽,但是可以注意到,随着大数据信息的自然化、智能化的进步,未来识别的准确率会更低。
似乎每个人背后都在进行一个新的阶段。
作者:夏婷,微疑号:智能量子论(aixdlun)
文章由@发表丮丮丮丮丮丮。我已经同意了,并劝阻拦截。
图片来自unsplash,据CC0和平谈判。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)