
当务之急是利用新技术完善语音身份,建立模型化、标准化、应用化、场景化的底层语音数据库。“通过联合语音数据来源单位、使用单位、作用发挥单位等开展语音数据库信息采集工作,可实现保护传统媒体和新媒体领域的好声音、老声音及具有创新性的各类语音财富的目的。”
语音识别的原理可以从两方面理解,分别是数据库、算法与自学习。1、数据库,其实语音识别的原理是非常好理解的,它是和指纹识别定位原理一样的,设备会把目标语音收集起来,接着对这些收集来的语音实施处理,然后会得到目标语音的一些信息,下面就会把这些特征信息和数据库中已经存在的数据进行相似度的搜索对比,当评分最高的信息出现,那就是识别结果,会经由其他系统的接入把没有完成的设备语音识别功能。
在实际的 *** 作中,语音识别是非常复杂的,毕竟语音本身就较为复杂,它和指纹识别最大的区别就是,指纹识别只需要把指纹录入然后由数据库进行对比识别,可是语音识别就不能如此简单。
由于语音的复杂性,所以语音的数据库是非常庞大的,并且这种数据库还不能放到移动端,这也是使用手机语音助手就必须要进行联网的最大原因。语音识别自出现以来发展到现在,也是有出现过可以离线使用的,但是经过实际的使用后发现,离线版的无法保证准确率,一个可能会出错的识别功能自然无法使用。
2、算法和自学习,语音识别会对收集到的目标进行预处理,其中包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等,总之是非常复杂的,所以之后对于需要处理的语言都会进行特征的提取。
声音是具有震动性的,主要的形状为波形,语言识别也就是对这种波形进行分帧,多个帧构成一个状态,三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调音调。然后经由音素系统吧这些合成单词或者是汉字,下面经过相应的算法处理即可。
自学习系统主要是针对数据库的,吧语言变为文字的语言识别系统必须拥有两个数据库,一个用来提取声音进行匹配,一个是能够与之匹配的文本语言数据库。这两个数据库都需要提前对数据机型进行训练分析,简单地理解为自学习系统。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)