语音识别开放化开发平台有哪些_sql

语音识别开发平台有很多，具体总结如下：（更详细的介绍参见本人的博文：几个常见的语音交互平台的简介和比较）1.商业化的语音交互平台1)微软SpeechAPI微软的SpeechAPI（简称为SAPI）是微软推出的包含语音识别（SR）和语音合成（SS）引擎的应用编程接口（API），在Windows下应用广泛。目前，微软已发布了多个SAPI版本（最新的是SAPI5.4版），这些版本要么作为于SpeechSDK开发包发布，要么直接被包含在windows *** 作系统中发布。SAPI支持多种语言的识别和朗读，包括英文、中文、日文等。2).IBMviaVoiceIBM是较早开始语音识别方面的研究的机构之一，早在20世纪50年代末期，IBM就开始了语音识别的研究，计算机被设计用来检测特定的语言模式并得出声音和它对应的文字之间的统计相关性。1999年，IBM发布了VoiceType的一个免费版。2003年，IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权，随后ScanSoft与Nuance合并，如今viaVoice早已淡出人们的视线，取而代之的是Nuance。3）NuanceNuance通讯是一家跨国计算机软件技术公司，总部设在美国马萨诸塞州伯灵顿，主要提供语音和图像方面的解决方案和应用。目前的业务集中在服务器和嵌入式语音识别，电话转向系统，自动电话目录服务等。Nuance语音技术除了语音识别技术外，还包扩语音合成、声纹识别等技术。世界语音技术市场，有超过80%的语音识别是采用Nuance识别引擎技术，其名下有超过1000个专利技术，公司研发的语音产品可以支持超过50种语言，在全球拥有超过20亿用户。苹果的iPhone4S的Siri语音识别中就应用了Nuance的语音识别服务。4）科大讯飞科大讯飞作为中国最大的智能语音技术提供商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。占有中文语音技术市场60%以上市场份额，语音合成产品市场份额达到70%以上。5）其他其他的影响力较大商用语音交互平台有谷歌的语音搜索（GoogleVoiceSearch），百度和搜狗的语音输入法等等。2.开源的语音交互平台1）CMU-SphinxCMU-Sphinx也简称为Sphinx（狮身人面像），是卡内基-梅隆大学（CarnegieMellonUniversity，CMU）开发的一款开源的语音识别系统，它包括一系列的语音识别器和声学模型训练工具。最早的Sphinx-I由@李开复（Kai-FuLee）于1987年左右开发，使用了固定的HMM模型（含3个大小为256的codebook），它被号称为第一个高性能的连续语音识别系统（在ResourceManagement数据库上准确率达到了90%+）。最新的Sphinx语音识别系统包含如下软件包：Pocketsphinx—recognizerlibrarywritteninC.Sphinxbase—supportlibraryrequiredbyPocketsphinxSphinx4—adjustable,modifiablerecognizerwritteninJavaCMUclmtk—languagemodeltoolsSphinxtrain—acousticmodeltrainingtools这些软件包的可执行文件和源代码在sourceforge上都可以免费下载得到。2）HTKHTK是HiddenMarkovModelToolkit（隐马尔科夫模型工具包）的简称，HTK主要用于语音识别研究，最初是由剑桥大学工程学院（CambridgeUniversityEngineeringDepartment，CUED）的机器智能实验室（前语音视觉及机器人组）于1989年开发的，它被用来构建CUED的大词汇量的语音识别系统。HTK的最新版本是09年发布的3.4.1版，关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。3）JuliusJulius是一个高性能、双通道的大词汇量连续语音识别（largevocabularycontinuesspeechrecognition，LVCSR）的开源项目，适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM，在当前的PC机上能够实现实时的语音识别，单词量达到60k个。4）RWTHASR该工具箱包含最新的自动语音识别技术的算法实现，它由RWTHAachen大学的HumanLanguageTechnologyandPatternRecognitionGroup开发。RWTHASR工具箱包括声学模型的构建、解析器等重要部分，还包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化训练和单词词根处理组件等。5）其他上面提到的开源工具箱主要都是用于语音识别的，其他的开源语音识别项目还有Kaldi、simon、iATROS-speech、SHoUT、ZanzibarOpenIVR等。

我们可以设想，在不久的将来坐在办公司里的经理会对电脑说：“嗨!伙计，帮我通知一下公司所有员工，今天下午3：00准时开会。”这是科学家在几十年前的设想，语音识别长久以来一直是人们的美好愿望，让计算机领会人所说的话，实现人机对话是发展人机通信的主要目标。进入2l世纪，随着计算机的日益普及，怎样给不熟悉计算机的人提供一个友好而又简易的 *** 作平台，是我们非常感兴趣的问题，而语音识别技术就是其中最直接的方法之一。

20世纪80年代中期以来，新技术的逐渐成熟和发展使语音识别技术有了实质性的进展，尤其是隐马尔可夫模型(HMM)的研究和广泛应用，推动了语音识别的迅速发展，同时，语音识别领域也正处在一个黄金开发的关键时期，各国的开发人员正在向特定人到非特定人，孤立词汇向连接词，小词汇量向大词汇量来扩展研究领域，可以毫不犹豫地说，语音识别会让计算机变得“善解人意”，许多事情将不再是“对牛d琴”，最终用户的口述会取代鼠标，键盘这些传统输入设备，只需要用户的嘴和麦克风就能实现对计算机的绝对控制。

1、隐马尔可夫模型HMM的引入

现在假定HMM是一个输出符号序列的统计模型，具有N个状态S1，S2⋯Sn，在一个周期内从一个状态转到另一个状态，每次转移时输出一个符号，转移到了哪个状态以及输出什么符号，分别由状态转移概率和转移时的输出概率来决定，由于只能观测到输出符号序列，不能观测到状态转移序列，因此成为隐藏的马尔可夫模型。

2、语音识别的特点

语音识别的意思是将人说话的内容和意思转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。与说话人的识别不同，后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言，包括了两方面的含义：第一是逐字逐句听懂而不是转化成书面的语言文字；第二是对作者简介：贾聪，中国地质大学机械与电子信息学院。口述语言中所包含的命令或请求加以领会，做出正确回应，而不仅仅只是拘泥于所有词汇的正确转换。

3、语音识别系统的工作流程

一般来说，一套完整的语音识别系统其工作过程分为7步：①对语音信号进行分析和处理，除去冗余信息。②提取影响语音识别的关键信息和表达语言含义的特征信息。③紧扣特征信息，用最小单元识别字词。④按照不同语言的各自语法，依照先后次序识别字词。⑤把前后意思当作辅助识别条件，有利于分析和识别。⑥按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。⑦结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

4、音识别系统基本原理框图及原理

语音识别系统基本原理结构如图1所示。语音识别原理有三点：①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行；②由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示；③语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

5、当前亟待解决的问题

语音识别系统的性能受到许多因素的影响，包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。具体要解决的问题有四点：①增强系统的鲁棒性，也就是说如果条件状况变得与训练时很不相同，系统的性能下降不能是突变的。②增加系统的适应能力，系统要能稳定连续的适应条件的变化，因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以，系统应该有能力排除掉这些差异。达到对语音的稳定识别。③寻求更好的语言模型，系统应该在语言模型中得到尽可能多的约束，从而解决由于词汇量增长所带来的影响。④进行动力学建模，语音识别系统提前假定片段和单词是相互独立的，但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以，应该进行动力学建模，从而将这些信息整合到语音识别系统中去。

6、统的组成和分类

根据识别的对象不同语音识别大致上可分为3类：对孤立词识别，对关键词识别和对连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词；连续语音识别的任务则是识别任意的连续语音；连续语音流中的关键词检测针对的是连续语音，但它并不识别全③部文字，而只是检测已知的若干关键词在何处出现，根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。

7、语音识别技术应用领域及前景展望

语音识别技术借助飞速发展的高速信息网，可实现计算机的全球联网和信息资源共享，因此被广泛应用的系统有：语音输入和控制系统，语音拨号系统、智能家电及玩具，智能电话查询系统，数据库检索等方面，在咨询服务、教育等行业，正潜移默化地改变和便利着我们的生活。此外，语音识别系统还在多媒体手机、个人掌上电脑、车载导航器GPS等方面有着巨大的应用和市场前景。

8、结语

语音识别是非常有发展潜力的一门学科，你可以设想。我们平时生活中很多地方都可以用到它，可以大大便利我们的生活和工作，比如智能手机，智能空调及冰箱，电动门，汽车导航，机器人控制，医疗设施，军事设备等。可以毫不夸张的说，21世纪将会是语音识别广泛流行和普及的时代，而语音识别产品和设备也会以其独特的魅力引领时代潮流，成为时代追逐的宠儿和焦点。

常用的数据库软件有：

1、Oracle

70年代一间名为Ampex的软件公司，正为中央情报局设计一套名叫Oracle的数据库，Ellison是程序员之一。Oracle是世界领先的信息管理软件开发商，因其复杂的关系数据库产品而闻名。Oracle数据库产品为财富排行榜上的前1000家公司所采用，许多大型网站、银行、证券、电信等都选用了Oracle系统。

2、SQL Server

SQLServer(Structured Query Language Server) 是一个关系数据库管理系统(DBMS)。它最初是由Microsoft Sybase 和Ashton-Tate三家公司共同开发的，于1988 年推出了第一个OS/2 版本。

在Windows NT 推出后，Microsoft与Sybase 在SQL Server 的开发上就分道扬镳了，Microsoft 将SQL Server 移植到Windows NT系统上，专注于开发推广SQL Server 的Windows NT 版本。

3、ACCESS

Access 是微软公司推出的基于Windows的桌面关系数据库管理系统（RDBMS，即Relational Database Management System），是Office系列应用软件之一。

它提供了表、查询、窗体、报表、页、宏、模块7种用来建立数据库系统的对象；提供了多种向导、生成器、模板，把数据存储、数据查询、界面设计、报表生成等 *** 作规范化；为建立功能完善的数据库管理系统提供了方便，也使得普通用户不必编写代码，就可以完成大部分数据管理的任务。

4、DB2

IBM公司研制的一种关系型数据库系统。DB2主要应用于大型应用系统，具有较好的可伸缩性，可支持从大型机到单用户环境，应用于OS/2.Windows等平台下。

DB2提供了高层次的数据利用性、完整性、安全性、可恢复性，以及小规模到大规模应用程序的执行能力，具有与平台无关的基本功能和SQL命令。

5、MySQL

MySQL是一个小型关系型数据库管理系统，开发者为瑞典MySQL AB公司。在2008年1月16号被Sun公司收购。

而2009年，SUN又被Oracle收购。对于Mysql的前途，没有任何人抱乐观的态度。目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。

扩展资料：

Visual FoxPro原名FoxBase，最初是由美国Fox Software公司于1988年推出的数据库产品，在DOS上运行，与xBase系列兼容。

FoxPro是FoxBase的加强版，最高版本曾出过2.6。之后于1992年，Fox Software公司被Microsoft收购，加以发展，使其可以在Windows上运行，并且更名为 Visual FoxPro。

FoxPro比FoxBASE在功能和性能上又有了很大的改进，主要是引入了窗口、按纽、列表框和文本框等控件，进一步提高了系统的开发能力。

参考资料：

百度百科-数据库软件

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9933126.html

语音识别开放化开发平台有哪些

发表评论

评论列表（0条）