“汉藏智能语音交互关键技术及应用”项目成功通过成果评价

分类：成果

2021-01-19 14:14:21 1845阅读次数

扫码分享

机器人教育是指通过设计、组装、编程、运行机器人，激发学生学习兴趣、培养学生综合能力。技术融合了机械原理、电子传感器、计算机软硬件及人工智能等众多先进技术，为学生能力、素质的培养承载着新的使命。机器人技术综合了多学科的发展成果，代表了高技术的发展前沿，机器人涉及到信息技术的多个领域，它融合了多种先进技术，引入教育机器人的教学将给中小学的信息技术课程增添新的活力，成为培养中小学生综合能力、信息素养的优秀平台。

日前，“汉藏智能语音交互关键技术及应用”项目成功通过了成果评价。该项目基于言语行为理论，建立了互联网信息化表示的层次化模型，同时研发了一种多层最低有效位的易碎水印语音自动恢复技术，构建了一种基于HMM-DNN(隐马尔可夫模型-深度神经网络)的藏语语音识别系统，应用于藏汉教学智能机器人。

智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iPhone 4S推出SIRI后，智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如：虫洞语音助手、讯飞语点已得到越来越多的用户认可。

随着计算机技术的普及，当今人们的生活已经逐渐走入智能时代。不仅仅是电脑，手机，PAD，人们的衣食住行的方方面面都开始应用出现不久的智能技术，智能电视，智能导航，智能家居等等，智能技术将在人们生活的各个方面提供方便快捷的服务。

图.png

隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。

隐马尔可夫模型创立于20世纪70年代。80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。

人工神经网络，是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。

神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播算法(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分。特别是在电话语音识别方面，由于其有着广泛的应用前景，成了当前语音识别应用的一个热点。

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。　

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。

根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别，关键词识别(或称关键词检出)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。

另外，根据语音设备和通道，可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。

语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效;语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

标签：汉藏智能语音交互关键技术隐马尔可夫模型教学智能机器人

参与评论

登录后参与评论

全部评论(0条)

“汉藏智能语音交互关键技术及应用”项目成功通过成果评价

联系我们

关注我们