JMP数据分析论坛

标题: 云知声梁家恩:面向移动互联网的智能语音云【转载】 [打印本页]

作者: 地兰兰    时间: 2013-9-8 11:18
标题: 云知声梁家恩:面向移动互联网的智能语音云【转载】
梁家恩提出,“DNN深度神经网络建模”值得开发者关注,DNN深度神经网络建模是从2009年开始爆发的应用,但在学界从06年就开始应用。全世界主流的语音识别系统均基于5个框架:1.特征提取、2.统计声学模型、3.发音词典、4. 统计语言模型、5. 识别编码器。

移动互联网的爆发具有三大特点:

第一,带宽增加,费用降低。移动通信技术的快速发展,从以前的模拟时代到后来的2G、3G,甚至到4G、Wi-Fi,使我们的宽带不断加宽、费用不断降低,使终端和云平台的沟通质量非常高,同时成本越来越低。

第二,移动终端智能化。在十年前上网的机器都是PC机,它不方便携带。到现在为止有很多的智能设备,最简单的就是智能手机。现在还有一些电视设备、车载设备、穿戴设备,像谷歌眼镜,还有一些玩具,也可以通过语言进行沟通交流。

第三,云计算平台及虚拟化技术带动生产力发展。云计算的平台,包括虚拟化的技术,以及CPU、GPU的发展,使得平台的生产力越来越强大。

全世界主流的语音识别系统均基于以下5个框架:

1. 要将捕捉的声音信号变成特征序列,叫做特征提取。它需要解决环境噪声、通道的问题,通道就是我们是通过麦克风,还是通过手机或者是电话将语音采集下来。第三点是消除说话人的口音等因素。

2. 统计声学模型。我们必须要得到足够多的人的说话发音状况。比如人发出“啊”这个音的时候,不同的人发出的声音是不一样的。最近深度神经网络学习的改进点是用在这个领域,当初是用混合高速模式建这个模型,但建模能力是比较弱的。发音准确的话就像拼音输入法,其实干扰最大的还是前面这一层,不同的人说话有不同的口音、不同的背景和不同的通道,如果把它变成一个拼音串,它跟普通的拼音输入法是一样的。

3. 发音词典。发音词典是将音映射到一个词,这个词典也非常讲究。汉语的词语量非常大,大概有7万个汉字,最常用的是2万多字。还有一些领域专用词典,比如在餐饮、地图领域用的词是不一样的。还有热词表,在互联网领域非常明显,在一定时间就会出现一个新的词,以前从来没听说过,现在它有了新的含义。还有个性化的词表,它就像每个人的通讯录。

4. 统计语言模型。不同词串出现的频率是不一样的,它是词串的概率统计分析。我们做的越大,搜索的可能性就越大。

5. 识别编码器。它实际上是一个搜索引擎,当我们得到一个特殊序列以后,可以快速找到匹配的句子。

更多精彩内容,敬请关注 第五届中国云计算大会专题报道, 关注新浪微博直播 @CSDN云计算。




欢迎光临 JMP数据分析论坛 (http://www.jmpforum.net/) X3