云知声梁家恩：面向移动互联网的智能语音云【转载】

地兰兰 · 发表于 2013-9-8 11:18:34

梁家恩提出，“DNN深度神经网络建模”值得开发者关注，DNN深度神经网络建模是从2009年开始爆发的应用，但在学界从06年就开始应用。全世界主流的语音识别系统均基于5个框架：1.特征提取、2.统计声学模型、3.发音词典、4. 统计语言模型、5. 识别编码器。

移动互联网的爆发具有三大特点：

第一，带宽增加，费用降低。移动通信技术的快速发展，从以前的模拟时代到后来的2G、3G，甚至到4G、Wi-Fi，使我们的宽带不断加宽、费用不断降低，使终端和云平台的沟通质量非常高，同时成本越来越低。

第二，移动终端智能化。在十年前上网的机器都是PC机，它不方便携带。到现在为止有很多的智能设备，最简单的就是智能手机。现在还有一些电视设备、车载设备、穿戴设备，像谷歌眼镜，还有一些玩具，也可以通过语言进行沟通交流。

第三，云计算平台及虚拟化技术带动生产力发展。云计算的平台，包括虚拟化的技术，以及CPU、GPU的发展，使得平台的生产力越来越强大。

全世界主流的语音识别系统均基于以下5个框架：

1. 要将捕捉的声音信号变成特征序列，叫做特征提取。它需要解决环境噪声、通道的问题，通道就是我们是通过麦克风，还是通过手机或者是电话将语音采集下来。第三点是消除说话人的口音等因素。

2. 统计声学模型。我们必须要得到足够多的人的说话发音状况。比如人发出“啊”这个音的时候，不同的人发出的声音是不一样的。最近深度神经网络学习的改进点是用在这个领域，当初是用混合高速模式建这个模型，但建模能力是比较弱的。发音准确的话就像拼音输入法，其实干扰最大的还是前面这一层，不同的人说话有不同的口音、不同的背景和不同的通道，如果把它变成一个拼音串，它跟普通的拼音输入法是一样的。

3. 发音词典。发音词典是将音映射到一个词，这个词典也非常讲究。汉语的词语量非常大，大概有7万个汉字，最常用的是2万多字。还有一些领域专用词典，比如在餐饮、地图领域用的词是不一样的。还有热词表，在互联网领域非常明显，在一定时间就会出现一个新的词，以前从来没听说过，现在它有了新的含义。还有个性化的词表，它就像每个人的通讯录。

4. 统计语言模型。不同词串出现的频率是不一样的，它是词串的概率统计分析。我们做的越大，搜索的可能性就越大。

5. 识别编码器。它实际上是一个搜索引擎，当我们得到一个特殊序列以后，可以快速找到匹配的句子。

更多精彩内容，敬请关注第五届中国云计算大会专题报道，关注新浪微博直播 @CSDN云计算。

		自动登录	找回密码
密码			立即注册