设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1591|回复: 0
打印 上一主题 下一主题

云知声梁家恩:面向移动互联网的智能语音云【转载】

[复制链接]
跳转到指定楼层
楼主
发表于 2013-9-8 11:18:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
梁家恩提出,“DNN深度神经网络建模”值得开发者关注,DNN深度神经网络建模是从2009年开始爆发的应用,但在学界从06年就开始应用。全世界主流的语音识别系统均基于5个框架:1.特征提取、2.统计声学模型、3.发音词典、4. 统计语言模型、5. 识别编码器。

移动互联网的爆发具有三大特点:

第一,带宽增加,费用降低。移动通信技术的快速发展,从以前的模拟时代到后来的2G、3G,甚至到4G、Wi-Fi,使我们的宽带不断加宽、费用不断降低,使终端和云平台的沟通质量非常高,同时成本越来越低。

第二,移动终端智能化。在十年前上网的机器都是PC机,它不方便携带。到现在为止有很多的智能设备,最简单的就是智能手机。现在还有一些电视设备、车载设备、穿戴设备,像谷歌眼镜,还有一些玩具,也可以通过语言进行沟通交流。

第三,云计算平台及虚拟化技术带动生产力发展。云计算的平台,包括虚拟化的技术,以及CPU、GPU的发展,使得平台的生产力越来越强大。

全世界主流的语音识别系统均基于以下5个框架:

1. 要将捕捉的声音信号变成特征序列,叫做特征提取。它需要解决环境噪声、通道的问题,通道就是我们是通过麦克风,还是通过手机或者是电话将语音采集下来。第三点是消除说话人的口音等因素。

2. 统计声学模型。我们必须要得到足够多的人的说话发音状况。比如人发出“啊”这个音的时候,不同的人发出的声音是不一样的。最近深度神经网络学习的改进点是用在这个领域,当初是用混合高速模式建这个模型,但建模能力是比较弱的。发音准确的话就像拼音输入法,其实干扰最大的还是前面这一层,不同的人说话有不同的口音、不同的背景和不同的通道,如果把它变成一个拼音串,它跟普通的拼音输入法是一样的。

3. 发音词典。发音词典是将音映射到一个词,这个词典也非常讲究。汉语的词语量非常大,大概有7万个汉字,最常用的是2万多字。还有一些领域专用词典,比如在餐饮、地图领域用的词是不一样的。还有热词表,在互联网领域非常明显,在一定时间就会出现一个新的词,以前从来没听说过,现在它有了新的含义。还有个性化的词表,它就像每个人的通讯录。

4. 统计语言模型。不同词串出现的频率是不一样的,它是词串的概率统计分析。我们做的越大,搜索的可能性就越大。

5. 识别编码器。它实际上是一个搜索引擎,当我们得到一个特殊序列以后,可以快速找到匹配的句子。

更多精彩内容,敬请关注 第五届中国云计算大会专题报道, 关注新浪微博直播 @CSDN云计算。
分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-5-5 12:14 , Processed in 0.350935 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表