正在阅读：声音价值的背后云知声2015技术升级解读声音价值的背后云知声2015技术升级解读

2015-12-17 11:29 出处：PConline原创作者：佚名责任编辑：sunziyi

　　【PConline 资讯】12月16日，专注人工智能领域且拥有全球顶尖语音识别技术的业界新锐云知声公司，在京成功举办了隆重的年度品牌发布会。现场架设展区，包括IoT物联网、EDU教育、企业级、语音云平台等在内的云知声全线产品方案悉数亮相。

　　期间，云知声CEO黄伟在回顾公司2015年心路历程，包括在IoT、EDU两大核心业务领域取得的突破和成果的同时，也释怀了大家的疑问：何为“看到声音的价值”？

　　主题“万物新声，看见声音的价值”看似文艺味十足，实则蕴含了两层涵义：揭示逐渐蜕壳的大数据新介质——语音；人工智能的大契机，也是云知声未来研发的一个发展方向——基于语音云这样的新平台挖掘可用数据，软硬件相结合，为人工智能真正能够有一个好的体验提供有利支撑。

　　声音背后有价值，那声音价值的背后呢？毫无疑问，是不断升级的技术。

底层——启用LSTM深度学习技术，性能全面提升

　　云知声在国内首家提供基于深度神经网络DNN（Deep Neural Network）的语音服务的基础上，2015年又升级了基于LSTM（Long-Short Term Memory）的深度学习技术，将语音识别的性能再度推向一个新高度。

　　几年前，基于DNN的语音识别系统取得了远优于基于传统模型的识别性能。和DNN相比，LSTM具有记忆能力，能够对时间轨迹进行建模，因此LSTM对大数据的描述和解析能力会更强，性能自然也就更强。

　　比如在ASR语音识别方面，LSTM带来了15%以上的性能提升。目前，LSTM已经作为通用技术，应用在云知声的语音识别，语音合成，语义理解中，云知声所有的引擎技术都完成了全面升级。

　　另外，为了加快对数据的利用效率和引擎迭代周期，云知声实现了分布式训练的架构体系，以前需要一两个月才能完成的一次技术迭代，现在一两周就可以做到，这都是推动产品方案落地的动力支援。

应用——更优化的语音识别，更深层的语义理解

　　2015年前，云知声便拥有了完全自主知识产权的语音识别和转写技术，包括基于服务器端的在线识别以及基于终端设备的离线识别；超过30个领域的自然语义理解（NLU）技术；以及具有极高自然度与可懂度的中英文语音合成技术。

　　随着IoT物联网的快速发展，用户对于人工智能的体验更加严苛，为此，云知声2015年在技术研发上再接再厉，并顺利完成了语音识别和语义理解两大核心技术的升级。

　　在语音识别方面，实现主要面向家居、车载的识别技术优化：

·远讲识别和降噪技术：实现5m距离识别首个商用产品，提供高性价比双麦克风和四麦克风方案，并支持远讲、打断和噪声抑制；

·低功耗唤醒和识别技术：芯片级低功耗冷唤醒和指令识别，一键连接网络服务（One-Shot）；

·车载噪声和回声消除技术：提高唤醒、识别率和实现音乐打断。

　　在语义理解方面，则实现了包括影视、音乐、POI、有声读物等领域在内的技术优化，全面覆盖衣食住行中绝大部分的使用场景，具体表现在：

·领域扩展：将语义解析的领域扩充升级至超过60+个, 支持大部分的家具设备操控，支持超过10W+条指令的执行；

·解析准确率提升：领域的平均语义理解准确率已经达到95%左右，在家具操控方面准确率更是达到了99%，因为家具操控对语义解析准确率更为严格，需要防止错误的语义解析导致指令的误执行。

·跨领域对话技术：首次上线了支持跨领域的多轮对话系统，支持跨领域的指代和省略消解。深度问答技术：整合领域知识库，包括百科知识，社区问答数据，结构化的知识图谱等，利用基于深度学习的向量表征方法，通过学习问题与答案的匹配度模型来选择最佳答案。

　　回过头来，2012年成立的云知声之所以能够迅速占领语音市场并形成今天的规模，前沿的技术支持包括黄伟所说的“将技术第一时间转化为产品方案”居功至伟。“万物新声，看见声音的价值”，正如云知声所期望的，语音大数据必将成为人工智能道路上一个不可替代的驱动力，也期待明年云知声的技术创新，让我们在未来的某一天，能够看到声音背后的巨大价值，体验到真正的智能生活。