科普:智能语音相关技术及发展历史(1)

作者:小凝 日期:2018-10-31

智能语音主要研究人机之间语音信息的处理和反馈问题,从表现形式来看,即研究如何通过语音实现人机交互,相关支撑技术主要可划分为基础语音技术、智能化技术以及大数据技术。

智能语音三类核心技术.jpg

语音识别准确率在引入深度学习之后得到快速提升。语音目标在于使机器最终能够将识别语音中的内容、说话人、语种等信息。在技术思路经历了基于标准模板匹配和基于统计模型(HMM)两个阶段;

语音识别准确率.jpg

2010年开始由微软的俞栋、邓力等与Hinton合作,在语音识别领域引入深度学习替换传统的特征提取,随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率大幅提升。

深度识别.jpg

2017年3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合,在Switchboard数据集上电话语音识别错误率降低到5.5%,无论是对比微软2016年测试结果给出的人类速记员5.9%错误率还是此次IBM给出的人类5.1%,机器都已经极为接近人类水平。

语音合成历史.jpg

语音合成已有200多年悠久历史,表现力尚有待继续提升。在计算机技术出现之前主要模仿人体发声原理制作相应硬件,计算机技术出现后音质、音色和自然度都有提升。随着技术演进,语音合成的复杂度、自然度和音质都已取得不错的成绩,目前研究重点在于提高合成音的表现力,如语气和情感等。



首页
电话
短信
联系