科普:智能语音相关技术及发展历史(2)

作者:小凝 日期:2018-11-02

声纹识别目前也正向着深度学习方向发展,但不管是用传统算法还是深度学习,都需要事先建立声纹库。

声纹识别.jpg

声纹识别主要根据语音波形反馈的说话人生理和行为特征,自动识别说话人身份,在安全性上可与指纹、掌形和虹膜等生物识别技术相媲美,目前已经用于公安和司法系统证据鉴定中的身份鉴别,以及银行支付过程的身份认证。

声纹识别和语音识别结合,能通过识别内容防止录音假冒,和情绪识别结合,则可以感知识别对象是否处于受胁迫状态。声纹识别需要相应的声纹库,且至少要保证合理的性别、年龄段、地域、口音、职业分布。

测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等主要影响因素,因而声纹数据库成为声纹识别技术突破的重要门槛。目前最全的是公安部的声纹鉴别库。

自然语言理解.jpg

自然语言理解目前尚处于浅层语义分析阶段,大致包含词法分析、句法分析、语义分析这三个既递进又相互包含的层面。

目前机器对句子的理解还只能做到语义角色标注层面,即标出句中的句子成分和主被动关系等,属于浅层语义分析技术。未来要让机器更好地理解人类语言,并实现自然交互,还有待深度学习等机器学习方法的进步。

多轮对话,主要建立在语音识别、合成以及自然语言理解等技术基础之上,自然度和准确度有待提高。

多轮对话系统一般分为任务型和闲聊型,任务型是协助用户完成具体的某项事情,如:设置闹钟、查天气等;而闲聊型是实现人机的情感聊天互动,如陪护型机器人。多轮对话相比单轮对话方式提高了用户交互的自然度和准确度。

语音识别.jpg

对话管理是实现多轮对话系统的核心,功能分为对话状态追踪(DST)和对话决策(Dialog Policy),前者作用是更新对话状态,记录到目前为止用户所有的聊天记录和系统行为,后者依据DST对话状态产生系统行为,即决定下一步反馈或调用等行为。



首页
电话
短信
联系