目录
语音信号中的情感信息处理研究
1 背景
2国内外研究及现状
2.1国外的现状和研究
2.2国内研究及现状
3 研究的重点和难点及其应用
参考文献
语音信号中的情感信息处理研究
1 背景
当今是人工智能研究非常热门的时代,人工智能也衍生出很多学科,比如数据挖掘、机器学习、深度学习、专家系统等。而语音信号处理领域研究。
人工智能的知识领域浩繁,很难面面俱到,但是各个领域的思想和方法有许多可以互相借鉴的地方。随着人工智能理论研究的发展和成熟,人工智能的应用领域更为宽广,应用效果更为显著。从应用的角度看,人工智能的研究主要集中在以下几个方面。
随着信息技术的高速发展和人类对计算机技术的依赖性的不断增强,人机的
交互能力越来越受到研究者的重视。为了使人类与计算机间能够更加智能更加自然地交互,新型的人机交互(Human Machine Interaction,HCI)技术正逐渐成为研究热点。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感等内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。研究表明,在人机交互中需要解决的问题实际与人和人交流中的重要因素是一致的,最关键的都是“情感智能”的能力。计算机要能够更加主动地适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断来调整交互对话的方式。对于情感信息的处理技术的研究包括多个方面,主要有情感特征分析、情感识别(如肢体情感识别、面部情感识别和语音情感识别等)、情感模拟(如情感语音的合成等)。目前,关于情感信息处理的研究正处在不断深入之中,其中语音信号中的情感信息处理的研究也越来越受到人们的重视。
通过语音相互传递信息是人类最重要的基本功能之一。声音是人类常用的工具,是相互传递信息的最重要的手段。情感在人们生活和交流中起着重要的角色。包含在语音中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的信息。例如同样的一句话,由于说话人表现的情感不同,意思就会完全不同,在听者的感知上就可能会有较大的差别。所谓“听话听音"就是这个道理。然而,传统的语音信号处理技术把这部分信息作为噪声给去掉了。实际上,语音信号中不仅包含文字信息,还包含了语调及情感信息。人们同时接受各种信息,怎样有效地利用各种形式的信息达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。所以分析和研究语音中的情感特征、判断说话人的喜怒哀乐是一个意义重大的研究课题。
目前许多国家的研究机构都在致力于该领域的研究。在国外,研究最活跃的是美国麻省理工大学媒体实验室。国际语音通信协会(ISCA)为此也做了很大的贡献,2000年ISCA在北爱尔兰的贝尔法斯特召开了一个称为“语音与情感:研究的概念框架”的研讨会,使众多不同领域的研究者聚集到一起讨论语音情感识别的问题,为语音情感识别的研究做了很大的贡献,现在该协会每两年举办一次的Eurospeech或Interspeech国际会议,是语音研究领域非常出名的大会。而在国内,目前在该领域研究比较活跃的单位有中国科学院自动化研究所和东南大学学习科学研究中心等。特别是中科院自动化所为中国情感计算研究的发展做了不可磨灭的贡献,2003年12月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,2005年10月又在北京主办了首届国际情感计算及智能交互学术会议,将众多国内乃至国际上该领域的专家聚集到一起。对于情感语音识别的研究现在还存在许多难点,比如情感的定义及不同情感的界定,情感语音数据库的采集,有效情感语音特征的寻找以及高效的情感识别算法的研究等。另外,如何提高系统的鲁棒性也是一个比较突出的难点,目前还没有相关报道。要研究如何从语音中自动的识别情感,首先必须有情感理论作为基础。
2国内外研究及现状
2.1国外的现状和研究
语音情感识别是语音信号处理领域崛起的新秀,相关研究至今已有二十余年的研究历史,对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。在1972年Williams发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感[6]。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年,Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别[7]。2009年4月,日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音情感信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等。
Siri可以通过声控,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其他服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。不过其最大的特色,则是人机的互动方面,