模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2009, Vol. 22 Issue (1): 136-141    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于基频的情感语音聚类的说话人识别方法*
李冬冬,吴朝晖,杨莹春
浙江大学 计算机科学与技术学院 杭州 310027
Speaker Recognition Based on Pitch-Dependent Affective Speech Clustering
LI Dong-Dong, WU Zhao-Hui, YANG Ying-Chun
College of Computer Science and Technology, Zhejiang University, Hangzhou 310027

全文: PDF (478 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对存在情感差异性语音情况下说话人识别系统性能急剧下降以及缺乏充足情感语音训练说话人模型的问题,提出一种基于基频的情感语音聚类的说话人识别方法,能有效利用系统可获取的少量情感语音.该方法通过对男女说话人设定不同的基频阈值,根据阈值,对倒谱特征进行聚类,为每个说话人建立不同基频区间的模型.在特征匹配时,选用最大似然度的基频区间模型的得分作为该说话人的得分.在中文情感语音库上的测试结果表明,与传统的基于中性训练语音的高斯混合模型说话人识别方法和结构化训练方法相比,该方法具有更高的识别率.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
李冬冬
吴朝晖
杨莹春
关键词 情感语音基频情感聚类说话人识别    
Abstract:Speech with various emotions aggravates the performance of speaker recognition system. A pitch-dependent affective speech clustering method for speaker modeling is proposed. This method aims to exploiting the affective material effectively in the speaker systems. Thresholds for pitches are determined for the male and the female separately. The cepstral features in the same pitch range are clustered. Different pitch-dependent models are built with the corresponding cluster features by map adaptation for each speaker. The maximum likelihood rule is applied to the matched models and the identification of the person. The proposed method is evaluated on the mandarin affective speech corpus. Experimental results show that the proposed approach is more powerful and efficient than the cepstral feature based method and the structure training method for speaker recognition.
Key wordsAffective Speech    Pitch    Affective Speech Clustering    Speaker Recognition   
收稿日期: 2007-08-31     
ZTFLH: TP391  
基金资助:国家杰出青年基金项目(No.60525202)、国家自然科学基金项目(No.60533040)、教育部新世纪优秀人才计划项目(No.NCET-04-0545)、国家高技术研究发展计划项目(No.2006AA01Z136)、长江学者和创新团队发展计划项目(No.IRT0652)和浙江省自然科学基金项目(No.Y106705)资助
作者简介: 李冬冬,女,1981年生,博士研究生,主要研究方向为机器学习、模式识别、语音处理、说话人识别等.E-mail: lidd@zju.edu.cn.吴朝晖,男,1966年生,博士生导师,教授,主要研究方向为网格计算、人工智能、普适计算和嵌入式系统等.杨莹春,女,1973年生,副研究员,主要研究方向为机器学习、说话人识别、语音处理、语音检索等.
引用本文:   
李冬冬,吴朝晖,杨莹春. 基于基频的情感语音聚类的说话人识别方法*[J]. 模式识别与人工智能, 2009, 22(1): 136-141. LI Dong-Dong, WU Zhao-Hui, YANG Ying-Chun. Speaker Recognition Based on Pitch-Dependent Affective Speech Clustering. , 2009, 22(1): 136-141.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2009/V22/I1/136
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn