模式识别与人工智能
2025年4月13日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (1): 1-5    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于因子分析建模的电话语音说话人聚类
吴奎,宋彦,戴礼荣
中国科学技术大学电子工程与信息科学系合肥230027
Speaker Clustering of Telephone Speech Based on Front-End Factor Analysis
WU Kui,SONG Yan,DAI Li-Rong
Department of Electronic Engineering Information Science,University of Science and Technology of China,Hefei 230027

全文: PDF (335 KB)   HTML (0 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 现有基于混合高斯模型的说话人聚类方法主要依据最大后验准则,从通用背景模型中自适应得到类别的混合高斯模型,然而自适应数据较少,模型的准确性不够。对此,文中尝试基于本征语音(EV)空间和全变化(TV)空间分析的两种因子分析建模方法,通过对差异空间的建模,减少估计类别混合高斯模型时需要估计的参数个数。结果表明,在美国国家标准技术研究所2008年说话人识别评测的电话语音数据集上,相对于基于最大后验概率准则的基线系统而言,文中所使用的基于EV和TV空间分析的建模方法都可使聚类错误率有较大幅度的下降,并且TV空间分析建模相对于EV空间分析建模能获得更低的聚类错误率。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴奎
宋彦
戴礼荣
关键词 说话人聚类本征语音空间全变化空间交叉似然比    
Abstract:The existing speaker clustering methods based on Gaussian mixture model (GMM) mainly obtain clusters′ GMMs by adapting from universal background model (UBM). However,this adaptive method suffers from the lack of data and results in poor models. In this paper,two factor analysis modeling methods based on eigenvoice (EV) space analysis and total variability (TV) space analysis respectively are explored. The two methods greatly reduce the number of estimated parameters when clusters′ GMMs are estimated by modeling variability space. The experimental results on two speakers telephone data in 2008 NIST Speaker Recognition Evaluation show that the two proposed methods achieve considerable reduction in speaker error rate compared to the baseline system using MAP adaptation,and the method based on TV space analysis obtains lower speaker error rate compared to the method based on EV space analysis.
Key wordsSpeaker Clustering    Eigenvoice Space    Total Variability Space    Cross Likelihood Ratio   
收稿日期: 2011-12-26     
ZTFLH: TP391.42  
基金资助:国家自然科学基金项目(No.61172158)、安徽省自然科学基金项目(No.090412056)资助
作者简介: 吴奎(通讯作者),男,1989年生,硕士研究生,主要研究方向为语音信号处理。E-mail:wukui@mail。ustc。edu。cn。宋彦,男,1972年生,博士,讲师,主要研究方向为音、视频内容分析与检索。戴礼荣,男,1962年生,教授,博士生导师,主要研究方向为数字信号处理、模式识别。
引用本文:   
吴奎,宋彦,戴礼荣. 基于因子分析建模的电话语音说话人聚类[J]. 模式识别与人工智能, 2013, 26(1): 1-5. WU Kui,SONG Yan,DAI Li-Rong. Speaker Clustering of Telephone Speech Based on Front-End Factor Analysis. , 2013, 26(1): 1-5.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I1/1
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn