模式识别与人工智能
2025年4月13日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (12): 1089-1095    DOI:
文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于深层置信网络的说话人信息提取方法
陈丽萍1,王尔玉2,戴礼荣1,宋彦1
1.中国科学技术大学电子工程与信息科学系合肥230027。
2.腾讯控股有限公司北京100080
Deep Belief Network Based Speaker Information Extraction Method
CHEN Li-Ping1, WANG Er-Yu2, DAI Li-Rong1, SONG Yan1
1.Department of Electronic Engineering and Information Science, University of Science and Technology of China,Hefei 230027
2.Tencent, Inc., Beijing 100080

全文: PDF (419 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 在基于全差异空间因子(i-Vector)的说话人确认系统中,需进一步从语音段的i-Vector表示中提取说话人相关的区分性信息,以提高系统性能。文中通过结合锚模型的思想,提出一种基于深层置信网络的建模方法。该方法通过对i-Vector中包含的复杂差异信息逐层进行分析、建模,以非线性变换的形式挖掘出其中的说话人相关信息。在NIST SRE 2008核心测试电话训练-电话测试数据库上,男声和女声的等错误率分别为4。96%和6。18%。进一步与基于线性判别分析的系统进行融合,能将等错误率降至4。74%和5。35%。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈丽萍
王尔玉
戴礼荣
宋彦
关键词 全差异空间因子说话人确认深层置信网络锚模型    
Abstract:In i-vector based speaker verification system, it is necessary to extract the discriminative speaker information from i-vectors to further improve the performance of the system. Combined with the anchor model, a deep belief network based speaker-related information extraction method is proposed in this paper. By analyzing and modeling the complex variabilities contained in i-vectors layer-by-layer, the speaker-related information can be extracted with non-linear transformation. The experimental results on the core test of NIST SRE 2008 show the superiority of the proposed method. Compared with the linear discriminant analysis based system, the equal error rates(EER) of male and female trials can be reduced to 4.96% and 6.18% respectively. Furthermore, after the fusion of the proposed method with linear discriminant analysis, the EER can be reduced to 4.74% and 5.35%.
Key wordsi-Vector    Speaker Verification    Deep Belief Network    Anchor Model   
收稿日期: 2012-12-03     
ZTFLH: TP 391.4  
基金资助:国家自然科学基金项目(No.61273264)、国家973前期研究专项项目(No.2012CB326405)资助
作者简介: 陈丽萍,女,1990年生,硕士研究生,主要研究方向为说话人识别.E-mail:clp2011@mail.ustc.edu.cn.王尔玉,男,1984年生,博士,主要研究方向为说话人识别、语音信号处理.戴礼荣(通讯作者),男,1962年生,教授,博士生导师,主要研究方向为语音信息处理、人机语音通信.E-mail:lrdai@ustc.edu.cn.宋彦,男,1972年生,博士,讲师,主要研究方向为音、视频内容分析与检索.
引用本文:   
陈丽萍,王尔玉,戴礼荣,宋彦. 基于深层置信网络的说话人信息提取方法[J]. 模式识别与人工智能, 2013, 26(12): 1089-1095. CHEN Li-Ping, WANG Er-Yu, DAI Li-Rong, SONG Yan. Deep Belief Network Based Speaker Information Extraction Method. , 2013, 26(12): 1089-1095.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I12/1089
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn