模式识别与人工智能
2025年4月5日 星期六   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2006, Vol. 19 Issue (5): 578-584    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于HMM/SVM两级结构的汉语易混淆语音识别*
王欢良,韩纪庆,李海峰,郑铁然
哈尔滨工业大学 计算机学院 哈尔滨 150001
Confusable Chinese Speech Recognition Based on HMM/SVM TwoLevel Architecture
WANG HuanLiang, HAN JiQing, LI HaiFeng, ZHENG TieRan
School of Computer, Harbin Institute of Technology, Harbin 150001

全文: PDF (633 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 基于HMM的汉语语音识别中,易混淆语音的识别率仍然不高.在分析HMM固有缺陷的基础上,本文提出一种使用SVM在HMM系统上进行二次识别来提高易混淆语音识别率的方法.通过引入置信度估计环节,提高系统性能和效率.通过充分利用Viterbi解码获得的信息来构造新的分类特征,从而解决标准SVM难以处理可变长数据的问题.详细探讨这种两级识别结构中置信度估计、分类特征提取和SVM识别器构造等问题.语音识别实验的结果显示,与采用HMM/SVM混合结构的模型相比,本文方法在对识别速度影响很小的情况下可以使识别率有明显提高.这表明所提出的具有置信估计环节的HMM/SVM两级结构用于易混淆语音识别是可行的.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
王欢良
韩纪庆
李海峰
郑铁然
关键词 语音识别易混淆语音隐马尔可夫模型(HMM)支持向量机    
Abstract:The recognition rate for confusable speech is still low in stateoftheart Chinese speech recognition systems based on HMM. The inherent defects of HMM are analyzed, then a twolevelarchitecture recognition framework combining HMM and SVM is proposed. A confidence estimation module is adopted to improve the performance and efficiency of the system. The information obtained by Viterbi decoding is utilized to construct new classes of feature for SVM, which solves the problem that the conventional SVM cannot directly process variable length sequences. The relevant issues, such as confidence estimation, classification feature extraction and SVM recognizer construction, are addressed. The experimental results of confusable Chinese speech show that compared with the hybrid HMM/SVM based system the proposed method can highly improve the recognition rate with little impact on the running speed.
Key wordsSpeech Recognition    Confusable Speech    Hidden Markov Model (HMM)    Support Vector Machine (SVM)   
收稿日期: 2005-04-06     
ZTFLH: TP391.4  
  TP181  
基金资助:国家自然科学基金项目(No.60575030)、黑龙江省留学归国基金项目(No.LC03C10)和教育部跨世纪优秀人才培养计划项目资助.
作者简介: 王欢良,男,1974年生,博士研究生,主要研究方向为语音识别算法、统计学习理论、大词表连续语音识别系统.E-mail: huanliangwang@126.com.韩纪庆,男,1964年生,教授,博士生导师,主要研究方向为语音信号处理、Robust语音识别、音频分析、音频水印.李海峰,男,1970年生,教授,博士生导师,主要研究方向为神经网络、情感语音分析和识别、音频分析.郑铁然,男,1972年生,讲师,博士研究生,主要研究方向为语音信号处理、语音关键词检索.
引用本文:   
王欢良,韩纪庆,李海峰,郑铁然. 基于HMM/SVM两级结构的汉语易混淆语音识别*[J]. 模式识别与人工智能, 2006, 19(5): 578-584. WANG HuanLiang, HAN JiQing, LI HaiFeng, ZHENG TieRan. Confusable Chinese Speech Recognition Based on HMM/SVM TwoLevel Architecture. , 2006, 19(5): 578-584.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2006/V19/I5/578
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn