模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2009, Vol. 22 Issue (1): 86-90    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于音素聚类的多语言声学建模方法*
孟猛1,梁家恩1,徐波1,2
1.中国科学院自动化研究所 数字内容技术研究中心 北京 100190
2.中国科学院自动化研究所 模式识别国家重点实验室 北京 100190
Multilingual Acoustic Modeling Method Based on Phoneme Clustering
MENG Meng1, LIANG Jia-En1, XU Bo1,2
1.Digital Content Technology Research Center, Institute of Automation,Chinese Academy of Sciences, Beijing 100190
2.National Laboratory of Pattern Recognition, Institute of Automation,Chinese Academy of Sciences, Beijing 100190

全文: PDF (386 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 首先提出以音素合并后模型自身似然度下降为距离依据,通过聚类生成多语言通用音素的声学建模方法.在此基础上,比较聚类时增加两种约束条件(同一语种内音素不聚类、不同IPA族的音素不聚类)对性能的影响.同时,对通用音素集的规模对识别性能的影响做了一定探索.最后的实验给出建立中英文双语混合模型在关键词检测系统上的结果,比较4种聚类方法在不同通用音素个数情况下的性能优劣.结果显示,使用本文方法进行一定程度的音素合并,性能比不作聚类直接混合建模有明显提升.适当增加音素聚类的约束,有助于进一步提高性能.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
孟猛
梁家恩
徐波
关键词 多语言声学建模音素聚类关键词检测    
Abstract:A clustering method is proposed to generate multilingual global phoneme based on the decrease of model self-likelihood. Two linguistic limitations are used in the clustering procedure, and the phonemes in same language or belonging to different international phonetic alphabet (IPA) classes are not merged. In telephone speech keyword spotting system, the performance of several Chinese-English bilingual model are compared which are generated by different phoneme clustering methods. The experimental results show that the merged phoneme set of an appropriate size can generate acoustic models with good quality, far above the results without merging. Moreover, the linguistic limitations added to clustering procedure can improve the performance.
Key wordsMultilingual Acoustic Modeling    Phoneme Clustering    Keyword Spotting   
收稿日期: 2008-02-21     
ZTFLH: TP391.4  
基金资助:国家863计划资助项目(No.2006AA010103)
作者简介: 孟猛,男,1982年生,博士研究生,主要研究方向为语音识别、声学模型建模.E-mail: mmeng@hitic.ia.ac.cn.梁家恩,男,1977年生,博士,助理研究员,主要研究方向为语音识别.徐波,男,1966年生,研究员,博士生导师,主要研究方向为语音识别、机器翻译和数字媒体内容技术.
引用本文:   
孟猛,梁家恩,徐波. 基于音素聚类的多语言声学建模方法*[J]. 模式识别与人工智能, 2009, 22(1): 86-90. MENG Meng, LIANG Jia-En, XU Bo. Multilingual Acoustic Modeling Method Based on Phoneme Clustering. , 2009, 22(1): 86-90.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2009/V22/I1/86
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn