模式识别与人工智能
2025年4月7日 星期一   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2022, Vol. 35 Issue (5): 461-471    DOI: 10.16451/j.cnki.issn1003-6059.202205007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
自监督聚类重训练的语音表示学习
张文林1, 刘雪鹏1, 牛铜1, 杨绪魁1, 屈丹1
1.中国人民解放军战略支援部队信息工程大学 信息系统工程学院 郑州 450001
Clustering and Retraining Based Self-Supervised Speech Representation Learning Method
ZHANG Wenlin1, LIU Xuepeng1, NIU Tong1, YANG Xukui1, QU Dan1
1. School of Information System Engineering, PLA Strategic Support Force Information Engineering University, Zhengzhou 450001

全文: PDF (992 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 现有的基于重建的自监督预训练方法往往通过对语音帧的还原重建进行训练,未充分利用语音帧包含的音素信息.因此,文中结合自监督学习方法与噪声学生训练,提出基于自监督聚类重训练的语音表示学习方法.基于一个初始的语音表示模型(教师模型),利用无监督聚类得到音素类别伪标签.结合伪标签预测任务与重构任务,重新训练表示模型(学生模型).将学生模型作为新的教师模型,借助聚类与重训练,不断优化伪标签与语音表示模型.对比实验表明,经过聚类重训练后,语音表示模型在音素识别和说话人识别两项下游任务上均优于聚类重训练前的模型,性能较优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张文林
刘雪鹏
牛铜
杨绪魁
屈丹
关键词 无监督学习自监督学习语音表示预训练模型掩蔽重建噪声学生训练    
Abstract:The existing self-supervised speech representation learning methods based on reconstruction are trained by restoring and rebuilding speech frames. However, the phoneme category information contained in the speech frame is underutilized. Combining self-supervised learning and noisy student training, a clustering and retraining based self-supervised speech representation learning method is proposed. Firstly, based on an initial self-supervised speech representation model (the teacher model),the pseudo-label reflecting the phoneme class information is obtained via unsupervised clustering. Secondly, the pseudo-label prediction task and the original masked frame reconstruction task are combined to retrain the speech representation model(the student model). Finally, the new student model is taken as the new teacher model to optimize pseudo-labels and representation models continually by iterating the whole clustering and retraining processes. Experimental results show that the speech representation model after clustering and retraining achieves better performance in downstream phoneme recognition and speaker recognition tasks.
Key wordsUnsupervised Learning    Self-Supervised Learning    Speech Representation    Pretrained Model    Mask Reconstruction    Noisy Student Training   
收稿日期: 2022-03-30     
ZTFLH: TP912.34  
基金资助:国家自然科学基金项目(No.61673395,62171470)资助
通讯作者: 张文林,博士,副教授,主要研究方向为语音信号处理、语音识别、机器学习等.E-mail:zwlin_2004@163.com.   
作者简介: 刘雪鹏,硕士研究生,主要研究方向为智能信息处理、无监督学习、语音表示学习.E-mail:liuxp1996@163.com.
牛 铜,博士,副教授,主要研究方向为语音识别、深度学习等.E-mail:jerry_newton@sina.com.
杨绪魁,博士,讲师,主要研究方向为语种识别、连续语音识别、机器学习等.E-mail:gzyangxk@163.com.
屈 丹,博士,教授、主要研究方向为机器学习、深度学习、语音识别等.E-mail:qudanqudan@163.com.
引用本文:   
张文林, 刘雪鹏, 牛铜, 杨绪魁, 屈丹. 自监督聚类重训练的语音表示学习[J]. 模式识别与人工智能, 2022, 35(5): 461-471. ZHANG Wenlin, LIU Xuepeng, NIU Tong, YANG Xukui, QU Dan. Clustering and Retraining Based Self-Supervised Speech Representation Learning Method. Pattern Recognition and Artificial Intelligence, 2022, 35(5): 461-471.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202205007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2022/V35/I5/461
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn