模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2024, Vol. 37 Issue (1): 85-94    DOI: 10.16451/j.cnki.issn1003-6059.202401007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于对比优化的多输入融合拼写纠错模型
伍瑶瑶1,2,3, 黄瑞章1,2,3, 白瑞娜1,2,3, 曹军航1,2,3, 赵建辉1,2,3
1.贵州大学 文本计算与认知智能教育部工程研究中心贵阳 550025;
2.贵州大学 公共大数据国家重点实验室 贵阳 550025;
3.贵州大学 计算机科学与技术学院 贵阳 550025
Multi-input Fusion Spelling Error Correction Model Based on Contrast Optimization
WU Yaoyao1,2,3, HUANG Ruizhang1,2,3, BAI Ruina1,2,3, CAO Junhang1,2,3, ZHAO Jianhui1,2,3
1. Engineering Research Center of Text Computing and Cognitive Intelligence of the Ministry of Education, Guizhou University, Guiyang 550025;
2. State Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025;
3. College of Computer Science and Technology, Guizhou University, Guiyang 550025

全文: PDF (835 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段集成多个单模型的初步纠错结果,为语义融合提供充分的互补语义信息.第二阶段基于对比学习方法优化多个互补的句子语义,避免模型过度纠正句子,同时融合多个互补语义对错误句子进行再纠错,改善模型纠错结果的局限性.在SIGHAN13、SIGHAN14、SIGHAN15数据集上的实验表明文中方法可有效提升纠错性能.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
伍瑶瑶
黄瑞章
白瑞娜
曹军航
赵建辉
关键词 中文拼写纠错多输入语义学习互补语义融合对比学习优化    
Abstract:Chinese spelling correction is essential in text editing. Most of the existing Chinese spelling error correction models are single input models, and there are limitations in the semantic information and error correction results of the models. In this paper, a multi-input fusion spelling error correction method based on contrast optimization, MIF-SECCO, is proposed. MIF-SECCO contains two stages: multi-input semantic learning and contrast learning-driven semantic fusion error correction. In the first stage, preliminary error correction results from multiple single input models are integrated to provide sufficient complementary semantic information for semantic fusion. In the second stage, multiple complementary sentence semantics are optimized based on the contrastive learning approach to avoid over-correction of sentences by the model. The limitations of error correction results of the model are improved by fusing multiple complementary semantics for re-correction of erroneous sentences. Experimental results on the public datasets SIGHAN13, SIGHAN14 and SIGHAN15 demonstrate MIF-SECCO effectively improves the error correction performance of the model.
Key wordsChinese Spelling Error Correction    Multi-input Semantic Learning    Complementary Semantic Fusion    Contrastive Learning Optimization   
收稿日期: 2023-09-06     
ZTFLH: TP391.1  
基金资助:国家自然科学基金项目(No.62066007)、贵州省科技支撑计划项目(No.2022277)资助
通讯作者: 黄瑞章,博士,教授,主要研究方向为自然语言理解、数据融合分析、文本挖掘、知识发现等.E-mail:rzhuang@gzu.edu.cn.   
作者简介: 伍瑶瑶,硕士研究生,主要研究方向为自然语言处理.E-mail:958725404@qq.com. 白瑞娜,博士研究生,主要研究方向为文本挖掘、机器学习.E-mail:bairuina22453@gmail.com. 曹军航,硕士研究生,主要研究方向为自然语言处理.E-mail:492866330@qq.com.赵建辉,硕士研究生,主要研究方向为自然语言处理.E-mail:1933578429@qq.com.
引用本文:   
伍瑶瑶, 黄瑞章, 白瑞娜, 曹军航, 赵建辉. 基于对比优化的多输入融合拼写纠错模型[J]. 模式识别与人工智能, 2024, 37(1): 85-94. WU Yaoyao, HUANG Ruizhang, BAI Ruina, CAO Junhang, ZHAO Jianhui. Multi-input Fusion Spelling Error Correction Model Based on Contrast Optimization. Pattern Recognition and Artificial Intelligence, 2024, 37(1): 85-94.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202401007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I1/85
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn