模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2022, Vol. 35 Issue (5): 401-411    DOI: 10.16451/j.cnki.issn1003-6059.202205002
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于语句融合和自监督训练的文本摘要生成模型
邹傲1, 郝文宁1, 靳大尉1, 陈刚1
1.陆军工程大学 指挥控制工程学院 南京 210007
Text Summary Generation ModelBased on Sentence Fusion and Self-Supervised Training
ZOU Ao1, HAO Wenning1, JIN Dawei1, CHEN Gang1
1. College of Command and Control Engineering, Army Engineering University of PLA, Nanjing 210007

全文: PDF (916 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 为了提高深度神经网络文本生成技术的语句融合能力,文中提出基于语句融合和自监督训练的文本摘要生成模型.在模型训练前,首先根据语句融合理论中的信息联系点概念对训练数据进行预处理,使其满足之后模型训练的需要.文中模型可分为两个阶段的训练.在第一阶段,根据语句融合现象在数据集上的分布情况,设计以信息联系点为最小语义单元的排列语言模型训练任务,增强模型对融合语句上下文的信息捕捉能力.在第二阶段,采用基于语句融合信息的注意力掩码策略控制模型在生成文本过程中的信息摄入程度,加强文本生成阶段的语句融合能力.在公开数据集上的实验表明,文中模型在基于统计、深层语义和语句融合比例等多个评测指标上都较优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
邹傲
郝文宁
靳大尉
陈刚
关键词 自动文本摘要语句融合预训练语言模型深度神经网络自监督训练    
Abstract:To improve the capability of sentence fusion of deep neural network text generation technique, a text summary generation model based on sentence fusion and self-supervised training is proposed. Before the model training, the training data are firstly pre-processed according to the concept of points of correspondence in the theory of sentence fusion, and thus the data can meet the needs of model training. The training of the proposed model falls into two parts. In the first stage, according to the distribution of the sentence fusion phenomenon in the dataset, the training task of the permutation language model is designed with the points of correspondence as the minimum semantic unit to enhance the ability to capture the information of the fused sentence context. In the second stage, an attention masking strategy based on the fusion information is utilized to control the information intake of the model during the text generation process to enhance the fusion ability in the text generation stage. Experiments on the open dataset show that the proposed model is superior in several evaluation metrics, including those based on statistics, deep semantics and sentence fusion ratio.
Key wordsAutomatic Text Summarization    Sentence Fusion    Pre-trained Language Model    Deep Neural Network    Self-Supervised Training   
收稿日期: 2022-02-25     
ZTFLH: TP391  
基金资助:国家自然科学基金项目(No.61806221)资助
通讯作者: 郝文宁,博士,教授,主要研究方向为数据挖掘、机器学习.E-mail:hwnbox@foxmail.com.   
作者简介: 邹 傲,博士研究生,主要研究方向为自然语言处理、深度学习.E-mail:zouao@aeu.edu.cn.
靳大尉,硕士,副教授,主要研究方向为大数据、文本数据挖掘.E-mail:dwjin@yandex.com.
陈 刚,硕士,教授,主要研究方向为数据仿真、深度学习.E-mail:13376067283@aeu.edu.cn.
引用本文:   
邹傲, 郝文宁, 靳大尉, 陈刚. 基于语句融合和自监督训练的文本摘要生成模型[J]. 模式识别与人工智能, 2022, 35(5): 401-411. ZOU Ao, HAO Wenning, JIN Dawei, CHEN Gang. Text Summary Generation ModelBased on Sentence Fusion and Self-Supervised Training. Pattern Recognition and Artificial Intelligence, 2022, 35(5): 401-411.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202205002      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2022/V35/I5/401
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn