模式识别与人工智能
2025年4月7日 星期一   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2019, Vol. 32 Issue (2): 161-168    DOI: 10.16451/j.cnki.issn1003-6059.201902008
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
多段落中文阅读理解模型
赵峻瑶1, 2, 庞亮1, 苏立新1, 兰艳艳1, 郭嘉丰1, 程学旗1
1.中国科学院计算技术研究所 网络数据科学与技术重点实验室 北京 100190;
2.中国科学院大学 计算机与控制学院 北京 100190
Chinese Multi-paragraph Reading Comprehension Model
ZHAO Junyao1, 2, PANG Liang1, SU Lixin1, LAN Yanyan1, GUO Jiafeng1, CHENG Xueqi1
1.Key Laboratory of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190;
2.School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beijing 100190

全文: PDF (981 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

解决多段落中文阅读理解任务需要考虑证据段落的稀疏性、中文语义的多样性和答案片段的有效性.基于此种情况,文中设计多段落中文阅读理解模型,利用数据增强的方式学习不包含答案的段落,利用字级别编码和中文词性标注丰富中文的语义表示,通过答案片段的特征训练答案有效性验证模型.将文中模型应用到CIPS-SOGOU事实类问答数据中,实验表明,完全匹配率和F1分数的平均分均有所提高.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
赵峻瑶
庞亮
苏立新
兰艳艳
郭嘉丰
程学旗
关键词 阅读理解智能问答数据增强    
Abstract

In the Chinese multi-paragraph reading comprehension task, three properties should be taken into account: the sparsity of evidence paragraph, the diversity of Chinese semantic and the validity of answer snippet. To solve these problems, a Chinese multi-paragraph reading comprehension model, CMPReader, is proposed. In CMReader, data augmentation is exploited to learn the paragraphs with no answer. Word level encoding and Chinese word tag are added to enrich the Chinese semantic representation, and the features of answer snippet are employed by the answer verifier model to choose the right answer. CMPReader is applied to the CIPS-SOGOU factoid question answer dataset, and the results show that the average of exact match score and F1 score are increased.

Key wordsReading Comprehension    Question Answer    Data Augmentation   
收稿日期: 2018-10-21     
ZTFLH: TP 391  
基金资助:

国家重点研发计划(2016QY02D0405)、国家自然科学基金项目(No.61425016,61472401,61722211,61872338,61773362,20180290)、中国青年创新协会CAS项目(No.20144310,20160280)资助

作者简介: 赵峻瑶,硕士研究生,主要研究方向为自然语言处理、问答系统.E-mail:zhaojunyao17s@ict.ac.cn. 庞 亮(通讯作者),博士,助理研究员,主要研究方向为自然语言处理、机器学习.E-mail:pangliang@ict.ac.cn. 苏立新,博士研究生,主要研究方向为信息检索、问答系统.E-mail:sulixinict@gmail.com. 兰艳艳,博士,副研究员,主要研究方向为机器学习、数据挖掘.E-mail:lanyanyan@ict.ac.cn. 郭嘉丰,博士,研究员,主要研究方向为数据挖掘、信息检索.E-mail:guojiafeng@ict.ac.cn. 程学旗,博士,研究员,主要研究方向为网络科学与社会计算、互联网搜索与挖掘.E-mail:cxq@ict.ac.cn.
引用本文:   
赵峻瑶, 庞亮, 苏立新, 兰艳艳, 郭嘉丰, 程学旗. 多段落中文阅读理解模型[J]. 模式识别与人工智能, 2019, 32(2): 161-168. ZHAO Junyao, PANG Liang, SU Lixin, LAN Yanyan, GUO Jiafeng, CHENG Xueqi. Chinese Multi-paragraph Reading Comprehension Model. , 2019, 32(2): 161-168.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201902008      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2019/V32/I2/161
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn