模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2019, Vol. 32 Issue (8): 736-745    DOI: 10.16451/j.cnki.issn1003-6059.201908007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
最大熵判别主题模型的高效学习算法
陈键飞1, 朱军1
1.清华大学 计算机科学与技术系 北京100084
Efficient Learning Algorithm for Maximum Entropy Discrimination Topic Models
CHEN Jianfei1, ZHU Jun1
1.Department of Computer Science and Technology, Tsinghua

全文: PDF (682 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

现有的有监督主题模型训练算法的时间复杂度一般线性于主题数量,限制了其大规模应用.基于此种情况,文中提出最大熵判别潜在狄利克雷分配(MedLDA)有监督主题模型的高效学习算法.算法为坐标下降算法,训练分类器的迭代次数少于MedLDA已有的蒙特卡洛算法.算法还利用拒绝采样及高效的预处理技术,将训练的时间复杂度从线性于主题数量降至亚线性于主题数量.在多个文本数据集上的对比实验表明,相比原有的蒙特卡洛算法,文中算法在训练速度上有大幅提升.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈键飞
朱军
关键词 有监督主题模型坐标下降算法吉布斯采样算法拒绝采样算法    
Abstract

Time complexity of the existing supervised topic model training algorithms is generally linear to the number of topics and therefore their large-scale application is limited. To solve this problem, an efficient learning algorithm for maximum entropy discrimination of latent Dirichlet allocation(MedLDA) supervised subject model is proposed in this paper. The proposed algorithm is based on coordinate descent, and the number of iterations of training classifiers is less than that of the existing Monte Carlo algorithm for MedLDA. The algorithm also makes use of rejection sampling and efficient preprocessing technique to reduce the time complexity of training from linear to sub-linear with respect to the number of topics. The comparison experiments on multiple text corpora show that the proposed algorithm makes a great improvement in training speed compared with the existing Monte Carlo algorithm.

Key wordsSupervised Topic Models    Coordinate Descent    Gibbs Sampling    Rejection Sampling   
收稿日期: 2019-05-12     
ZTFLH: TP 181  
基金资助:

国家自然科学基金重点国际合作项目(No.61620106010)、北京市自然科学基金重点专题项目(No.L172037)资助

通讯作者: 陈键飞(通讯作者),博士,主要研究方向为大规模机器学习、概率推理、主题模型.E-mail:chenjian14@mails.tsinghua.edu.cn.朱 军(通讯作者),博士,教授,主要研究方向为机器学习.E-mail:dcszj@mail.tsinghua.edu.cn.   
引用本文:   
陈键飞, 朱军. 最大熵判别主题模型的高效学习算法[J]. 模式识别与人工智能, 2019, 32(8): 736-745. CHEN Jianfei, ZHU Jun. Efficient Learning Algorithm for Maximum Entropy Discrimination Topic Models. , 2019, 32(8): 736-745.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201908007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2019/V32/I8/736
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn