模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2010, Vol. 23 Issue (1): 72-76    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于词相似性与CRP的主题模型
张小平1,周雪忠1,黄厚宽1,冯奇1,陈世波2
1.北京交通大学 计算机与信息技术学院 北京 100044
2.中国中医科学院广安门医院 北京 100053
A Topic Model Based on CRP and Word Similarity
ZHANG Xiao-Ping1,ZHOU Xue-Zhong1,HUANG Hou-Kuan1,FENG Qi1,CHEN Shi-Bo2
1.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044
2.Guanganmen Hospital,China Academy of Chinese Medical Sciences,Beijing 100053

全文: PDF (322 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 主题模型能提取隐含在文档中的主题,使文档可按主题进行归约、分类和检索,成为信息分类和检索领域的研究热点。针对LDA(Latent Dirichlet Allocation)主题模型不能自动确定主题数目的问题,提出一种结合词相似性与CRP(Chinese Restaurant Process )的隐主题模型,可自适应地动态更新主题内容,确定合理的主题数目。同时提出一种在动态更新主题数时超参数设置方法。在中医临床诊疗数据的实验中,获得领域专家解释性较好的分析结果。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张小平1
周雪忠1
黄厚宽1
冯奇1
陈世波2
关键词 主题模型词相似性Dirichlet分布    
Abstract:The topic model can extract the topics hided in documents to make the dimensions of documents reduced and the documents be classified and retrieved according to their topics. It is a research focus on information classification and retrieval fields. Aiming at the problem that the number of topics cannot be automatically determined in LDA topic model, a latent topic model is proposed by combining the similarity between words and Chinese restaurant process (CRP). It can adaptively update the contents and determine the rational number of topics. Meanwhile, a novel method of setting the hyperparameters during updating topics is put forward. The experimental results on traditional Chinese medicine (TCM) clinical dataset show the proposed model has good analysis results accepted by TCM expert.
Key wordsTopic Model    Word Similarity    Dirichlet Distribution   
收稿日期: 2009-04-27     
ZTFLH: TP391  
基金资助:国家973计划项目(No.2006CB504601)、国家科技支撑计划项目(No.2007BA110B06-01)、国家自然科学基金项目(No.90709006)和北京市科学技术委员会科研攻关项目(No.D08050703020804)资助
作者简介: 张小平,女,1969年生,博士研究生,副教授,主要研究方向为人工智能、数据挖掘.E-mail:zh_xping@hotmail.com.周雪忠,男,1977年生,博士,硕士生导师,主要研究方向为数据仓库、数据挖掘、医学本体论与中医信息学.黄厚宽,男,1940年生,教授,博士生导师,主要研究方向为人工智能、数据挖掘、机器学习.冯奇,男,1982年生,博士研究生,主要研究方向为数据挖掘、POMDP.陈世波,男,1973年生,博士,主治医师,主要研究方向为糖尿病及其并发症的中医药防治研究、个体化诊疗及临床评价.
引用本文:   
张小平,周雪忠,黄厚宽,冯奇,陈世波. 基于词相似性与CRP的主题模型[J]. 模式识别与人工智能, 2010, 23(1): 72-76. ZHANG Xiao-Ping,ZHOU Xue-Zhong,HUANG Hou-Kuan,FENG Qi,CHEN Shi-Bo. A Topic Model Based on CRP and Word Similarity. , 2010, 23(1): 72-76.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2010/V23/I1/72
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn