模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2012, Vol. 25 Issue (3): 382-387    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于隐主题分析和文本聚类的微博客中新闻话题的发现
路荣,项亮,刘明荣,杨青
中国科学院自动化研究所模式识别国家重点实验室北京100190
Discovering News Topics from Microblogs Based on Hidden Topics Analysis and Text Clustering
LU Rong, XIANG Liang, LIU Ming-Rong, YANG Qing
National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190

全文: PDF (478 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 提出一种在大规模微博客短文本数据集上发现新闻话题的方法。利用隐主题分析技术,解决短文本相似度度量的问题。在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题。此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题。实验证明该算法的有效性。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
路荣
项亮
刘明荣
杨青
关键词 微博客短文本隐主题模型话题发现混合聚类    
Abstract:A method of news topics extraction from large-scale short posts of microblogging-service is proposed. Through the hidden topic analysis, the similarity measurement of short texts is solved well. In every time window, the short posts which are most likely to talk about news events are selected according to the characteristics of the news. Then, a two-level K-means-hierarchical hybrid clustering method is used to cluster all the selected data into different news topics. The experimental results show the proposed method works well on large-scale microblog dataset.
Key wordsMicroblog    Short Text    Hidden Topic Model    Topics Extraction    Hybrid Clustering   
收稿日期: 2010-10-13     
ZTFLH: TP3  
作者简介: 路荣,男,1985年生,博士研究生,主要研究方向为社会化网络平台上新闻事件的挖掘。E-mail:rlu@nlpr。ia。ac。cn。项亮,男,1985年生,博士研究生,主要研究方向为推荐系统、社交媒体。刘明荣,男,1982年生,博士研究生,主要研究方向为社交问答、搜索引擎。杨青,男,1970年生,研究员,博士生导师,主要研究方向为社会化网络、新媒体。
引用本文:   
路荣,项亮,刘明荣,杨青. 基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 模式识别与人工智能, 2012, 25(3): 382-387. LU Rong,XIANG Liang, LIU Ming-Rong, YANG Qing. Discovering News Topics from Microblogs Based on Hidden Topics Analysis and Text Clustering. , 2012, 25(3): 382-387.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2012/V25/I3/382
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn