模式识别与人工智能
2025年1月11日 星期六   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (9): 845-852    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
维吾尔文无监督自动切分及无监督特征选择
吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉
新疆大学信息科学与工程学院乌鲁木齐830046
Unsupervised Uyghur Segmentation and Unsupervised Feature Selection
TOHTI Turdi,PATTA Akbarr,HAMDULLA Askar
School of Information Science and Engineering,Xinjiang University,Urumqi 830046

全文: PDF (544 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法dme-TS和一种无监督特征选择方法UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
吐尔地·托合提
艾克白尔·帕塔尔
艾斯卡尔·艾木都拉
关键词 维吾尔文切分互信息t-测试差邻接对熵无监督特征选择    
Abstract:Commonly used Uyghur segmentation method produces a large number of semantic abstraction and even polysemous word features,so learning algorithms are difficult to find the hidden structure in the high-dimensional data. A segmentation approach dme-TS and a feature selection approach UMRMR-UFS based on unsupervised strategy are proposed. In dme-TS,the word based Bi-gram and contextual information are derived from large scale raw text corpus automatically,and the liner combinations of difference of t-test,mutual information and entropy of double word adjacency are taken as a measurement (dme) to estimate the agglutinative strength between two adjacent Uyghur words. In UMRMR-UFS,an improved unsupervised feature selection criterion (UMRMR) is proposed and the importance of each feature is estimated according to its minimum redundancy and maximum relevancy. The experimental result shows that dme-TS effectively reduces the dimensions of original feature set and improves the quality of the feature itself,and the learning algorithm represents its highest performance on the feature subset selected by UMRMR-UFS.
Key wordsUyghur Segmentation    Mutual Information    Difference of t-Test    Entropy of Adjacency    Unsupervised Feature Selection   
收稿日期: 2012-08-14     
ZTFLH: TP391  
基金资助:国家自然科学基金项目(No.61063022,61262062,61163033,61163032)、教育部新世纪优秀人才支持计划项目(No.NCET-10-0969)、新疆维吾尔自治区高技术研究发展计划项目(No.201212124)、新疆维吾尔自治区高校科研计划重点项目(No.XJEDU2012I11)资助
作者简介: 吐尔地·托合提,男,1975年生,副教授,博士研究生,主要研究方向为自然语言处理、文本挖掘.E-mail:turdy@xju.edu.cn.艾克白尔·帕塔尔,男,1958年生,副教授,主要研究方向为维吾尔文词素结构分析.艾斯卡尔·艾木都拉(通讯作者),男,1972年生,教授,博士生导师,主要研究方向为智能信息处理.E-mail:askar@xju.edu.cn.
引用本文:   
吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉. 维吾尔文无监督自动切分及无监督特征选择[J]. 模式识别与人工智能, 2013, 26(9): 845-852. TOHTI Turdi,PATTA Akbarr,HAMDULLA Askar. Unsupervised Uyghur Segmentation and Unsupervised Feature Selection. , 2013, 26(9): 845-852.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I9/845
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn