模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2016, Vol. 29 Issue (10): 894-906    DOI: 10.16451/j.cnki.issn1003-6059.201610004
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于打分矩阵的生物序列频繁模式挖掘*
袁二毛1,郭 丹1,胡学钢1,吴信东1,2
1.合肥工业大学 计算机与信息学院 合肥 230009。
2.Department of Computer Science, University of Vermont, Burlington, VT 05405, USA
Frequent Pattern Mining from Biological Sequences Based on Score Matrix
YUAN Ermao1, GUO Dan1, HU Xuegang1, WU Xindong1,2
1.School of Computer and Information, Hefei University of Technology, Hefei 230009.
2.Department of Computer Science, University of Vermont, Burlington, VT 05405

全文: PDF (631 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 从生物序列中发现有意义的频繁模式已经成为生物信息领域研究的重要任务.文中提出基于打分矩阵的生物序列频繁模式挖掘算法.首先构造近似匹配得分矩阵,用于处理带通配符间隔约束的模式匹配问题中插入、替换、删除操作.然后设计基于打分矩阵的近似模匹配方法获取模式在序列中的近似出现次数.最后采用数据驱动模式生成方法和Apriori-like剪枝策略避免产生过多不必要的候选模式.在蛋白质和DNA序列上的实验表明文中算法性能更优,可用于挖掘不同序列的共同频繁模式.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
袁二毛
郭 丹
胡学钢
吴信东
关键词 近似匹配通配符间隔约束得分矩阵频繁模式    
Abstract:Mining significant frequent patterns from biological sequences is an important task in bioinformatics. An algorithm of mining approximate frequent pattern based on score matrix (MAPS) is proposed. Firstly, approximate matching score matrix (MSM) is constructed to handle insertion, replacement and deletion operations with interval constraints. Secondly, the approximate pattern matching based on score matrix (S-APM) scheme is designed to obtain counts of approximate occurrences of each pattern. Finally, a data driven pattern generation method and an Apriori-like rule are adopted to avoid unnecessary candidate patterns. Experiments on protein and DNA sequences show that the MAPS produces better performance, and it can be used to discover co-occurrence frequent patterns among different sequences.
Key wordsApproximate Matching    Wildcards    Interval Constraint    Score Matrix    Frequent Pattern   
收稿日期: 2016-02-08     
ZTFLH: TP 391  
基金资助:国家自然科学基金-海外及港澳学者合作研究基金项目(No.61229301)、 国家自然科学基金青年基金项目(No.61305062)资助
作者简介: 袁二毛,男,1991年生,硕士研究生,主要研究方向为模式匹配、数据挖掘.E-mail:yuanem@mail.hfut.edu.cn.
郭 丹(通讯作者),女,1983年生,博士,副研究员,主要研究方向为人工智能、模式挖掘.E-mail:guodan@hfut.edu.cn.
胡学钢,男,1961年生,博士,教授,主要研究方向为数据挖掘、人工智能.E-mail:jsjxhuxg@hfut.edu.cn.
吴信东,男,1963年生,博士,教授,主要研究方向为数据挖掘、基于知识的系统、万维网信息检索.E-mail:xwu@hfut.edu.cn.
引用本文:   
袁二毛,郭 丹,胡学钢,吴信东. 基于打分矩阵的生物序列频繁模式挖掘*[J]. 模式识别与人工智能, 2016, 29(10): 894-906. YUAN Ermao, GUO Dan, HU Xuegang, WU Xindong. Frequent Pattern Mining from Biological Sequences Based on Score Matrix. , 2016, 29(10): 894-906.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201610004      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2016/V29/I10/894
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn