当前存在的云模型相似性度量仅局限于单粒度空间,缺乏多粒度云模型的相似性度量的相关研究.因此,文中首先证明知识距离框架的相关性质,并建立知识距离与信息度量、信息粒度之间的联系,在分层递阶粒结构上得到如下结论:同一粒结构中粒空间的粒度差异正相关于知识距离,通过知识距离可将随粒度连续变化的粒空间映射到一维坐标上.最后,在知识距离框架的基础上提出云模型相似性度量方法.实验验证上述结论在云模型粒空间上成立.
基于边聚类的社区发现算法以边为聚类对象,自然发现重叠社区,但也存在生成的社区集边界归属模糊、社区结构过度重叠等问题.基于此种情况,文中提出基于边密度聚类的重叠社区发现算法.首先,以边为研究对象,通过密度聚类检测连接紧密的核心边社区.然后,根据边界边归属策略将边界边划分到离它最近的核心边社区.针对孤立边,提出基于边的度与边的社区归属的孤立边处理策略,进一步处理未划分的孤立边,避免社区结构过度重叠的问题.最后,将边社区还原为节点社区,实现重叠社区的发现.在人工数据集和真实数据集上的实验表明,文中算法可以快速准确地检测复杂网络中的重叠社区.
首先定义OE-概念信息系统.在此基础上,针对OE-概念的特点,提出OE-概念间的距离.利用K-Modes聚类方法对OE-概念进行聚类,通过类中心获得子背景.通过定义K-删除变换研究原背景OE-概念格与子背景OE-概念格之间的关系,实现OE-概念格的压缩,并讨论压缩格与原OE-概念格之间的关系.最后通过实验验证文中方法的有效性和优越性.
无监督主题模型在降维过程中缺少标签信息的指导,丢失一些具有判别性的文本特征,导致最终的分类结果不理想.因此,文中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务.实验表明文中模型既能保持无监督主题模型隐含主题的提取能力,还能更好地完成分类和回归任务.
针对日益严重的雾霾污染问题,提出融合协同进化人工鱼群算法和支持向量机的雾霾预测方法.首先,运用佳点集构造均匀分布的种群,并引入自适应视野范围策略、自适应步长策略、种群间协同策略,提出协同进化人工鱼群算法.然后,使用协同进化人工鱼群算法,优化支持向量机的主要参数.最后,构建基于支持向量机的雾霾预测模型,预测雾霾天气.在10个测试函数上的实验证明协同进化人工鱼群算法的性能,在6个UCI数据集上的实验验证预测模型的稳定性和有效性.
研究者目前通常通过标注标签之间的相关信息研究标签之间的相关性,未考虑未标注标签与标注标签之间的关系对标签集质量的影响.受K近邻的启发,文中提出近邻标签空间的非平衡化标签补全算法(NeLC-NLS),旨在充分利用近邻空间中元素的相关性,提升近邻标签空间的质量,从而提升多标签分类性能.首先利用标签之间的信息熵衡量标签之间关系的强弱,获得基础标签置信度矩阵.然后利用提出的非平衡标签置信度矩阵计算方法,获得包含更多信息的非平衡标签置信度矩阵.继而度量样本在特征空间中的相似度,得到k个近邻标签空间样本,并利用非平衡标签置信度矩阵计算得到近邻标签空间的标签补全矩阵.最后利用极限学习机作为线性分类器进行分类.在公开的8个基准多标签数据集上的实验表明,NeLC-NLS具有一定优势,使用假设检验和稳定性分析进一步说明算法的有效性.
从单个文档中直接提取关键词不能满足关键词提取的精度要求,而现有基于邻居信息的关键词提取相关研究又耗时较长.因此,文中提出利用科学文献中共同作者关系以构建邻居网络,并联合使用这些邻居网络信息及文档本身内容提取关键词的方法.在此基础上,进一步提出利用领域知识中高频度共现词对以提取关键词,获得更高质量的关键词的方法.实验表明,文中方法性能较优.