基于模糊纯度粒球的粗糙集模型
王馨1, 黄兵1
1.南京审计大学 计算机学院 南京 211815
通讯作者:

黄 兵,博士,教授,主要研究方向为粒计算、知识发现.E-mail: huangbing@nau.edu.cn.

作者简介:

王 馨,硕士研究生,主要研究方向为粗糙集、粒计算.E-mail:ma2309006@stu.nau.edu.cn.

摘要

粒球邻域粗糙集(Granular Ball Neighborhood Rough Set, GBNRS)作为一种经典的属性约简方法,要求粒球的纯度严格为1,在类边界处会产生大量样本数为1的粒球.这些粒球通常被误判为离群点并剔除,导致类边界信息的丢失.为了解决此问题.文中首先定义模糊纯度函数,融合隶属度与类别标签,作为粒球质量的评价指标.此函数基于动态质量评估和优化策略,综合考虑数据点的隶属度、数据点的类标签及粒球的类标签三重信息.然后,在粒球分裂过程中,引入分类显著性阈值 β,自适应调整 M-means的 m值,构建模糊纯度粒球生成算法.进一步地,针对粗糙集属性约简问题,设计前向属性约简算法,并提出基于模糊纯度粒球的粗糙集模型(Rough Set Model Based on Fuzzy Purity Granular Ball, FPGBRS).最后,在12个真实数据集上的实验表明,FPGBRS可提升分类精度和效率.

关键词: 粗糙集; 粒球; 粒计算; 粒球邻域粗糙集(GBNRS); 属性约简
中图分类号:TP18
Rough Set Model Based on Fuzzy Purity Granular Ball
WANG Xin1, HUANG Bing1
1.School of Computer Science, Nanjing Audit University, Nanjing 211815
Corresponding author:
HUANG Bing,Ph.D., professor. His research interests include granular computing and knowledge discovery.

About Author:
WANG Xin, Master student. Her research interests include rough sets and granular computing.

Abstract

As a classical attribute reduction method, granular ball neighborhood rough set(GBNRS) is constrained by the strict requirement that the purity of granular balls must be exactly 1. As a result, a large number of granular balls with a sample size of 1 are generated at the class boundaries. These granular balls are often misjudged as outliers and eliminated, and the loss of boundary information is caused. To address this issue, a fuzzy purity function is first defined. The function integrates membership degree and class labels as an evaluation metric for the quality of granular balls. Based on dynamic quality assessment and optimization strategies, the function takes into account three aspects: the membership degree of data points, the class labels of data points, and the class labels of granular balls. Nextly, during the granular ball splitting process, a classification significance threshold β is introduced, the m value of M-means is adaptively adjusted, and a granular ball generation method based on fuzzy purity is constructed. Furthermore, for the attribute reduction problem in rough set theory, a forward attribute reduction algorithm is designed, and a rough set model based on fuzzy purity granular ball(FPGBRS) is established. Finally, experiments on 12 real datasets demonstrate that FPGBRS can improve classification accuracy and efficiency.

Key words: Rough Set; Granular Ball; Granular Computing; Granular Ball Neighborhood Rough Sets(GBNRS); Attribute Reduction

属性约简[1, 2, 3]是数据挖掘过程中的一个关键步骤, 其核心目标是删除对信息系统分类或决策影响较小的属性, 获得一个更简洁高效的属性子集.通过属性约简, 不仅能简化数据处理流程, 还能保留信息系统的核心功能, 提升数据分析的效率.Pawlak[4]提出的粗糙集理论现已成为支撑属性约简的重要理论基础之一.这一创新的数学方法专为处理不确定性问题而设计, 其理论体系巧妙融合统计原理的严谨性和模糊逻辑框架的灵活性.

邻域粗糙集(Neighborhood Rough Set, NRS)是经典粗糙集理论的扩展, 通过引入邻域关系, 利用样本间的距离衡量相似性, 从而有效处理和分析连续数据, 为数据挖掘和机器学习提供新的方法.Al-shami等[5]提出Sρ -邻域, 进一步拓展粗糙集方法的应用边界.Hu等[6]提出WNRS(Weighted Neigh-borhood Rough Set), 并设计基于该模型的贪婪搜索算法, 优化处理流程.An等[7]引入软边缘理论, 提出自适应确定邻域半径的软邻域粗糙集模型.Sun等[8]针对多标签数据中的邻域半径问题, 提出具有自动选择机制的多标签邻域粗糙集模型.Yin等[9]提出噪声容忍模糊邻域粗糙集模型, 通过参数化模糊相似关系以减轻噪声影响.上述方法不仅提高数据处理效率, 还增强对不确定性数据的处理能力.然而, NRS在噪声敏感性、特征评估函数的局限性、邻域半径的取值及高计算复杂度[10, 11]等方面仍需进一步改进.

Xia等[12]提出GBNRS(Granular Ball Neighbor-hood Rough Set), 通过k-means聚类自适应生成具有指定纯度的粒球, 可降低计算复杂度.GBNRS在处理标签噪声数据时表现出色, 因为它不依赖单个样本标签, 而是考虑粒球内样本的整体特征和标签分布.粒球的高鲁棒性使其在处理不完整数据或有噪声数据时具有优势, 研究人员现已开发各种基于粒球计算的属性约简算法[13, 14, 15].Qian等[16]提出GBF-RS(Granular Ball Computing-Based Fuzzy Rough Set), 解决标签分布学习中的模糊性问题.Xia等[17]将思想树和粗糙集的等价类概念与粒球算法结合, 提出GBRS(Granular-Ball Rough Set)和GBRCT(Granular-Ball Rough Concept Tree).

近年来, 学者们继续优化粒球模型[18, 19].Xie等[20]提出GBG++(Fast and Stable Granular Ball Generation), 引入注意力机制, 降低时间复杂度.Peng等[21]提出VPGB(Variable Parameter Granular-Ball Model), 调整粒球大小和密度, 增强噪声鲁棒性.Zhang等[22]提出增量式粒球生成方法, 可有效适应数据流变化并保持分类稳定性.

基于前期对粒球生成方法的研究, 本文深入探讨GBNRS在粒球生成过程中的若干细节问题:1)当迭代2-means直至达到纯度为1时, 会产生众多小而缺乏稳定性的粒球; 2)GBNRS在属性约简中难以处理每个属性均影响纯度的情形; 3)在高纯度下往往会生成细粒度粒球, 这些粒球最终只能作为离群点被删除.

针对上述问题, 本文提出模糊纯度函数, 作为粒球质量的评价指标, 并据此构建模糊纯度粒球(Fuzzy Purity Granular Ball, FPGB)生成算法.放宽粒球纯度的限制条件, 引入分类显著性阈值β , 自适应调整M-means中的m值, 提高粒球生成算法的灵活性.最后, 设计前向属性约简算法, 并最终建立基于模糊纯度粒球的粗糙集模型(Rough Set Model Based on Fuzzy Purity Granular Ball, FPGBRS), 有效去除冗余属性并动态识别关键属性, 提升分类精度和效率.

1 粒球粗糙集

粒球粗糙集模型不仅能表示正域粗糙集和负域粗糙集, 还具备处理连续数据的能力, 可利用等价类进行知识表达.

定义1[22] 设四元组< U, A, W, f > 表示一个信息系统, 其中:U={x1, x2, …, xn}, 表示对象非空有限集合, n表示U中样本点数量; A={a1, a2, …, ab}, 表示非空有限属性集合; W= aAWa, 表示所有属性值的集合, Wa表示属性a的取值范围; fU× AW, 表示映射函数, ∀ xsU, aA, f(xs, a)∈ Wa.

给定A=CDCD=Ø , 其中, C表示条件属性, D表示决策属性, 信息系统< U, CD, W, f > 称为决策信息系统, 简记为DIS=< U, C, D> .

定义2[23] 设< U, C, D> 表示一个决策信息系统, U={x1, x2, …, xn}, U1U2∪ …∪ UlU, 表示将决策系统中样本集合U划分成的若干子集, 每个子集

Ui={xij|j=1, 2, …, ti}

对应一个候选粒球区域GBi, xij表示Ui中第j个元素, ti表示Ui中样本点数量, 则候选的粒球区域GBi的中心ci和半径ri公式如下:

ci= 1tij=1tixij, ∀ xijUi, (1)

ri= max1jtd(xij, ci), (2)

其中d(xij, ci)表示样本点xij与中心ci的欧氏距离.

定义3[12] 设< U, C, D> 表示一个决策系统, 其中U={x1, x2, …, xn}, 基于定义2, 在U上生成的粒球列表

GB={GBi|i=1, 2, …, l},

其中

GB1GB2∪ …∪ GBlU, GBi={xij|j=1, 2, …, ti}.

对于每个粒球GBi, 内部所有样本点必须满足

GBi={xij|xijUi, d(xij, ci)≤ ri},

其中, ci表示GBi的中心, ri表示GBi的半径, 分别由式(1)和式(2)计算, d(xij, ci)表示样本xijGBi的中心ci之间的欧氏距离.基于GBi采样点中最频繁的标签分配GBi的标签.

在粒球生成过程中, 粒球质量的评估体系主要依赖两个核心指标:纯度(Purity)和覆盖率(Cove-rage).纯度用于衡量粒球内部数据点的类簇一致性, 覆盖率反映粒球对目标数据分布的包容能力.

定义4[17] 设< U, C, D> 表示一个决策系统, 其中U={x1, x2, …, xn}, GB={GBi|i=1, 2, …, l}, ti=|GBi|表示粒球GBi中元素的数量, |Yi|表示GBi中多数类别标签的样本点数量, 粒球GBi的纯度和覆盖率公式如下:

Purity(GBi)= |Yi|ti,

Coverage(GBi)= 1ni=1lti.

在其它因素不变的情况下, 覆盖度越高, 样本信息丢失越少, 表示越准确.

为了优化特定学习目标, 在不同问题的背景下, 粒球的质量需要高于设定阈值T.这一要求与粒球粗糙度的下限密切相关, 确保粒球在足够“ 精细” 的情况下, 能尽量覆盖所有数据.

在确保纯度和覆盖率不变的情况下, 粒球的数量越少, 粒度相应越粗, 同时粒球的质量通常也会随之提升.因此, 粒球计算的优化目标函数旨在保证纯度和覆盖率的前提下, 进一步减少粒球数量, 提升粒球的整体质量.该优化目标函数的具体形式如下:

$\begin{array}{l} \min \left(\frac{1}{\operatorname{Coverage}(G B)}+l\right), \\ \text { s.t. } \operatorname{purity}\left(G B_{i}\right) \geqslant T, \end{array}$

其中, l表示粒球个数, 纯度阈值T的范围为0< T≤ 1.

定义5[17] 设< U, CD, W, f > 表示决策信息系统, 其中, U={x1, x2, …, xn}, ∀ x1U, x2U, ∀ BC, 对于属性子集B的不可辨别的粒球关系为:

$\begin{array}{l} \operatorname{INDGB}(B)= \\ \quad\left\{\left(x_{1}, x_{2}\right) \mid \exists G B_{i} \in G B, x_{1} \in G B_{i}, x_{2} \in G B_{i}\right\} . \end{array}$

当两个样本点(x1, x2)同时落在同个粒球GBi中时, 它们是不可分的, 因此被视为等价或不可辨别.这个关系依赖于在属性子集B下定义的粒球划分方式.

定义6[17] 设< U, C, D> 表示一个决策系统, 决策属性集D对论域U的划分表示为G个等价类:

U/D={Xg|g=1, 2, …, G},

BC, U上存在对应的等价关系GBRB, 对于∀ XgU, Xg相对于B的上下近似定义如下:

$\overline{G_{B B R_{B}} X_{g}}=\cup\left\{[x]_{G B(B)} \mid[x]_{G B(B)} \cap X_{g} \neq \emptyset, [x]_{G B(B)} \in U / G B(B)\right\}, $

$\underline{G B R_{B}} X_{g}=\cup\left\{[x]_{G B(B)} \mid[x]_{G B(B)} \subseteq X_{g}, [x]_{G B(B)} \in U / G B(B)\right\} .$

其中U/GB(B)表示等价关系GB(B)对U的划分为若干个互不相交的子集, 在集合U/GB(B)中元素

[x1]GB(B)={x2|x1~x2, x1∈ U, x2∈ U}

是由粒球计算生成的等价类.

定义7[15] 设< U, C, D> 表示一个决策系统,

U/D={Xg|g=1, 2, …, G},

∀ B⊆C, U上存在对应的等价关系GBRB, D相对于B的上下近似分别定义如下:

GBRB¯D= g=1GGBRB¯Xg, GBRB¯D= g=1GGBRB¯Xg.

定义8[17] 设< U, C, D> 表示一个决策系统, ∀ B⊆C, D相对于B正区域和边界区域分别定义如下:

POSB(D)= GBRB¯D, BNDB= GBRB¯D- GBRB¯D.

属性集的分类能力与正区域大小呈正相关, 即正区域范围越广, 其所能刻画的分类问题精细度越高.

2 基于模糊纯度粒球的粗糙集模型
2.1 模糊纯度粒球扩展定义

定义9 设< U, C, D> 表示一个决策系统, 其中,

U={x1, x2, …, xn}, GB={GBi|i=1, 2, …, l}

表示在U上生成的粒球列表,

GB1∪ GB2∪ …∪ GBl⊆U,

粒球GBi定义为U的子集,

GBi={xij|j=1, 2, …, ti},

xij表示粒球GBi中第j个元素, ci表示粒球GBi的中心, ri表示粒球GBi的半径(由式(1)和式(2)计算得到), 那么数据点xij对粒球GBi 的隶属度:

uij=1- d(xij, ci)ri, (3)

取值范围为(0, 1], 其中, d(xij, ci)表示样本点xij与中心ci的欧氏距离, ri根据粒球的覆盖范围动态控制隶属度的衰减速率.

基于定义9, 构建一种半径自适应三角函数隶属度关系函数, 旨在量化样本点与粒球之间的关联程度.当样本点与粒球中心的距离趋近于0时, 隶属度达到最大值1, 表示该样本点完全隶属于该粒球.随着距离的逐渐增加, 隶属度呈线性递减趋势.

定义10 在

GBi={xij|j=1, 2, …, ti}

中, ci表示粒球GBi的中心, 设pij表示xij的真实标签, 即xij在数据集上归属的类别标签, qi表示GBi的主要类别, 表示当前GBi表示的类别标签, 那么数据xij对GBi的指示函数:

Ⅱ (pij, qi)= 1, pij=qi0, pijqi(4)

当样本点的真实标签pij与粒球类别qi相同(即pij=qi)时, 指示函数值为1, 表示数据点pij完全匹配粒球类别qi.

在定义9与定义10中, 定义样本点xij对粒球GBi的隶属度及指示函数的计算方式, 从而有效量化样本点xij与粒球GBi之间的隶属关系及粒球类别的内在一致性.然而, 在处理含有噪声或边界模糊的数据时, 单纯依靠隶属度和指示函数难以全面反映粒球的质量.为此, 进一步引入模糊纯度函数, 作为评估粒球内数据点一致性的关键度量.

模糊纯度函数通过精准衡量粒球内部数据点与粒球主要类别的匹配程度, 为粒球质量提供明确的量化指标.这一函数的定义旨在从已生成的粒球列表中高效检索满足特定条件的粒球, 确保粒球内部类别的一致性.模糊纯度函数的定义见定义11.

定义11 在

GBi={xij|j=1, 2, …, ti}

中, ti=|GBi|, 此时GBi的模糊纯度函数如下所示:

FP(GBi)= 1tij=1tiuijⅡ (pij, qi),

uij、Ⅱ (pij, qi)分别根据式(3)和式(4)计算.

GB={GBi|i=1, 2, …, l}

粒球列表中, 当FP(GBi)< 0.6, 将GBi添至FPGB_list列表中, 此时

FPGB_list=FPGB1∪ FPGB2∪ …∪ FPGBE,

其中, E表示模糊纯度值小于0.6的粒球数量,

FPGBe={xej|j=1, 2, …, fe}, fe=|FPGBe|, e=1, 2, …, E.

在需要分裂的粒球FPGBe下的类别集合记为

Ie={I1, I2, …, Ik},

k表示FPGBe类别的总数.设定分类显著性阈值β , 作为每个类别中样本的最低比例, 每个类别Ih必须满足

|Ih||FPGBe|≥ β ,

|Ih|表示类别Ih的样本点总数, fe表示该粒球包含的样本点总数.

满足

|Ih||FPGBe|≥ β

的类别数量记作m, 则

$m=\sum_{h=1}^{k} 1\left(\frac{\left|I_{h}\right|}{\left|F P G B_{e}\right|} \geqslant \beta\right).$

1(· )表示一个指示函数, 只将满足条件的类计入m.

在粒球分裂的过程中引入β , 范围设为 0.01~0.05.选择这一范围主要基于如下考虑.β 值决定每个类别样本数量占粒球总样本数的最低比例:范围的下限0.01确保即使是在小型数据集的比例类别上也能保留小类别样本, 从而避免过度排除; 范围的上限0.05限制较大比例类别的需求, 在大型数据集上确保分裂后的类别包含的样本点不会过于排除小类别样本, 从而进一步平衡粒球分裂的合理性和分类信息的保留程度.

在定义11中, 引入分类显著性阈值β , 筛选粒球FPGBe中的类别.具体地, 只有当类别Ih中的样本点数|Ih|满足

|Ih||FPGBe|≥ β

时, 该类别才会计入有效类别集合中.粒球列表FPGB_list在该阶段完成分裂之后, 结合第一阶段中已经满足条件FP(GBi)≥ 0.6的粒球, 最终生成一个新的模糊纯度粒球列表FPGB.

2.2 两阶段粒球分裂与优化策略

GBRS[17]采用自适应邻域半径策略, 通过动态调整邻域范围实现样本的精准分配, 其核心在于通过严格纯度约束(purity=1)确保粒球内样本标签高度一致.然而, 这一约束条件可能带来一些潜在问题.如图1(a)所示, 在iris数据集的(2, 3)属性空间下, GBRS生成13个粒球, 覆盖140个样本点.严格纯度要求导致粒球划分过于精细, 表现为粒球数量较多且覆盖范围较小.

图1 iris数据集上(2, 3)属性下生成的自适应粒球图Fig.1 Adaptive granular ball diagram generated under (2, 3) attributes on iris dataset

相比之下, 本文提出的基于模糊纯度的粗糙集模型(FPGBRS)在保持同等纯度标准(purity=1)的条件下, 生成9个粒球, 覆盖133个样本点, 具体如图1(b)所示.虽然FPGBRS实现相对较大的粒球粒度, 但为了保证纯度标准而采用的边缘样本删除策略, 客观上造成约5%的样本信息丢失, 影响数据集的完整性.

为了有效应对粒球分裂过程中边界样本点丢失的问题, 同时确保粒球在不过于细化的前提下全面保留数据集信息, 本文设计两阶段粒球分裂与优化策略, 分阶段实施粒球分裂, 并动态调整纯度标准.具体实施步骤如下.

在粒球分裂的初始阶段, 设置0.9≤ purity≤ 1, 并运用M-means(参数β =0)进行初步的粒球分裂.这一阶段主要依赖数据的自然聚类特性, 生成的粒球相对较粗糙.完成初步分裂之后, 保存当前的粒球列表, 进入分裂的第二阶段.

在第二阶段中, 逐一对每个粒球进行循环遍历并计算模糊纯度值, 以此精准确定粒球内样本点的一致性程度.

为了有效识别并处理粒球内的噪声点及边界不一致的样本, 将模糊纯度函数阈值FP设在0.6~1.0之间.

若某个粒球的FP< 0.6, 这表明该粒球内含有较多类别不一致的边界样本点, 对该粒球实施再次分裂, 并重新使用M-means进行优化.在此阶段, M-means的参数β 设为0.01至0.05之间的实数值(步长为0.01).引入参数β 的目的是使m成为自适应参数以进一步细化粒球边界, 有效剔除或重新归类不一致的样本点, 确保每个粒球的数据点主要集中在核心区域, 最大程度减少噪声的影响.

通过两阶段粒球分裂与优化策略, 可提升粒球质量和聚类效果, 使粒球更精确地反映数据特征.在0.9≤ purity≤ 1的条件下, 如图1(c)所示, 仅用3个粒球便覆盖149个样本点, 平均纯度高达96.05%.这一粒球优化过程详见图2, 通过灵活调整模糊纯度函数阈值和粒球分裂策略, 不仅有效提高属性约简的效率和准确性, 还减少不必要的粒球生成, 同时确保粒球质量和覆盖率.

图2 粒球优化过程流程图Fig.2 Granular ball optimization process

为了进一步验证两阶段粒球分裂与优化策略的有效性, 在fourclass数据集上进行实验, 采用索引编号(0, 1)表示条件属性, 具体粒球图如图3所示.由图可见, 在第一阶段的基础粒划分(FP=0)中, 生成19个较高纯度粒球(平均纯度为96.53%), 覆盖862个样本(占比97.3%), 由此充分验证初始粒构造的有效性.

图3 fourclass数据集上不同FP阈值生成的粒球图Fig.3 Granular ball diagram generated under different FP thresholds on fourclass dataset

进入第二阶段, 引入FP实施动态粒球分裂, 观察到不同的FP值对粒球效果的影响.

当FP=0.6时, 生成20个粒球, 覆盖样本数量保持为862个, 平均纯度达到96.86%.

当FP=0.7时, 粒球数量进一步上升至22个, 平均纯度达到98.48%, 比初始划分提升1.95%, 整体表现更优.

尽管在fourclass数据集上FP=0.7时取得更优的粒球划分效果, 但在后续属性约简实验中统一选择FP=0.6作为模糊纯度的边界阈值.一方面, FP=0.6能在保证粒球纯度和样本覆盖率的同时, 控制粒球数量, 具有较好的平衡性和稳定性, 另一方面, 它作为一种边界设定, 避免过度依赖某一特定数据集的最优参数, 有助于提升方法的通用性和鲁棒性.因此, 本文认为FP=0.6是更具普适性和实验可重复性的参数选择, 而FP=0.7则更适合作为特定数据集上的局部最优解参考.

2.3 前向属性约简算法

在构建模糊纯度粒球生成模型之后, 需要根据每个粒球的纯度评估粒球质量, 并据此确定正域大小.具体而言, 在DIS=< U, C, D> 决策信息系统下, 决策属性集D对论域U的划分表示为L个等价类:

U/D={X1, X2, …, XL}.

对于任意子集B⊆C, 基于属性集B构建模糊纯度粒球列表:

FPGB={FPGBr|r=1, 2, …, R}.

其中, FPGBr中的每个样本点通过 2.1节的两阶段粒球分裂与优化策略归类到同个粒球中.每个FPGBr粒球对应一组具有相似属性的样本, 这些样本在粒球内不可分, 即它们在属性上非常相似, 并且可通过与粒球中心的欧氏距离判断它们是否属于该粒球.

在生成模糊纯度粒球列表FPGB之后, 设定一个标准:只有当purity(FPGBr)≥ 0.9时, 该粒球才被视为满足质量要求, 并有资格参与正域的计算.在实验中, 采用purity(FPGBr)作为控制正域的关键指标.如果发现某个粒球的纯度低于0.9, 通常意味着其质量不够高, 若将这类低质量粒球纳入正域计算, 极易模糊不同样本点之间的类别界限.为此, 进一步定义决策类的上下近似, 确保分类的准确性和清晰性.

若U上存在对应的等价关系FPGBRB, 对于∀ Xl⊆U, Xl相对于B的上下近似定义如下:

$\begin{array}{l} \overline{F P G B R_{B}} X_{l}=\cup\left\{[x]_{F P G B(B)} \mid[x]_{F P G B(B)} \cap X_{l} \neq \emptyset, [x]_{F P G B(B)} \in U / F P G B(B)\right\}, \\ \underline{F P G B R_{B}} X_{l}=\cup\left\{[x]_{F P G B(B)}\left|[x]_{B}\right|[x]_{G B(B)} \subseteq X_{l}, [x]_{F P G B(B)} \in U / F P G B(B)\right\} . \end{array}$

由于粒球不会重叠, U/INDFPGB(B)缩写为U/FPGB(B), 表示等价关系FPGB(B)把U划分为若干个互不相交的子集, 在集合U/FPGB(B)中, 元素

[xr1]FPGB(B)={xr2|(xr1, xr2)∈ FPGBRB, xr1∈ U, xr2∈ U},

是由粒球计算生成的等价类.

因此D相对于B的上下近似分别定义如下:

$\overline{F_{P G B R_{B}} }D=\bigcup_{l=1}^{L} \overline{F P G B R_{B}} X_{l}, $

$\underline{F P G B R_{B}} D=\bigcup_{l=1}^{L} \underline{F P G B R_{B}} X_{l} .$

定义12 设< U, C, D> 表示一个决策信息系统, ∀ B⊆C, D相对于B的正区域和边界区域分别定义如下:

$\begin{array}{l} F P P O S_{B}(D)=\underline{F P G B R_{B} }D, \\ F P B N_{B} D=\overline{F P G B R_{B}} D-\underline{F P G B R_{B}} D . \end{array}$

属性集的分类能力与正区域大小呈正相关, 即正区域范围越广, 刻画的分类问题精细度越高.

定义13 设< U, C, D> 表示一个决策信息系统, B⊆C, 当且仅当满足

1)FPPOSB(D)=FPPOSc(D),

2)∀ b⊆B, FPPOSB-{b}(D)< FPPOSB(D),

此时属性子集B是集合C关于决策属性D的一个约简.

2.4 算法步骤

首先, 设计模糊纯度粒球生成算法, 并利用生成的粒球进行属性约简.具体步骤如算法1所示.

算法1 模糊纯度粒球生成算法

输入 DIS=< U, C, D> , ∀ B⊆C, β

输出 模糊纯度粒球列表FPGB

GB_list ← 将整个数据集D视为初始粒球GB

第一阶段粒球基于0.9≤ purity≤ 1分裂

for ball in GB_list do

if ball.purity< 0.9且ball.num< minsample then

使用M-means(β =0)进行分裂聚类(在第一阶段不使用β )

else

粒球不分裂

end

end

第二阶段基于模糊纯度函数分裂

通过第一阶段得到的GB_list再次进行循环遍历

for GBjin GB_list do

计算每个粒球的模糊纯度函数值FP

if FP< 0.6 then

通过β (0.01~0.05)值确定M-means中的m值, 进行k-means聚类

得到GBj分裂之后的粒球列表FPGB_list

for FPGBe in FPGB_list do

再次检查新粒球的纯度

保留纯度满足约束条件的粒球, 添至FPGB

end

else

粒球不分裂, 将符合条件的粒球添至FPGB

end

end

在第一阶段, 算法需要遍历粒球列表, 对每个粒球进行纯度检查, 并在需要时使用M-means进行分裂, 所以第一阶段的时间复杂度为O(nmz), 其中, n表示样本点数量, m表示簇数, z表示M-means的迭代次数.在第二阶段中, 算法对粒球进行模糊纯度函数值计算, 并可能有V个粒球需要再次分裂, 每个粒球的计算时间复杂度为O(nimzi), 其中, ni表示第i个粒球中的样本点数量, m表示簇数, zi表示第i个粒球迭代的次数, 因此第二个阶段时间复杂度为$O\left(\sum_{v=1}^{V} n_{i} m z_{i}\right)$.所以整个时间复杂度如下:

$\begin{array}{l} O(n m z)+O\left(\sum_{v=1}^{V} n_{i} m z_{i}\right)=O\left(m\left(n z+\sum_{v=1}^{V} n_{i} z_{i}\right)\right), \end{array}$

其中

v=1Vni< n, v=1Vzi< z.

在算法1中得到FPGB之后, 设计前向属性约简算法, 采用贪婪搜索策略, 逐步选择使正域样本覆盖度最大化的属性构建约简集.算法初始化约简集为空集, 迭代评估候选属性与当前约简集组合生成的粒球纯度(purity≥ 0.9), 选择覆盖样本数最多的属性加入约简集, 直至无法提升正域覆盖度或候选集为空, 最终输出保持分类能力的最小属性子集.前向属性约简算法步骤如算法2所示.

算法2 前向属性约简算法

输入 数据集U, 属性集C, β

输出 Reduced attribute

初始化 FPGB=Ø , attribute=Ø , ball_num = 0

while C≠ Ø do

Max=-100, cm= -1

for ciin C do

attribute=attribute+[ci]

通过算法1在属性attribute条件下构造对应

FPGB

POS_num=0

for ball in FPGB do

计算正域大小, POS_num

end

if POS_num> Max then

Max=POS_num, cm=ci

end

end

if Max> ball_num then

cm→ Reduced attribute, C-cm

else

return Reduced attribute

end

return Reduced attribute

end

3 实验及结果分析
3.1 实验环境

为了验证FPGBRS的实用性和有效性, 选取12个真实数据集[13, 23]进行实验, 数据集详细信息如表1所示.

表1 实验数据集 Table 1 Experimental datasets

为了从多个角度深入分析, 采用K-近邻(K Nearest Neighbor, KNN)分类器对属性约简结果进行综合评估.为了避免模型过拟合, 在KNN分类器上进行10折交叉验证, 并以10次实验的平均值作为最终结果.

实验环境为Windows 11 64位操作系统, 配备32 GB RAM和具有20个核心的3.50 GHz的Intel Core i5-14600 KF CPU, 选用Python(3.9版)作为编程语言, PyCharm 2022.1.4作为开发环境.

3.2 对比实验

本文选用如下7种广泛应用的属性约简模型进行对比:NRS、GBNRS[12]、MGBNRS(Multiple GBN-RS)[12]、GBRS[17]、GBRCT[17]、GBNRS+[17]、F2H-ARNRS(Fast Forward Heterogeneous Attribute Reduc-tion Based on Neighborhood Rough Sets)[24].其中, NRS与F2HARNRS是基于文献自行实现的, GBN-RS、MGBNRS、GBRS、GBRCT和GBNRS+直接采用GitHub上的开源代码实现.

在KNN分类器下, FPGBRS与其它对比模型在12个数据集上的分类精度对比如表2所示, 表中第1列表示未进行属性约简时的分类精度, 黑体数字表示最优值.

表2 各模型在12个数据集上的分类精度 Table 2 Classification accuracy of different models on 12 datasets %

表2可看出, FPGBRS在Mushroom1数据集上实现100%的分类精度, 同时, 在electrical、seg- ment数据集上, 也取得99.97%和95.71%的高分类精度.在多数数据集上, FPGBRS的分类精度均较优, 并且平均精度最高, 相比原始数据集, 精度提升约5.45%.

各模型在12个数据集上的分类精度排名如表3所示.

表3 各模型在12个数据集上的精度排名 Table 3 Accuracy ranking of different models on 12 datasets

表3可见, FPGBRS在12个数据集上的平均排名为1.58, 显著高于其它模型的平均排名.

各模型的分类精度显著性检验结果如表4所示.由表可见, 基于显著性水平为p=0.05的配对t检验, FPGBRS在大部分数据集上胜率均优于对比模型.

表4 分类精度显著性检验结果 Table 4 Results of significance test for classification accuracy

各模型在12个数据集上的属性约简数量如表5所示, 表中黑体数字表示最优值.

表5 各模型在12个数据集上的属性约简数量 Table 5 Number of attributes reduced by different models on 12 datasets

表5可见, FPG-BRS在大多数数据集上均能选取较少的属性, 属性约简数量平均值为4.92, 特别是在heart1、electrical数据集上, 属性约简数量分别仅为5和1, 远低于其它模型.这表明FPGBRS能在确保较高精度的同时, 大幅减少属性冗余, 实现更优的特征选择效果.

将数据集分为2类.1)小型样本数据集:heart1、zoo、Glass、glass1、lymphography、ILPD.2)大型样本数据集:splice、electrical、segment、Mushroom1.分别在两类数据集上对比各模型的运行时间, 结果如图4所示.

图4 各模型的运行时间对比Fig.4 Running time comparison of different models

在图4(a)中, FPGBRS尽管在粒球生成过程中引入模糊纯度函数, 可能导致粒球分裂与聚类, 使其效率在某些数据集上未必最优, 但并未明显落后于对比模型.在(b)中, 在splice、electrical、Mush- room1这3个大型数据集上, 相比大部分对比模型, FPGBRS效率提升2至6倍.

实验结果表明, 在KNN分类器下, FPGBRS在分类精度上显著优于绝大多数对比模型, 凸显其在属性约简和特征选择方面的独特优势.此外, FPGB-RS还有效去除冗余特征, 优化特征空间, 进一步提升计算效率.

3.3 敏感性分析

分类显著性阈值β 决定每个类别样本占粒球总样本数的最低比例.定义β =0, 0.01, 0.02, …, 0.05, 分析不同数据集上β 变化的敏感性.

选取8个数据集, 分为小型样本数据集(heart1、wine、Glass、ILPD)和大型样本数据集(splice、electrical、Mushroom1、segment), β 值不同时的分类精度对比如图5所示, 图中红色虚线表示原始属性集上的分类精度.

图5 β 不同时FPGBRS的分类精度对比Fig.5 Accuracy comparison of FPGBRS with different β

由图5(a)可见, 在heart1、ILPD数据集上, β 值逐渐增加时分类精度始终保持平稳.这表明FPGBRS的参数β 在一定范围内具有不敏感性.在属性约简过程中, 正域的范围可能高度集中在中心区域, 较少受到边界区域的干扰.然而, 在Glass数据集上, 当β =0时, 分类精度反而达到最高值, 这说明随着β 值的增大, 该数据集的正域可能容易受到边界样本点的影响.由(b)可见, 在splice、electrical数据集上分类精度也几乎不受β 值变化的影响.在segment数据集上, 分类精度呈现轻微上升, 在β =0时最低, 随着β 值的增加, 可能通过去除数据集边界上的噪声或冗余信息, 分类精度呈现上升趋势.所以合理选择β 值对算法分类精度具有较重要的意义.

4 结束语

本文提出基于模糊纯度粒球的粗糙集模型(FPGBRS), 引入模糊纯度函数和分类显著性阈值β , 可有效捕捉类边界信息, 解决传统方法中存在的边界信息损失问题, 同时显著增强属性约简过程中正域的稳定性.实验表明, FPGBRS在多个性能指标上均有显著提升.今后可考虑聚焦如下两方面:首先, 深入研究模糊纯度函数的阈值范围, 建立模糊纯度值与分类精度之间的量化关系模型, 确定特定数据集上的最优FP值; 其次, 针对算法时间复杂度较高的问题, 探索基于快速聚类的新型粒球生成模型.

本文责任编委 苗夺谦

Recommended by Associate Editor MIAO Duoqian

参考文献
[1] LI W T, ZHOU H X, XU W H, et al. Interval Dominance-Based Feature Selection for Interval-Valued Ordered Data. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(10): 6898-6912. [本文引用:1]
[2] 张晓燕, 李璐. 区间值决策表中基于相对优势邻域粒度的属性约简. 西南大学学报(自然科学版), 2024, 46(5): 67-76.
(ZHANG X Y, LI L. Attribute Reduction Based on Relative Dominance Neighborhood Granularity in Interval-Valued Decision Tables. Journal of Southwest University(Natural Science Edition), 2024, 46(5): 67-76. ) [本文引用:1]
[3] DING W P, PEDRYCZ W, TRIGUERO I, et al. Multigranulation Supertrust Model for Attribute Reduction. IEEE Transactions on Fuzzy Systems, 2021, 29(6) 1395-1408. [本文引用:1]
[4] PAWLAK Z. Rough Sets. International Journal of Computer & Information Sciences, 1982, 11: 341-356. [本文引用:1]
[5] AL-SHAMI T M, CIUCCI D. Subset Neighborhood Rough Sets. Know-ledge-Based Systems, 2022, 237. DOI: DOI:10.1016/j.knosys.2021.107868. [本文引用:1]
[6] HU M, TSANG E C C, GUO Y T, et al. A Novel Approach to Attribute Reduction Based on Weighted Neighborhood Rough Sets. Knowledge-Based Systems, 2021, 220. DOI: DOI:10.1016/j.knosys.2021.106908. [本文引用:1]
[7] AN S, GUO X Y, WANG C Z, et al. A Soft Neighborhood Rough Set Model and Its Applications. Information Sciences, 2023, 624: 185-199. [本文引用:1]
[8] SUN L, WANG T X, DING W P, et al. Feature Selection Using Fisher Score and Multilabel Neighborhood Rough Sets for Multilabel Classification. Information Sciences, 2021, 578: 887-912. [本文引用:1]
[9] YIN T Y, CHEN H M, YUAN Z, et al. Noise-Resistant Multilabel Fuzzy Neighborhood Rough Sets for Feature Subset Selection. Information Sciences, 2023, 621: 200-226. [本文引用:1]
[10] YOLCU A, BENEK A, ÖZTÜRK T Y. A New Approach to Neutrosophic Soft Rough Sets. Knowledge and Information Systems, 2023, 65(5): 2043-2060. [本文引用:1]
[11] 谢德华, 刘财辉, 凌敏. 局部多粒度覆盖粗糙集. 西南大学学报(自然科学版), 2021, 43(10): 1-9.
(XIE D H, LIU C H, LING M. Local Multi-granulation Covering-Based Rough Sets. Journal of Southwest University(Natural Science Edition), 2021, 43(10): 1-9. ) [本文引用:1]
[12] XIA S Y, ZHANG H, LI W H, et al. GBNRS: A Novel Rough Set Algorithm for Fast Adaptive Attribute Reduction in Classification. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(3): 1231-1242. [本文引用:4]
[13] XIA S Y, ZHENG S Y, WANG G Y, et al. Granular Ball Sampling for Noisy Label Classification or Imbalanced Classification. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(4): 2144-2155. [本文引用:2]
[14] PAN J L, LANG G M, XIAO Q M, et al. A Framework of Granular-Ball Generation for Classification via Granularity Tuning. App-lied Intelligence, 2025, 55. DOI: DOI:10.1007/s10489-024-05904-1. [本文引用:1]
[15] LI Y, WU X X, WANG X Z. Incremental Reduction Methods Based on Granular Ball Neighborhood Rough Sets and Attribute Grouping. International Journal of Approximate Reasoning, 2023, 160. DOI: DOI:10.1016/j.ijar.2023.108974. [本文引用:2]
[16] QIAN W B, XU F K, HUANG J T, et al. A Novel Granular Ball Computing-Based Fuzzy Rough Set for Feature Selection in Label Distribution Learning. Knowledge-Based Systems, 2023, 278. DOI: DOI:10.1016/j.knosys.2023.110898. [本文引用:1]
[17] XIA S Y, WANG C, WANG G Y, et al. GBRS: A Unified Granular-Ball Learning Model of Pawlak Rough Set and Neighborhood Rough Set. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36(1): 1719-1733. [本文引用:9]
[18] XIA S Y, DAI X C, WANG G Y, et al. An Efficient and Adaptive Granular-Ball Generation Method in Classification Problem. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(4): 5319-5331. [本文引用:1]
[19] XIA S Y, PENG D W, MENG D Y, et al. Ball k-Means: Fast Adaptive Clustering with no Bounds. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 87-99. [本文引用:1]
[20] XIE Q, ZHANG Q H, XIA S Y, et al. GBG++: A Fast and Stable Granular Ball Generation Method for Classification. IEEE Transactions on Emerging Topics in Computational Intelligence, 2024, 8(2): 2022-2036. [本文引用:1]
[21] PENG X L, WANG P, XIA S Y, et al. VPGB: A Granular-Ball Based Model for Attribute Reduction and Classification with Label Noise. Information Sciences, 2022, 611: 504-521. [本文引用:1]
[22] ZHANG Q H, WU C Y, XIA S Y, et al. Incremental Learning Based on Granular Ball Rough Sets for Classification in Dynamic Mixed-Type Decision System. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(9): 9319-9332. [本文引用:2]
[23] XIE J, KONG W Y, XIA S Y, et al. An Efficient Spectral Clus-tering Algorithm Based on Granular-Ball. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(9): 9743-9753. [本文引用:2]
[24] HU Q H, YU D R, LIU J F, et al. Neighborhood Rough Set Based Heterogeneous Feature Subset Selection. Information Sciences, 2008, 178(18): 3577-3594. [本文引用:1]