基于模糊自信息的乐观多粒度模糊决策粗糙集的属性约简
盖灿灿1, 马建敏1
1.长安大学 理学院 西安 710064
通信作者:

马建敏,博士,教授,主要研究方向为粗糙集、粒计算、概念格、三支决策、统计学习方法、数据分析.E-mail:cjm-zm@126.com.

作者简介:

盖灿灿,硕士研究生,主要研究方向为粗糙集、粒计算.E-mail:gaicancan7711@126.com.

摘要

现有多粒度模糊粗糙集的属性约简方法常以固定阈值定义属性集的模糊相似关系,然而模糊决策信息系统上每个属性取值范围不同,阈值也可能不一样.因此,文中提出基于自适应阈值的乐观多粒度模糊决策粗糙集,并探讨基于模糊自信息的属性约简.首先,在模糊决策信息系统上应用分位数引入单属性阈值,构造属性集上基于自适应阈值的模糊相似关系,建立属性子集族上的乐观多粒度模糊决策粗糙集.然后,利用乐观多粒度模糊决策下、上近似及边界域信息提出模糊自信息,并引入属性重要性度量,提出基于模糊自信息的属性约简算法.在10个数据集上的数值实验表明,文中算法可有效降低原始属性集的维数,提升分类器精度.

关键词: 多粒度模糊粗糙集; 模糊决策信息系统; 模糊相似关系; 属性约简; 自适应阈值
中图分类号:TP18
Attribute Reduction of Optimistic Multi-granularity Fuzzy Decision Rough Sets Based on Fuzzy Self-Information
GAI Cancan1, MA Jianmin1
1. School of Sciences, Chang'an University, Xi'an 710064
Corresponding author:
MA Jianmi, Ph.D., professor. Her research interests include rough sets, granular computing, concept lattice, three-way decisions, statistical learning methods and data analysis.

About Author:
GAI Cancan, Master student.Her research interests include rough sets and granular computing.

Abstract

In current attribute reduction methods for multi-granularity fuzzy rough sets, the fuzzy similarity relationship within attribute sets is often defined using a fixed threshold. However, in fuzzy decision systems, different thresholds are required for different attributes, since each attribute has a different value range. To address this issue, the attribute reduction of optimistic multi-granularity fuzzy decision rough sets based on fuzzy self-information is proposed in this paper. First, within the fuzzy decision information system, the threshold for each attribute is introduced based on the quantile to construct an adaptive-threshold-based fuzzy similarity relation. An optimistic multi-granularity fuzzy decision rough set model for a family of attribute subsets is then established. Second, fuzzy self-information is proposed by utilizing the lower and upper approximations of optimistic multi-granularity fuzzy decision rough set model and boundary domain information. Furthermore, an attribute significance measure is introduced, and an attribute reduction algorithm based on fuzzy self-information is developed. The experimental results on ten datasets demonstrate that the proposed algorithm effectively reduces the dimensionality of the original attribute set and improves the classification accuracy.

Key words: Multi-granulation Fuzzy Rough Set; Fuzzy Decision Information System; Fuzzy Similarity Relation; Attribute Reduction; Adaptive Threshold

随着网络技术的迅猛发展, 各领域数据量急剧增长, 部分数据存在模糊性且可能与分类任务无关.如何从海量数据中剔除冗余信息, 高效提取有价值的知识或信息, 成为亟待解决的难题[1].属性约简是解决该难题的有效方法之一, 即从原始数据集中去除冗余及与分类任务无关的属性, 提升分类效率和精度[2].

粗糙集理论是处理数据不确定性的有效方法, 因不需要任何先验信息而被广泛应用于属性约简[3].在此基础上, Qian等[4]提出MGRS(Multi-gra-nulation Rough Set Model), 并给出相应属性约简方法.谢立等[5]以正域和边界集变化度量粒度重要度, 提出改进的悲观多粒度粗糙集属性粒度约简方法.Cui等[6]提出DmlMNRS(Distance Metric Lear-ning-Based Multi-granularity Neighborhood Rough Set Model).刘凯等[7]提出基于辨识矩阵的不完备多粒度约简.张文娟等[8]提出基于图的悲观多粒度粗糙集粒度约简.Xu等[9]提出乐观和悲观两种多粒度模糊粗糙集.Zhang等[10]提出GMFNRS(Generalized Multi-granulation Fuzzy Neighborhood Rough Set Model), 给出相应启发式属性约简方法.

信息熵是信息论中一种不确定性度量方法[11].苗夺谦[12]将香农熵引入粗糙集, 为知识粗糙性提供一种信息解释.Zeng等[13]将经典信息熵扩展为乐观多粒度熵和悲观多粒度熵, 并据此提出OMGE(Optimistic Multi-granulation Entropy)和PMGE(Pe-ssimistic Multi-granulation Entropy).Wang等[14]在邻域粗糙集上提出基于邻域自信息的属性约简方法, 考虑决策下、上近似及边界域的信息, 降低误分类的可能性.Li等[15]在模糊粗糙集上引入局部模糊自信息和重叠度函数, 提升属性约简效率并增强对大规模数据的处理能力.Jiang等[16]在散度模糊粗糙集上提出SPESI(Spearman-Based Self-Information).陈东晓等[17]在决策形式背景上利用信息熵提出熵协调和熵不协调的决策形式背景的属性约简方法.李金海等[18]在多粒度决策形式背景中提出协调粒度约简方法、最粗协调粒度约简方法、最细协调粒度约简方法.

针对混合数据集, Sun等[19]在悲观多粒度模糊粗糙集上提出FNMRS(Feature Selection Based on Fuzzy Neighborhood Multi-granulation Rough Sets).鉴于信息系统中噪声、不确定性和模糊性等问题仍然存在, 基于信息熵的多粒度模糊粗糙集属性约简研究颇具意义.

模糊二元关系是构造多粒度模糊粗糙集的首要步骤, 学者围绕相似关系的构建方法展开研究.Zhang等[10]提出GMFNRS, 结合欧氏距离定义广义多粒度模糊粗糙集上属性子集的相似关系.Sun等[19]提出FNMRS, 在悲观多粒度模糊粗糙集上使用固定阈值, 对每个属性定义模糊相似关系, 进而定义属性子集的模糊相似关系.Yuan等[20]提出FRU- AR(Fuzzy Rough-Based Unsupervised Attribute Reduc- tion Algorithm), 采用标准差与经验参数定义单属性邻域阈值以构建模糊相似关系, 可适应数据分布.Sun等[21]应用标准差与极差确定混合数据的模糊邻域阈值, 并引入高斯核函数构建模糊相似关系.徐久成等[22]提出基于双空间模糊邻域相似关系的多标记特征选择算法, 在多标记数据中使用所有标记标准差的均值定义阈值, 进而定义模糊相似关系.Chen等[23]提出GDAD(Fuzzy Granule Density-Based Anomaly Detection Algorithm), 采用分位数定义邻域阈值, 构建基于距离的模糊相似关系, 降低对异常值的敏感性.

大多数多粒度模糊粗糙集常以固定阈值定义任意属性子集的模糊相似关系, 由此引入多粒度模糊粗糙下、上近似.然而, 对于模糊决策信息系统而言, 每个属性的类型不同、属性取值范围不一, 导致其数据分布也有差异, 对所有属性使用固定阈值难以准确刻画属性子集的模糊相似关系, 进而影响属性约简的分类性能.受文献[20]和文献[23]的启发, 本文使用分位数定义单属性阈值, 提出自适应阈值的乐观多粒度模糊决策粗糙集.首先, 在模糊决策信息系统上应用分位数定义单属性对应的阈值, 构建属性子集下基于自适应阈值的模糊相似关系, 建立属性子集族上的乐观多粒度模糊决策粗糙集.然后, 利用乐观多粒度模糊决策下、上近似及边界域的信息, 定义乐观多粒度模糊精度和粗糙度, 构建模糊自信息(Fuzzy Self-Information, FSI), 进而给出基于模糊自信息的属性约简算法(Fuzzy Self-Information-Based Attribute Reduction, FSIAR).最后, 通过数值实验验证FSIAR的有效性.

1 预备知识

FDS=(U, CD, f, VD, g)为模糊决策信息系统[24], 其中, U为非空有限对象集, 称为论域, C为条件属性集, D={d}为决策属性, CD=Ø , fU× C→ [0, 1], ∀ xU, aC, f(x, a)∈ [0, 1]表示对象x在条件属性a下的取值, gU× DVD, VD为决策属性d的值域.使用P(U)表示U上经典子集全体, F(U)表示U上模糊集全体[24].

AC, RA为由A诱导的模糊关系, ∀ xU, yU, 若RA满足

RA(x, x)=1, RA(x, y)=RA(y, x),

RAU上的模糊相似关系[24].∀ xU, yU, 记

[x]A(y)=RA(x, y),

称[x]Ax关于RA的模糊信息粒.

定义1[24]FDS=(U, CD, f, VD, g)为模糊决策信息系统,

U/D={D1, D2, …, Dr}

U关于D的划分, RC为由C诱导的模糊相似关系.∀ xU, DiU/D, Di的模糊决策如下所示:

D~i(x)= [x]CDi[x]C.

$\widetilde{D}=\left\{\widetilde{D}_{1}, \widetilde{D}_{2}, \cdots, \widetilde{D}_{r}\right\}$

为{D1, D2, …, Dr}上关于C的模糊决策粒覆盖.

定义2[9]U为论域, RU上的模糊相似关系.∀ X∈ F(U), ∀ xU, X关于一系列模糊相似关系Ri(1≤ im)的乐观多粒度模糊下、上近似分别定义如下:

$\underline{\underset{i=1}{\overset{m}{\mathop{\sum }}}\, R_{i}^{O}}(X)(x)=\vee _{i=1}^{m}{{\wedge }_{y\in U}}((1-{{R}_{i}}(x, y))\vee X(y)) $

$\overline{\underset{i=1}{\overset{m}{\mathop{\sum }}}\, R_{i}^{O}}(X)(x)=\wedge _{i=1}^{m}{{\vee }_{y\in U}}({{R}_{i}}(x, y)\wedge X(y)) $

2 基于自适应阈值的乐观多粒度模糊决策粗糙集

传统的多粒度模糊粗糙集通常依赖固定阈值定义属性子集上的模糊相似关系.然而, 由于不同属性的取值范围与数据分布存在显著差异, 统一阈值难以适配所有属性, 容易导致相似性度量失真.为此, 本文借鉴文献[20]和文献[23]的思路, 将Hyndman等[25]提出的基于线性插值计算分位数的方法引入模糊决策信息系统, 设置可调节的位置修正项, 计算任意属性下对象间距离顺序统计量的第k分位数, 并将其作为该属性的自适应阈值.基于此阈值定义任意属性子集下的模糊相似关系及模糊信息粒, 进而构建基于自适应阈值的乐观多粒度模糊决策粗糙集模型.

给定模糊决策信息系统FDS=(U, CD, f, VD, g), ∀ aC, xiU, xjU, 对象xixj在属性a下的距离定义如下:

${{d}_{a}}({{x}_{i}}, {{x}_{j}})=\left| f({{x}_{i}}, a)-f({{x}_{j}}, a) \right|$.

记|U|=n, 则属性a下对象间的距离构成一个n阶矩阵, 记为

Ma= [da(xi, xj)]n×n.

由于

da(xi, xi)=0, da(xi, xj)=da(xj, xi),

因此, 仅需考虑该距离矩阵Ma不含主对角线元素的上三角部分, 记为 Ma+, 则

Ma+=

0da(x1, x2)da(x1, xn-1)da(x1, xn)00da(x2, xn-1)da(x2, xn)000da(xn-1, xn)0000n×n.

显然, 矩阵 Ma+中有 12n(n-1)个距离值, 按行展开, 记为da(xi, xj), i=1, 2, …, n-1, j=i+1, i+2, …, n.

采用统计学中由样本建立顺序统计量的方法, 将上述 12n(n-1)个距离值按照从小到大的顺序排列, 记为 da(1), da(2), …, da(t), 满足

da(1)da(2)≤ …≤ da(t),

da(i)∈ {da(xi, xj)∶ i=1, 2, …, n-1, j=i+1, i+2, …, n}, t= 12n(n-1).

下面利用分位数引入任意属性的阈值.

定义3FDS=(U, CD, f, VD, g)为模糊决策信息系统, n=|U|, ∀ aC, Ma+为属性a的严格上三角距离矩阵, 按行展开距离数据da(xi, xj), i=1, 2, …, n-1, j=i+1, i+2, …, n, 按照从小到大的顺序排列为 da(1), da(2), …, da(t), t= 12n(n-1).给定分位数参数k∈ (0, 1), 属性a的阈值 δak定义为该属性下距离值顺序统计量的第k分位数, 即

$\delta _{a}^{k}=d_{a}^{(\left\lfloor tk+m \right\rfloor)}+(tk+m-\left\lfloor tk+m \right\rfloor)(d_{a}^{(\left\lfloor tk+m \right\rfloor +1)}-d_{a}^{(\left\lfloor tk+m \right\rfloor)}) $, (1)

其中, ⌊· 」表示向下取整, m∈ [0, 1]表示位置修正项.记

Ck={δakaC},

称为条件属性集C在分位数参数k下的自适应阈值集合.

式(1)在文献[25]的基础上将位置修正项m的取值范围由全体实数限制在区间[0, 1]内, 使 δak限制在 da(tk)da(tk+1)da(tk+2)之间.具体而言, 当

0≤ tk-⌊tk」≤ 1-m

时,

da(tk)δakda(tk+1),

1-m< tk-⌊tk」< 1

时,

da(tk+1)< δak< da(tk+2),

这样既能有效约束分位位置, 又能保证阈值 δak随分位数参数k变化的平滑性.

特别地, 当m=0.5时, 属性a的阈值

δak= da(tk+0.5)+(tk+0.5-⌊tk+0.5」)(da(tk+0.5+1)- da(tk+0.5)).

该式为文献[25]中关于分位数的第5个公式, 满足分位数的所有性质.

分位数是一个位置指标, 针对每个属性下对象间的距离值, 采用线性插值法计算分位数, 以此作为该属性的阈值, 使得至少100k%的对象关于单属性的距离值小于等于 δak.该方法衡量对象在该属性下的距离值顺序统计量中的相对位置, 而不受数据绝对大小和量纲的影响.

定义4FDS=(U, CD, f, VD, g)为模糊决策信息系统, ∀ aC, k∈ (0, 1), δakm δCk, ∀ xU, yU, 属性a的模糊相似关系定义如下:

Rak(x, y)= exp(-da(x, y)22σ2), da(x, y)δak0, 其它(2)

其中σ 为高斯核宽度.∀ AC, 定义

RAk= aARak,

RAk为属性子集A的模糊相似关系.∀ yU, 模糊信息粒 [x]Ak满足

[x]Ak(y)= RAk(x, y).

DiU/D, xU, Di的模糊决策为:

D~i(x)= [x]CkDi[x]Ck.(3)

性质1FDS=(U, CD, f, VD, g)为模糊决策信息系统, ∀ AC, A1C, A2C, k∈ (0, 1), k1∈ (0, 1), k2∈ (0, 1), ∀ aC, xU, 下列性质成立:

1)k1k2δak1δak2,

2)k1k2RAk1RAk2, [x]Ak1[x]Ak2,

3)A1A2RA2kRA1k, [x]A2k[x]A1k.

证明 先证1).∀ aC, k1∈ (0, 1), k2∈ (0, 1), k1k2, 有

t· k1+mt· k2+m

t· k1+m」≤ ⌊t· k2+m」,

t· k1+m-⌊t· k1+m」≤ t· k2+m-⌊t· k2+m」.

由定义3知

$\begin{array}{l} d_{a}^{\left(\left\lfloor t k_{1}+m\right\rfloor\right)}+ \\ \quad\left(t k_{1}+m-\left\lfloor t k_{1}+m\right\rfloor\right)\left(d_{a}^{\left(\left\lfloor t k_{1}+m\right\rfloor+1\right)}-d_{a}^{\left(\left\lfloor t k_{1}+m\right\rfloor\right)}\right) \leqslant \\ d_{a}^{\left(\left\lfloor t k_{2}+m\right\rfloor\right)}+ \\ \quad\left(t k_{2}+m-\left\lfloor t k_{2}+m\right\rfloor\right)\left(d_{a}^{\left(\left\lfloor t k_{2}+m\right\rfloor+1\right)}-d_{a}^{\left(\left\lfloor t k_{2}+m\right\rfloor\right)}\right) \end{array}$

δak1δak2.

再证2).设k1k2.∀ aAC, 由1)知 δak1δak2.∀ xU, yU, 由式(2)知, 若

da(x, y)≤ δak1,

$R_{a}^{{{k}_{1}}}(x, y)=\exp \left( -\frac{{{d}_{a}}{{(x, y)}^{2}}}{2{{\sigma }^{2}}} \right)=R_{a}^{{{k}_{2}}}(x, y) $;

δak1< da(x, y)≤ δak2,

$R_{a}^{{{k}_{1}}}(x, y)=0\le \exp \left( -\frac{{{d}_{a}}{{(x, y)}^{2}}}{2{{\sigma }^{2}}} \right)=R_{a}^{{{k}_{2}}}(x, y) $;

δak2< da(x, y),

Rak1(x, y)=0= Rak2(x, y).

xy的任意性得

Rak1Rak2,

a的任意性知

RAk1RAk2.

进一步地, ∀ xU, yU,

[x]Ak1(y)= RAk1(x, y)≤ RAk2(x, y)= [x]Ak2(y),

x的任意性得

[x]Ak1[x]Ak2.

最后证3).设A1A2, 由定义4知,

$\begin{array}{c} R_{A_{2}}^{k}=\bigcap_{a \in A_{2}} R_{a}^{k}=\left(\bigcap_{a \in A_{1}} R_{a}^{k}\right) \cap\left(\bigcap_{a \in A_{2}-A_{1}} R_{a}^{k}\right)= \\ R_{A_{1}}^{k} \cap R_{A_{2}-A_{1}}^{k} \subseteq R_{A_{1}}^{k} . \end{array}$

xU, yU,

[x]A2k(y)= RA2k(x, y)≤ RA1k(x, y)= [x]A1k(y),

故由x的任意性知

[x]A2k[x]A1k.

定义5FDS=(U, CD, f, VD, g)为模糊决策信息系统,

$\begin{array}{l} \mathcal{A}=\left\{A_{1}, A_{2}, \cdots, A_{m}\right\} \subseteq \mathscr{P}(C), \\ \widetilde{D}=\left\{\widetilde{D}_{1}, \widetilde{D}_{2}, \cdots, \widetilde{D}_{r}\right\} \end{array}$

U上的模糊决策粒覆盖, k∈ (0, 1).∀ B⊆A, D~关于条件属性子集族B的乐观多粒度模糊决策下、上近似分别定义如下:

$\begin{array}{l} \underline{R}_{\mathcal{B}}^{O, k}(\widetilde{D})=\left\{\underline{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{1}\right), \underline{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{2}\right), \cdots, \underline{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{r}\right)\right\}, \\ \bar{R}_{\mathcal{B}}^{O, k}(\widetilde{D})=\left\{\bar{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{1}\right), \bar{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{2}\right), \cdots, \bar{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{r}\right)\right\} . \end{array}$

其中, D~j关于条件属性子集族B的乐观多粒度模糊下、上近似分别定义如下:

$\underline{R}_{\mathcal{B}}^{o, k}\left(\widetilde{D}_{j}\right)(x)=\bigvee_{A_{i} \in \mathcal{B}} \bigwedge_{y \in U}\left(\left(1-[x]_{A_{i}}^{k}(y)\right) \vee \widetilde{D}_{j}(y)\right), $(4)

$ \bar{R}_{\mathcal{B}}^{o, k}\left(\widetilde{D}_{j}\right)(x)=\bigwedge_{A_{i} \in \mathcal{B}} \bigvee_{y \in U}\left([x]_{A_{i}}^{k}(y) \wedge \widetilde{D}_{j}(y)\right) . $ (5)

D~关于条件属性子集族B的乐观多粒度模糊正域$ \operatorname{POS}_{\mathcal{B}}^{O, k}(\widetilde{D}) $、边界域$ B N D_{\mathcal {B}}^{O, k}(\widetilde{D}) $分别定义如下:

$ \begin{array}{l} \operatorname{POS}_{\mathcal{B}}^{O, k}(\widetilde{D})=\bigcup_{j=1}^{r} \underline{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{j}\right), \\ \operatorname{BND}_{\mathcal{B}}^{O, k}(\widetilde{D})=\bigcup_{j=1}^{r} \bar{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{j}\right)-\bigcup_{j=1}^{r} \underline{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{j}\right) . \end{array} $

D~关于B的乐观多粒度模糊精度$ \alpha_{\mathcal{B}}^{O, k}(\widetilde{D}) $和乐观多粒度模糊粗糙度$ \rho_{\mathcal{B}}^{o, k}(\widetilde{D}) $分别定义如下:

$ \alpha_{\mathcal{B}}^{O, k}(\widetilde{D})=\frac{\left|\underline{R}_{\mathcal{B}}^{O, k}(\widetilde{D})\right|}{\left|\overline{R_{\mathcal{B}}^{O, k}}(\widetilde{D})\right|}=\frac{\sum_{j=1}^{r} \sum_{x \in U} \underline{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{j}\right)(x)}{\sum_{j=1}^{r} \sum_{x \in U} \bar{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{j}\right)(x)}, $ (6)

$ \rho_{\mathcal{B}}^{O, k}(\widetilde{D})=1-\frac{\left|\underline{R}_{\mathcal{B}}^{O, k}(\widetilde{D})\right|}{\left|\bar{R}_{\mathcal{B}}^{O, k}(\widetilde{D})\right|}=\frac{\sum_{x \in U} B N D_{\mathcal{B}}^{O, k}(\widetilde{D})(x)}{\sum_{j=1}^{r} \sum_{x \in U} \bar{R}_{\mathcal{B}}^{O, k}\left(\widetilde{D}_{j}\right)(x)} . $ (7)

性质2FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ∀ B⊆A, C⊆A, D~jD~, 下列性质成立:

1) R¯BO, k(D~j)D~jR¯BO, k(D~j),

2) R¯BO, k(D~j)= AiBR¯Aik(D~j),

R¯BO, k(D~j)= AiBR¯Aik(D~j),

3)C⊆B⇒ R¯CO, k(D~j)R¯BO, k(D~j),

R¯BO, k(D~j)R¯CO, k(D~j),

4)A1A2⊆…⊆AmR¯BO, k(D~j)= R¯AmO, k(D~j),

R¯BO, k(D~j)= R¯AmO, k(D~j),

其中,

$\begin{align} & \underline{R}_{{{A}_{i}}}^{k}({{{\tilde{D}}}_{j}})={{\wedge }_{y\in U}}((1-[x]_{{{A}_{i}}}^{k}(y))\vee {{{\tilde{D}}}_{j}}(y), \ \\ & \overline{R}_{{{A}_{i}}}^{k}({{{\tilde{D}}}_{j}})={{\vee }_{y\in U}}([x]_{{{A}_{i}}}^{k}(y)\wedge {{{\tilde{D}}}_{j}}(y)) \\ \end{align}$

证明 由式(4)和式(5)可证2)成立, 由2)可证3)成立, 由性质1中3)和性质2中2)可证4)成立.下证1)成立.∀ Ai∈ B, xU, yU, 由定义4知

[x]Aik(x)=1,

则有

$\begin{align} & {{\wedge }_{y\in U}}((1-[x]_{{{A}_{i}}}^{k}(y))\vee {{{\tilde{D}}}_{j}}(y))= \\ & \{{{\wedge }_{y\ne x}}((1-[x]_{{{A}_{i}}}^{k}(y))\vee {{{\tilde{D}}}_{j}}(y))\}\wedge {{{\tilde{D}}}_{j}}(x)\le {{{\tilde{D}}}_{j}}(x) \\ \end{align}$

故由Ai的任意性得

$\begin{array}{l} \underline{R}_{\mathcal{B}}^{o, k}\left(\widetilde{D}_{j}\right)(x)= \\ \quad \bigvee_{A_{i} \in \mathcal{B}} \bigwedge_{y \in U}\left(\left(1-[x]_{A_{i}}^{k}(y)\right) \vee \widetilde{D}_{j}(y)\right) \leqslant \\ \quad \widetilde{D}_{j}(x)\end{array}$

x的任意性即得

R¯BO, k(D~j)D~j.

类似可证

D~jR¯BO, k(D~j).

性质3FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ∀ C⊆A, B⊆A, 下列性质成立:

1)0≤ αBO, k(D~)≤ 1, 0≤ ρBO, k(D~)≤ 1,

2)C⊆B ⇒ αCO, k(D~)αBO, k(D~),

ρBO, k(D~)ρCO, k(D~),

3)A1A2⊆…⊆AmαAO, k(D~)= αAmO, k(D~),

βAO, k(D~)= βAmO, k(D~).

证明 由性质2可证结论成立.

3 基于模糊自信息的属性约简算法

Wang等[14]应用决策的下、上近似及边界信息提出基于邻域自信息的属性约简方法.基于此方法, 本节在模糊决策信息系统上, 利用乐观多粒度模糊决策下、上近似及其边界域, 提出模糊自信息(FSI), 并应用其讨论乐观多粒度模糊决策粗糙集上的属性约简方法.

定义6FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ∀ B⊆A, D~关于B的模糊自信息定义如下:

FSIBO, k(D~)=- ρBO, k(D~)ln αBO, k(D~).(8)

性质4FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ∀ C⊆A, B⊆A, 下列性质成立:

1)0≤ FSIBO, k(D~)< +$ \infty$, 当 αBO, k(D~)=1时,

FSIBO, k(D~)=0,

αBO, k(D~)→ 0时,

FSIBO, k(D~)→ +$\infty$,

2)C⊆B⇒ FSIBO, k(D~)FSICO, k(D~),

3)A1A2⊆…⊆Am

FSIAO, k(D~)= FSIAmO, k(D~).

证明 由性质3中1)与3)可证1)与3)成立.下证2)成立.设C⊆B, 由性质3中3)知

αCO, k(D~)αBO, k(D~),

0≤ -ln αBO, k(D~)≤ -ln αCO, k(D~),

0ρBO, k(D~)ρCO, k(D~)1,

因此

FSIBO, k(D~)FSICO, k(D~).

定义7FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ∀ ε ≥ 0, A∈ A, 若

FSIA-AO, k(D~)- FSIAO, k(D~)ε ,

A在A中是ε -不必要的, 否则, 称A在A中是ε -必要的.∀ B⊆A, 若

FSIBO, k(D~)- FSIAO, k(D~)ε ,

且∀ A∈ B,

FSIB-AO, k(D~)- FSIBO, k(D~)> ε ,

称B是A的ε -约简.记{Bi∶ 1≤ it}为A的所有ε -约简集.若

Ai=1tBi,

Aε -核心属性集, 并记

Coreε (A)= i=1tBi.

定义8FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ∀ B⊆A, A∈ B, A关于B和 D~的内重要度定义如下:

Siginter(A, B, D~)= FSIB-{A}O, k(D~)- FSIBO, k(D~).(9)

A∈ A-B, A关于B和 D~的外重要度定义如下:

Sigouter(A, B, D~)= FSIBO, k(D~)- FSIB{A}O, k(D~).(10)

定理1FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ε ≥ 0, 下列结论成立:

1)Coreε (A)={A∈ A∶ FSIA-AO, k(D~)- FSIAO, k(D~)> ε},

2)ACoreε (A)⇔ Siginter(A, A, D~)> ε .

证明 由1)和式(9)可证2)成立.下证1)成立.记

L={A∈ A∶ FSIA-AO, k(D~)- FSIAO, k(D~)> ε},

ACoreε (A), 若

FSIA-AO, k(D~)- FSIAO, k(D~)≤ ε ,

则∃B⊆A-{A},

FSIBO, k(D~)- FSIAO, k(D~)ε ,

且∀ B∈ B,

FSIB-BO, k(D~)- FSIAO, k(D~)> ε ,

即存在ε -约简集B且A∉B, 这与ACoreε (A)矛盾.于是

FSIA-AO, k(D~)- FSIAO, k(D~)> ε ,

A∈ L.由A的任意性知

Coreε (A)⊆L .

反之, ∀ A∈ L, 则

FSIA-AO, k(D~)- FSIAO, k(D~)> ε .

若存在ε -约简集B使得A∉B, 则

FSIBO, k(D~)- FSIAO, k(D~)ε .

B⊆A-{A}⊆A

及性质3中2)可得

FSIA-AO, k(D~)- FSIAO, k(D~)FSIBO, k(D~)- FSIAO, k(D~)≤ ε ,

这与A∈ L矛盾, 故ACoreε (A).由A的任意性知

L⊆Coreε (A).

综上可知,

Coreε (A)=L .

定理2FDS=(U, CD, f, VD, g)为模糊决策信息系统,

A={A1, A2, …, Am}⊆P(C),

k∈ (0, 1), ε ≥ 0, ∀ A∈ A,

A在A中是ε -不必要的⇔

Sigouter(A, A-{A}, D~)≤ ε .

证明 由定义7和式(10)可证.

根据定理1和定理2可给出基于模糊自信息的属性约简算法(FSIAR), 具体过程步骤如算法1所示.

算法1 FSIAR

输入 模糊决策信息系统

FDS=(U, CD, f, VD, g),

A={A1, A2, …, Am},

m∈ [0, 1], k∈ (0, 1), σ > 0, ε ≥ 0

输出 约简集B

step 1 设置初始值B← Ø ;

step 2 ∀ aC, 根据式(1)和式(2)计算属性a的阈值 δak和模糊相似关系 Rak, ∀ Ai∈ A, 计算模糊相似关系 RAik和模糊信息粒 [x]Aik;

step 3 根据式(3)计算模糊决策粒覆盖

D~={D~1, D~2, … D~r};

step 4 ∀ Ai∈ A, D~jD~, 计算单粒度模糊下、上近似 R¯Aik(D~j)R¯Aik(D~j), 根据性质2中2)计算 R¯A-AiO, k(D~)R¯A-AiO, k(D~), 根据式(6)和式(7)计算乐观多粒度模糊精度 αA-AiO, k(D~)和乐观多粒度模糊粗糙度 ρA-AiO, k(D~), 并根据式(8)计算 FSIA-AiO, k(D~)FSIAO, k(D~);

step 5 根据式(9)计算Siginter(Ai, A, D~), 若Siginter(Ai, A, D~)> ε , 则B← B∪ {Ai};

step 6 根据式(8)计算 FSIBO, k(D~), 若

FSIBO, k(D~)- FSIAO, k(D~)ε ,

执行step 8, 否则执行step 7;

step 7 ∀ A∈ A-B, 根据式(10)计算Sigouter(A, B, D~), 若

$\begin{array}{l} \operatorname{Sig}_{\text {outer }}(A, \mathcal{B}, \widetilde{D})= \\ \quad \max \left\{\operatorname{Sig}_{\text {outer }}(A, \mathcal{B}, \widetilde{D}): A \in A-B\right\}, \end{array}$

B← B∪ {A},

执行step 6;

step 8 输出约简集B.

4 实验及结果分析

为了验证FSIAR的有效性, 从UCI数据库上选取10个数据集进行实验, 实例数从70到1 482, 属性数从6到205, 具体信息如表1所示.

表1 数据集信息 Table 1 Dataset information

由于部分数据存在缺失, 实验前对缺失数据运用均值法进行填充, 并应用最大最小归一化方法对数据进行归一化处理[26], 得到模糊决策信息系统.

为了便于与其它属性约简算法对比, 本文将单属性作为一个属性子集进行实验[5].实验中对所有数据集采用十折交叉验证, 使用CART(Classification and Regression Trees)和KNN(k-Nearest Neighbor)(K=3)两种经典分类器对属性约简算法的分类性能进行评估[20].

4.1 参数分析

FSIAR含位置修正项m、分位数参数k、高斯核宽度σ 和约简参数ε , 其不同取值将对实验结果产生一定影响.为了分析各数据集上不同参数对约简结果的影响, 将高斯核宽度σ 设置为1[27], m以0.1步长在区间[0, 1]内间隔取值, k以0.1步长在[0.1, 0.9]内间隔取值, ε 以0.005步长在[0, 0.05]内间隔取值.首先分析m取不同值时在各数据集上获得的最高分类精度和选取的属性数.

为了直观展示这一现象, 在Ionosphere、Divorce Predictors数据集上, 分别采用CART、KNN分类器, 不同m值对应的最高分类精度及选取的属性数如表2所示, 其余数据集结果类似.

表2 m不同时2个数据集上的最高分类精度与选取的属性数 Table 2 Highest classification accuracy and the number of selected attributes under different m on 2 datasets

表2可知, 不同m值下的分类精度差异较小, 表明FSIAR对[0, 1]区间上m的选择具有较强的鲁棒性.当m=0.5时, 式(1)满足分位数的所有性质, 故本文在后续实验中将位置修正项m设为0.5.在此设定下, 进一步分析分位数参数k、约简参数ε 对分类精度的影响, 在不同分位数参数k和约简参数ε 下, 在10个数据集上采用CART分类器得到的分类精度变化趋势如图1所示, 采用KNN分类器得到的曲面图与CART分类器大致相同.

图1 不同kε 下CART分类器在10个数据集上的分类精度曲面图Fig.1 CART classification accuracy for 10 datasets under different parameters k and ε

由图1可知, 随着参数的变化, CART分类器分类精度不同.10个数据集上两个分类器分类精度最高时选择的分位数参数和约简参数取值组合如表3所示.

表3 针对2个分类器选择的参数取值组合 Table 3 Parameter value combinations selected under two classifiers
4.2 对比实验

实验选取文献[5]方法、OMGE[13]、PMGE[13]、FRUAR[20]这4种属性约简算法作为对比算法.各算法在10个数据集上约简后选取的属性数如表4所示, 表中黑体数字表示各数据集上基于CART分类器选择的最少属性数, 斜体数字表示各数据集上基于KNN分类器选择的最少属性数.由表可知, 在CART分类器上, FSIAR在5个数据集上选取的属性数最少, 文献[5]方法和FRUAR在3个数据集上选取的属性数最少, PMGE在2个数据集上选取的属性数最少.在KNN分类器上, FSIAR在6个数据集上选取的属性数最少, 文献[5]方法和FRUAR在2个数据集上选取的属性数最少, OMGE和PMGE在1个数据集上选取的属性数最少.综上所述, FSIAR在多个数据集上表现出良好的约简效果.

表4 各算法选取的属性数对比 Table 4 Comparison of the number of attributes selected by different algorithms

原始数据及各算法对表4所得约简结果在CART和KNN分类器下的分类精度如表5表6所示, 表中黑体数字表示最优值.由表可知, 在CART分类器下, FSIAR在9个数据集上取得最高分类精度, 仅在Wpbc数据集上次于OMGE.在KNN分类器下, FSIAR在10个数据集上均获得最高分类精度.

表5 CART分类器下各算法的分类精度对比 Table 5 Comparison of classification accuracy among different algorithms under CART classifier %
表6 KNN分类器下各算法的分类精度对比 Table 6 Comparison of classification accuracy among different algorithms under KNN classifier %
5 结束语

本文提出基于自适应阈值的乐观多粒度模糊决策粗糙集, 并探讨基于模糊自信息的属性约简.首先, 针对多粒度模糊粗糙集上基于固定阈值构造模糊关系的问题, 采用分位数定义单属性的阈值, 构造属性子集下基于自适应阈值的模糊相似关系.然后, 在属性子集族上提出基于自适应阈值的乐观多粒度模糊决策粗糙集.利用乐观多粒度模糊决策下、上近似及边界域的信息, 提出模糊自信息(FSI), 给出基于模糊自信息的属性约简算法(FSIAR).实验表明, FSIAR在多个数据集上可有效降低原始属性集维数并提升分类精度.今后将考虑在不完备数据集上多粒度模糊粗糙集的属性约简方法.

本文责任编委 张燕平

Recommended by Associate Editor ZHANG Yanping

参考文献
[1] WANG C Z, HUANG Y, DING W P, et al. Attribute Reduction with Fuzzy Rough Self-Information Measures. Information Sciences, 2021, 549: 68-86. [本文引用:1]
[2] 张文修, 仇国芳. 基于粗糙集的不确定决策. 北京: 清华大学出版社, 2005.
(ZHANG W X, QIU G F. Uncertain Decision Making Based on Rough Sets. Beijing, China: Tsinghua University Press, 2005. ) [本文引用:1]
[3] 庞继芳, 宋鹏, 梁吉业. 面向决策分析的多粒度计算模型与方法综述. 模式识别与人工智能, 2021, 34(12): 1120-1130.
(PANG J F, SONG P, LIANG J Y. Review on Multi-granulation Computing Models and Methods for Decision Analysis. Pattern Re-cognition and Artificial Intelligence, 2021, 34(12): 1120-1130. ) [本文引用:1]
[4] QIAN Y H, LIANG J Y, YAO Y Y, et al. MGRS: A Multi-granulation Rough Set. Information Sciences, 2010, 180(6): 949-970. [本文引用:1]
[5] 谢立, 叶军, 赖鹏飞, . 一种改进的悲观多粒度粗糙集粒度约简算法. 山东大学学报(工学版), 2024, 54(6): 38-48, 56.
(XIE L, YE J, LAI P F, et al. An Improved Granular Reduction Algorithm for Pessimistic Multi-granularity Rough Sets. Journal of Shand ong University (Engineering Science), 2024, 54(6): 38-48, 56. ) [本文引用:5]
[6] CUI S G, LI G S, SANG B B, et al. Distance Metric Learning-Based Multi-granularity Neighborhood Rough Sets for Attribute Reduction. Applied Soft Computing, 2024, 159. DOI: 10.1016/j.asoc.2024.111656. [本文引用:1]
[7] 刘凯, 谭安辉, 顾沈明. 基于辨识矩阵的不完备多粒度约简. 模式识别与人工智能, 2020, 33(9): 799-810.
(LIU K, TAN A H, GU S M. Incomplete Multi-granulation Reduction Based on Discernibility Matrix. Pattern Recognition and Artificial Intelligence, 2020, 33(9): 799-810. ) [本文引用:1]
[8] 张文娟, 李进金, 林艺东. 基于图的悲观多粒度粗糙集粒度约简. 山东大学学报(理学版), 2021, 56(1): 60-67.
(ZHANG W J, LI J J, LIN Y D. Graph-Based Granularity Reduction in Pessimistic Multi-granulation Rough Set. Journal of Shand ong University(Natural Science), 2021, 56(1): 60-67. ) [本文引用:1]
[9] XU W H, WANG Q R, ZHANG X T. Multi-granulation Fuzzy Rough Sets in a Fuzzy Tolerance Approximation Space. International Journal of Fuzzy Systems, 2011, 13(4): 246-259. [本文引用:2]
[10] ZHANG X Y, ZHAO W C. Uncertainty Measures and Feature Selection Based on Composite Entropy for Generalized Multigranulation Fuzzy Neighborhood Rough Set. Fuzzy Sets and Systems, 2024, 486. DOI: 10.1016/j.fss.2024.108971. [本文引用:2]
[11] SHANNON C E. A Mathematical Theory of Communication. The Bell System Technical Journal, 1948, 27(3): 379-423. [本文引用:1]
[12] 苗夺谦. Rough Set理论及其在机器学习中的应用研究. 博士学位论文. 北京: 中国科学院自动化研究所, 1997.
(MIAO D Q. Rough Set Theory and Its Application in Machine Learning. Ph. D. Dissertation. Beijing, China: Institute of Automation, Chinese Academy of Sciences, 1997. ) [本文引用:1]
[13] ZENG K, SHE K, NIU X Z. Multi-granulation Entropy and Its Applications. Entropy, 2013, 15(6): 2288-2302. [本文引用:3]
[14] WANG C Z, HUANG Y, SHAO M W, et al. Feature Selection Based on Neighborhood Self-Information. IEEE Transactions on Cybernetics, 2020, 50(9): 4031-4042. [本文引用:2]
[15] LI Z W, GUO R, LIN N, et al. Local Fuzzy Rough Attribute Reduction for Large-Scale Mixed Data with Limited Missing Labels Based on Local Fuzzy Self-Information. Information Sciences, 2025, 691. DOI: 10.1016/j.ins.2024.121613. [本文引用:1]
[16] JIANG J F, ZHANG X Y, YUAN Z. Feature Selection for Classification with Spearman's Rank Correlation Coefficient-Based Self-Information in Divergence-Based Fuzzy Rough Sets. Expert Systems with Applications, 2024, 249(B). DOI: 10.1016/j.eswa.2024.123633. [本文引用:1]
[17] 陈东晓, 李进金, 林荣德, . 基于信息熵的形式背景属性约简. 模式识别与人工智能, 2020, 33(9): 786-798.
(CHEN D X, LI J J, LIN R D, et al. Attribute Reductions of Formal Context Based on Information Entropy. Pattern Recognition and Artificial Intelligence, 2020, 33(9): 786-798. ) [本文引用:1]
[18] 李金海, 周新然. 多粒度决策形式背景的属性约简. 模式识别与人工智能, 2022, 35(5): 387-400.
(LI J H, ZHOU X R. Attribute Reduction in Multi-granularity Formal Decision Contexts. Pattern Recognition and Artificial Inte-lligence, 2022, 35(5): 387-400. ) [本文引用:1]
[19] SUN L, WANG L Y, DING W P, et al. Feature Selection Using Fuzzy Neighborhood Entropy-Based Uncertainty Measures for Fuzzy Neighborhood Multigranulation Rough Sets. IEEE Transactions on Fuzzy Systems, 2021, 29(1): 19-33. [本文引用:2]
[20] YUAN Z, CHEN H M, LI T R, et al. Unsupervised Attribute Reduction for Mixed Data Based on Fuzzy Rough Sets. Information Sciences, 2021, 572: 67-87. [本文引用:5]
[21] SUN L, LI M M, DING W P, et al. Adaptive Fuzzy Multi-neighborhood Feature Selection with Hybrid Sampling and Its Application for Class-Imbalanced Data. Applied Soft Computing, 2023, 149(A). DOI: 10.1016/j.asoc.2023.110968. [本文引用:1]
[22] 徐久成, 申凯丽. 基于双空间模糊邻域相似关系的多标记特征选择. 模式识别与人工智能, 2022, 35(9): 805-815.
(XU J C, SHEN K L. Multi-label Feature Selection Based on Fuzzy Neighborhood Similarity Relations in Double Spaces. Pattern Recognition and Artificial Intelligence, 2022, 35(9): 805-815. ) [本文引用:1]
[23] CHEN B Y, YUAN Z, PENG D Z, et al. Integrating Granular Computing with Density Estimation for Anomaly Detection in High-Dimensional Heterogeneous Data. Information Sciences, 2025, 690. DOI: 10.1016/j.ins.2024.121566. [本文引用:3]
[24] WANG C Z, QI Y L, SHAO M W, et al. A Fitting Model for Feature Selection with Fuzzy Rough Sets. IEEE Transactions on Fuzzy Systems, 2017, 25(4): 741-753. [本文引用:4]
[25] HYNDMAN R J, FAN Y N. Sample Quantiles in Statistical Packages. The American Statistician, 1996, 50(4): 361-365. [本文引用:3]
[26] YUAN Z, CHEN H M, XIE P, et al. Attribute Reduction Methods in Fuzzy Rough Set Theory: An Overview, Comparative Experiments, and New Directions. Applied Soft Computing, 2021, 107. DOI: 10.1016/j.asoc.2021.107353. [本文引用:1]
[27] 陈曦, 马建敏, 刘权芳. 基于模糊依赖决策熵的多标签特征选择. 昆明理工大学学报(自然科学版), 2024, 49(2): 62-72.
(CHEN X, MA J M, LIU Q F. Multi-label Feature Selection Based on Fuzzy Dependent Decision Entropy. Journal of Kunming University of Science and Technology(Natural Science), 2024, 49(2): 62-72. ) [本文引用:1]