基于模糊邻域粗糙集和特征交互的标记分布特征选择
邓大勇1,2, 许捷2, 邓志轩2, 郑忠龙2, 李天瑞3
1.浙江师范大学 行知学院 兰溪 321100
2.浙江师范大学 计算机科学与技术学院 金华 321004
3.西南交通大学 计算机与人工智能学院 成都 611756
通讯作者:

邓志轩,博士,讲师,主要研究方向为粒计算、标签分布学习.E-mail:dengzhixuan@zjnu.edu.cn.

作者简介:

邓大勇,博士,教授,主要研究方向为粒计算、心理咨询、创新理论与实践.E-mail:dayongd@163.com.

许 捷,硕士研究生,主要研究方向为粒计算、标签分布学习.E-mail:1538374957@qq.com.

郑忠龙,博士,教授,主要研究方向为粒计算、图像处理.E-mail:zhonglong@zjnu.edu.cn.

李天瑞,博士,教授,主要研究方向为粒计算、城市计算.E-mail:trli@swjtu.edu.cn.

摘要

标记分布学习现已广泛应用于标签歧义处理,但大部分算法难以从特征交互中提取足够的特征交互信息.针对此问题,文中提出基于模糊邻域粗糙集和特征交互的标记分布特征选择算法,从特征交互中提取较多的交互信息.首先,引入模糊依赖关系,度量特征与标签的相关性,重新定义特征间的相关性,同时定义模糊邻域熵,量化特征之间的交互信息.然后,构造基于特征交互信息的特征交互评价指数,结合动态加权函数,计算特征的重要性.在14个LDL的真实世界数据集上的实验表明,文中算法性能较优.

关键词: 标记分布学习; 特征选择; 特征交互; 模糊邻域粗糙集
中图分类号:TP18
Feature Selection for Label Distribution Learning Based on Fuzzy Neighborhood Rough Set and Feature Interaction
DENG Dayong1,2, XU Jie2, DENG Zhixuan2, ZHENG Zhonglong2, LI Tianrui3
1. Xingzhi College, Zhejiang Normal University, Lanxi 321100
2. School of Computer Science and Technology, Zhejiang Normal University, Jinhua 321004
3. School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu 611756
Corresponding author:
DENG Zhixuan, Ph.D., lecturer. His research interests include granular computing and label distribution learning.

About Author:
DENG Dayong, Ph.D., professor. His research interests include granular computing, psychological counseling and innovation theory and practice.
XU Jie, Master student. His research interests include granular computing and label distribution learning.
ZHENG Zhonglong, Ph.D., professor. His research interests include granular computing and image processing.
LI Tianrui, Ph.D., professor. His research interests include granular computing and urban computing.

Abstract

Label distribution learning(LDL) is widely applied to handle label ambiguity. However,most algorithms are difficult to extract sufficient information from feature interactions. To address this issue, a method of feature selection for label distribution learning based on fuzzy neighborhood rough set and feature interaction(FNRI) is proposed to extract more interaction information from feature interactions. Firstly, a fuzzy dependency relation is introduced to measure the correlation between features and labels. The correlation among features is redefined, and a fuzzy neighborhood entropy is defined to quantify the interaction information between features. Secondly, a feature interaction evaluation index(FIE) based on feature interaction information is constructed. FIE is combined with a dynamic weighting function to calculate the importance of features. Experiments on 14 real-world datasets of LDL demonstrate the superior performance of FNRI.

Key words: Label Distribution Learning; Feature Selection; Feature Interaction; Fuzzy Neighborhood Rough Set

多标签学习(Multi-label Learning, MLL)和标签分布学习(Label Distribution Learning, LDL)是解决标签歧义的两种范式[1, 2].近年来MLL在文档分类[3]、自然灾害预测[4]、工业故障诊断[5]、视频检测[6]等方面得到广泛应用.然而, MLL假设每个标签对实例的重要性相同, 这在实际应用中往往不成立.为了克服这一局限, Geng等[2]提出LDL, 标注每个标签的重要性, 较好地解决标签歧义问题.现LDL已广泛应用于各种场景, 如分类[7]、人脸识别[8]、年龄预测[9]、性格识别[10]、人群计数[11]等.

高维数据[12]是当前数据挖掘领域面临的核心挑战之一.在理论上, 更多数据通常有助于提升模型性能, 但是在实际上, 高维数据不仅占用大量存储资源, 还可能因冗余信息过多而导致模型精度下降.因此, 如何有效降维成为一个关键问题.

特征选择[13]作为一种重要的降维方法, 受到学者的广泛关注.Liu等[14]提出LLSL, 结合标签的重要性与多标签特征选择的相关性.Zhang等[15]提出LSMFS(Multi-label Feature Selection Method Consi- dering Label Supplementation)和MLSMFS(Multi-label Feature Selection Method Considering Maximum Label Supplementation), 充分研究动态变化的标签关系.Qian等[16]提出MLDFC(Multi-label Feature Selection Based on Label Distribution and Feature Com- plementarity), 通过粒子计算获得案例相关标签的显著性.Deng等[17]提出NFEM, 引入双相似度, 度量特征与标签之间的相似度, 并设计一种邻域模糊熵, 作为特征评价指标.上述算法在部分问题上已实现有效降维, 但难以处理具有不确定性的LDL任务, 因此需要更优的处理不确定性的工具.

信息论[18]可从不确定性测度的角度为特征选择提供一种思路, 粗糙集[19]是处理不确定性特征选择的有效工具, 这两种方法结合成为LDL特征选择算法的一种常态.Wang等[20]基于模糊粗糙集和互信息, 提出FSFrMI, 计算标签与特征之间的相关性.Qian等[21]结合颗粒球的概念, 在颗粒球计算的基础上, 与模糊粗糙集结合, 提出GBFRS(Granular Ball Computing-Based Fuzzy Rough Set).Shi等[22]基于广义多粒度模糊邻域粗糙集, 与复合熵结合, 提出ML-ReliefF(Multi-label Feature Selection Method Using Mutual Information and Improved Multilabel ReliefF).Xu等[23]提出结合模糊粗糙集和互信息的属性约简算法, 用于基因筛选和癌症分类, 效果显著.然而, 现有大多数特征选择算法对特征之间的交互作用及交互信息考虑不足, 可能导致重要特征未被选择, 影响分类性能与准确性.

尽管现有研究如MLDFC[16]在一定程度上考虑特征间的协同作用, 但其核心思想仍侧重于通过特征的互补性增强标签相关的判别信息, 本质上是一种基于相关性加和的改进策略, 未能深入揭示特征之间在信息层面的交互机制.为此, 本文提出基于模糊邻域粗糙集和特征交互的标记分布特征选择算法(Feature Selection for Label Distribution Learning Based on Fuzzy Neighborhood Rough Set and Feature Interaction, FNRI), 定义的特征交互不仅关注特征之间对标签分布的联合影响, 还强调特征在共同作用时产生的信息增益.首先, 引入模糊依赖相关性, 度量特征和标签之间的相关性.考虑特征之间的相互作用, 重新定义特征之间的交互和冗余.然后, 定义LDL中的模糊邻域熵, 用于量化特征之间的交互信息, 在此基础之上定义特征交互评价指数(Fea-ture Interaction Evaluation, FIE), 并且结合一个可动态更新的特征权重, 计算特征重要性.在14个真实世界数据集上的实验表明, FNRI性能较优.

1 基础知识
1.1 模糊邻域粗糙集

给定模糊决策系统$D S=(U, C \cup d, g) $, 其中, $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$表示实数空间中的非空有限集, $C=\left\{c_{1}, c_{2}, \cdots, c_{m}\right\}$表示条件属性的非空有限集, d表示决策属性的非空有限集, 只包含一个决策属性, 且Cd=Ø ,

$g: U \times(C \cup d) \rightarrow V$,

表示映射函数, 对于∀ 属性bCd和对象xU, gb(x) 表示对象x在属性b上的取值.在标签分布学习中, 特征值通常经过归一化处理, 因此gb(x)∈ [0, 1].

给定模糊决策系统DS=(U, Cd, g), 属性子集NC, 在U上导出模糊二元关系RN, 对于∀ xU, yU, 当RN为模糊相似关系时, 如下性质成立.

1)自反性: $R_{N}(x, x)=1$,

2)对称性: $R_{N}(x, y)=R_{N}(y, x) $.

定义1[24] 给定模糊决策系统DS=(U, Cd, g), ε 表示样本的模糊邻域半径, 用于控制相似性判定的阈值.对于∀ bC和∀ xU, yU, b上的两个对象xy之间的模糊邻域相似关系定义如下:

$\begin{array}{l} R_{b}(x, y)= \left\{\begin{array}{ll} 0, & \left|g_{b}(x)-g_{b}(y)\right|> \varepsilon \\ 1-\left|g_{b}(x)-g_{b}(y)\right|, & \left|g_{b}(x)-g_{b}(y)\right| \leqslant \varepsilon \end{array}\right. \end{array}$

定义1表明:当两个对象在属性b上的差异超过半径ε 时, 被视为完全不相似; 反之, 相似度随差异增大而线性递减.

定义2[24] 当考虑多个属性时, 需要融合单个属性的相似关系.对于属性子集NC, 对象xyN上的模糊相似关系定义为各属性上相似度的最小值, 即

$R_{N}(x, y)=\min _{b \in N}\left([x]_{b}(y)\right) $

定义2采用“ 取小” 算子, 体现粗糙集理论中“ 不可分辨关系” 的核心理念:两个对象在属性子集N上被认为相似, 当且仅当它们在N中的每个属性上都相似.这种融合方式保证相似关系的传递性基础, 是构建模糊邻域颗粒的前提.

在获得属性子集N上的模糊相似关系后, 可进一步构造每个对象xN上的模糊邻域颗粒.给定模糊决策系统$D S=(U, C \cup d, g), N \subseteq C, \forall x \in U$, 对象x相对于N的模糊邻域颗粒定义如下:

$[x]_{N}^{\varepsilon}(y)=\left\{\begin{array}{ll} 0, & R_{N}(x, y)< 1-\varepsilon \\ R_{N}(x, y), & R_{N}(x, y) \geqslant 1-\varepsilon \end{array}\right. $

其中

$[x]_{N}^{\varepsilon}=\left\{[x]_{N}^{\varepsilon}\left(y_{1}\right), [x]_{N}^{\varepsilon}\left(y_{2}\right), \cdots, [x]_{N}^{\varepsilon}\left(y_{n}\right)\right\}, $

表示对象x在属性子集N上的模糊邻域颗粒集合.

定义3[24] 对于$\forall x \subseteq U, [x]_{N}^{\varepsilon}(y)$表示xU 的模糊邻域颗粒, 则N上的模糊邻域下近似和上近似分别表示如下:

$\begin{array}{l} \underline{R_{N}^{\varepsilon}}(X)=\left\{x \mid[x]_{N}^{\varepsilon} \subseteq X, x \in U\right\}, \\ \overline{R_{N}^{\varepsilon}}(X)=\left\{x \mid[x]_{N}^{\varepsilon} \cap X \neq \emptyset, x \in U\right\} . \end{array}$

RNε¯(X)、 RNε¯(X) 被称为模糊邻域粗糙集(Fuzzy Neighborhood Rough Set, FNRS).

定义4[24] 给定模糊决策系统$D S=(U, C \cup d, g), \forall d_{j} \in U / d=\left\{d_{1}, d_{2}, \cdots, d_{s}\right\}$, dN上的模糊邻域正区域为:

${POS}_{N}^{\varepsilon}(d)=\bigcup_{j=1}^{s} \underline{R_{N}^{\varepsilon}}\left(d_{j}\right) . $

定义5[25] 给定模糊决策系统$D S=(U, C \cup d, g) $, d相对于N的模糊依赖度定义如下:

$\Phi_{N}^{\varepsilon}(d)=\frac{{POS}_{N}^{\varepsilon}(d)}{|U|}=\frac{1}{|U|} \sum_{x_{p} \in U} {POS}_{N}^{\varepsilon}(d)\left(x_{p}\right) . $

1.2 模糊信息熵

信息熵是量化随机变量不确定性的基本工具.

定义6[25] 给定模糊决策系统$D S=(U, C \cup d, g) $, NC, N上的模糊信息熵为:

$F E(N)=-\frac{1}{|U|} \sum_{p=1}^{|U|} \log _{2}\left(\frac{\left|\left[x_{p}\right]_{N}^{\varepsilon}\right|}{|U|}\right), $

其中, [xp ]Nε表示模糊信息粒, 由

$\left|\left[x_{p}\right]_{N}^{\varepsilon}\right|=\sum_{q=1}^{|U|}\left[x_{p}\right]_{N}^{\varepsilon}\left(x_{p}, x_{q}\right) $

计算得到, $ 1 \leqslant\left|\left[x_{p}\right]_{N}^{\varepsilon}\right| \leqslant|U| . $

定义7[25] 给定模糊决策系统$D S=(U, C \cup d, g)$, NC, Nd的模糊联合熵定义如下:

$F E(N, d)=-\frac{1}{|U|} \sum_{p=1}^{|U|} \log _{2}\left(\frac{\left|\left[x_{p}\right]_{N}^{\varepsilon} \cap\left[x_{p}\right]_{d}^{\varepsilon}\right|}{|U|}\right) . $

2 基于模糊邻域粗糙集和特征交互的标记分布特征选择算法
2.1 基于标签分布的正区域

相比普通的名义标签, LDL中的标签具有不同的重要性级别, 并且携带更多的信息.因此, 为了在处理数据的同时保留更多信息, 模糊相似关系被用于标记空间的量化.更多的信息保留使算法在处理不确定性时更有优势.

定义8 给定标签分布决策系统$L D S=(U, C \cup d, g) $, 其中$d=\left\{d_{1}, d_{2}, \cdots, d_{s}\right\}$表示标签集合, 对于$\forall d_{h} \in d, \tau_{d_{h}}^{\alpha}$表示定义在U上的模糊等价关系, 相应$d_{h}$的模糊等价关系矩阵为:

$\boldsymbol{M}\left(\tau^{d_{h}}\right)=\left[\begin{array}{cccc} \tau_{d_{h}}^{\alpha}\left(x_{1}, x_{1}\right) & \tau_{d_{h}}^{\alpha}\left(x_{1}, x_{2}\right) & \cdots & \tau_{d_{h}}^{\alpha}\left(x_{1}, x_{n}\right) \\ \tau_{d_{h}}^{\alpha}\left(x_{2}, x_{1}\right) & \tau_{d_{h}}^{\alpha}\left(x_{2}, x_{2}\right) & \cdots & \tau_{d_{h}}^{\alpha}\left(x_{2}, x_{n}\right) \\ \vdots & \vdots & & \vdots \\ \tau_{d_{h}}^{\alpha}\left(x_{n}, x_{1}\right) & \tau_{d_{h}}^{\alpha}\left(x_{n}, x_{2}\right) & \cdots & \tau_{d_{h}}^{\alpha}\left(x_{n}, x_{n}\right) \end{array}\right], $

其中,

$\tau_{d_{h}}^{\alpha}\left(x_{i}, x_{j}\right)=1-\Delta_{d_{h}}\left(x_{i}, x_{j}\right), $

Δdh(xi, xj) 表示样本xixj在标签dh上的取值差异, 由于标签值已归一化至[0, 1]区间, 该差异值可直接采用绝对值距离进行计算, 即

$\Delta_{d_{h}}\left(x_{i}, x_{j}\right)=\left|g_{d_{h}}\left(x_{i}\right)-g_{d_{h}}\left(x_{j}\right)\right|, $

取值范围为[0, 1].

定义9 给定标签分布决策系统LDS =(U, Cd, g), τdα表示定义在U上的模糊等价关系, 类似地, d的模糊等价关系矩阵为:

$\boldsymbol{M}\left(\tau_{d}^{\alpha}\right)=\left[\begin{array}{cccc} \tau_{d}^{\alpha}\left(x_{1}, x_{1}\right) & \tau_{d}^{\alpha}\left(x_{1}, x_{2}\right) & \cdots & \tau_{d}^{\alpha}\left(x_{1}, x_{n}\right) \\ \tau_{d}^{\alpha}\left(x_{2}, x_{1}\right) & \tau_{d}^{\alpha}\left(x_{2}, x_{2}\right) & \cdots & \tau_{d}^{\alpha}\left(x_{2}, x_{n}\right) \\ \vdots & \vdots & & \vdots \\ \tau_{d}^{\alpha}\left(x_{n}, x_{1}\right) & \tau_{d}^{\alpha}\left(x_{n}, x_{2}\right) & \cdots & \tau_{d}^{\alpha}\left(x_{n}, x_{n}\right) \end{array}\right], $

其中,

$\tau_{d}^{\alpha}\left(x_{i}, x_{j}\right)=\left\{\begin{array}{ll} \widetilde{\tau}_{d}^{\alpha}\left(x_{i}, x_{j}\right), & \widetilde{\tau}_{d}^{\alpha}\left(x_{i}, x_{j}\right) \geqslant 1-\alpha \\ 0, & \text { 其它 } \end{array}\right. $

表示样本xixj之间的相似度,

$\widetilde{\tau}_{d}^{\alpha}\left(x_{i}, x_{j}\right)=\sum_{h=1}^{n} W\left(d_{h}\right) \tau_{d_{h}}^{\alpha}\left(x_{i}, x_{j}\right) \text {, }$

表示加权融合单个标签的模糊等价关系,

$W\left(d_{h}\right)=\frac{1}{|U|} \sum_{i=1}^{s} d_{h}\left(x_{i}\right) $

表示指示标签对整个标签集d的重要性权重函数.

定义10 给定标签分布决策系统LDS =(U, Cd, g), 候选特征fkC和标签分布d之间的模糊相关性定义如下:

$D_{\mathrm{rel}}\left(f_{k}, d\right)=\Phi_{f_{k}}^{\varepsilon}(d)=\frac{1}{|U|} \sum_{x_{i} \in U} {POS}_{f_{k}}^{\varepsilon}(d)\left(x_{i}\right) .$ (1)

引入模糊依赖相关性, 可在数据处理中提取更多的模糊信息.此外, 模糊依赖相关性反映标签与特征之间的依赖关系, 并能量化特征对分类的贡献程度.

2.2 标记分布学习中的模糊邻域熵

为了考虑特征之间的相互作用并获得更多的特征相互作用信息, 引入粗糙集模型, 与熵的不确定性测度结合, 可在处理复杂数据时保留更多的特征交互信息.粗糙集模型被用于量化由上下近似之间的差异引起的不确定性.这种不确定性的度量仅捕获与属性子集中存在的特征关联的不确定性.为了增强决策分析, 提出基于模糊邻域粗糙集的联合熵.

定义11 给定标签分布决策系统LDS = (U, Cd, g), U = {x1, x2, ···, xn}, ∀ NC, 对标签d的预测结果如下:

LD={LD1, LD2, ···, LDs},

其中,

LDj={LDj(x1), LDj(x2), ···, LDj(xn)},

表示由d划分的对象的模糊邻域等价类.当k=1, 2, ···, n, ∀ xU, yU,

$L D_{j}\left(x_{k}\right)=\frac{\left|\left[x_{k}\right]_{N}^{\varepsilon} \cap L D_{j}\right|}{\left|\left[x_{k}\right]_{N}^{\varepsilon}\right|}, $

表示xkULDjN上的隶属度, [xk ]Nε表示N上对象的模糊邻域相似度, j=1, 2, ···, s.

定义12 给定标签分布决策系统LDS =(U, Cd, g), N上的模糊邻域熵

$F N E(N)=-\sum_{k=1}^{n}\left(\frac{\left|\left[x_{k}\right]_{N}^{\varepsilon}\right|}{|U|} \log _{2}\left(\frac{\left|\left[x_{k}\right]_{N}^{\varepsilon}\right|}{|U|}\right)\right), $

Nd的模糊邻域联合熵

$\begin{array}{l} {FNE}(N ; d)= \\ -\sum_{j=1}^{s} \sum_{k=1}^{n}\left(\frac{\left|\left[x_{k}\right]_{N}^{\varepsilon} \cap L D_{j}\right|}{|U|} \log _{2}\left(\frac{\left|\left[x_{k}\right]_{N}^{\varepsilon} \cap L D_{j}\right|}{|U|}\right)\right) . \end{array}$

其中:xkU, k=1, 2, ···, n; LDj表示对象的模糊邻域等价类, j =1, 2, ···, s; [xk]NεLDj表示[xk ]Nε中隶属度不大于LDj的对象数.

定义13 给定标签分布决策系统LDS=(U, Cd, g), 特征fkC表示当前的候选特征.特征fk为标签分布d提供的模糊信息被定义为来自特征fk的模糊邻域熵增益:

$F N G\left(f_{k} ; d\right)=F N E\left(f_{k}, d\right)-F N E\left(f_{k}\right)-F N E(d) . $

定义13表示单个特征fk与标签d之间的模糊邻域熵增益, 是一种由单一特征提供的模糊邻域熵增益.通过该定义可量化特征为标签分布提供的模糊信息.

定义14 给定标签分布决策系统LDS = (U, Cd, g), fkC, fqC表示当前的候选特征.特征fkfq为标签分布d提供的模糊信息被定义为来自特征fkfq的模糊邻域熵增益:

$\begin{array}{l} F N G\left(f_{k}, f_{q} ; d\right)= \\ \quad F N E\left(f_{k}, f_{q} ; d\right)-F N E\left(f_{k}, d\right)-F N E\left(f_{q}, d\right) . \end{array}$

定义14表示特征fkfq与标签d之间的模糊邻域熵增益, 是由两个特征提供的一种模糊邻域熵增益.

本节利用模糊相似关系定义两种类型的模糊邻域熵和两种类型的模糊邻域熵增益.模糊相似关系是由相似关系扩展而来.当标签之间的关系使用模糊相似关系而不是相似关系表示时, 标签之间的关系包含更多的信息.因此, 模糊邻域熵比相应的熵包含更多的信息.当它们用于特征选择时, 模糊邻域熵具有更大的范围和更多的选择.同样, 模糊邻域熵增益可提供更多的信息、更大的域和更多的选择.

2.3 特征交互和特征冗余

在选择特征子集的过程中, 传统的特征选择算法通常会根据特征与标签的相关性, 逐一添加与标签相关的特征, 丢弃认为是冗余的特征.然而, 这些冗余特征仍可能为分类提供有价值的信息.这是因为一般的特征选择算法往往会忽略特征之间的交互作用和潜在的模糊信息, 无法准确判断特征是否真正冗余.因此, 根据特征交互对标签分布的影响, 重新定义特征之间的冗余和交互.

1)特征交互.此类特征不能直接为分类提供足够的模糊信息, 表面上与冗余特征相似, 但在分类过程中, 可与其它特征相互作用, 为划分和学习提供重要的模糊信息.

2)特征冗余.此类特征与标签具有一定的相关性, 但包含的信息可被当前已选特征子集充分覆盖.在已选特征的基础上, 加入该类特征无法为标签分布提供额外的有效信息.这类特征应被排除在最终特征子集之外, 避免信息冗余和计算开销.

定义15 给定标签分布决策系统LDS=(U, Cd, g), TC表示选择的特征子集, fkC-T, fqC- T-{fk}表示两个候选特征, fkfqd之间的特征交互信息(Feature Interaction Information, FII)定义如下:

$\begin{array}{l} F I I\left(f_{k}, f_{q} ; d\right)= \\ \quad F N G\left(f_{k}, f_{q} ; d\right)-F N G\left(f_{k} ; d\right)-F N G\left(f_{q} ; d\right) . \end{array}$

定义15通过两个特征与标签之间的模糊邻域熵增益减去单个特征与标签之间的模糊邻域熵增益, 表示3个变量之间的特征交互程度, 该程度被用于描述特征之间关于标签的联合交互.因此, 可使用FII(fk, fq; d)量化特征之间的交互和冗余.

定义16 给定标签分布决策系统LDS=(U, Cd, g), TC表示选择的特征子集, fkC- T, fqC-T-{fk}表示两个候选特征, fkfqd之间的特征交互评价指数(FIE)定义如下:

${FIE}\left(f_{k} ; f_{q}\right)=\frac{{FII}\left(f_{k}, f_{q} ; d\right)}{{FNE}\left(f_{k}\right)+{FNE}\left(f_{q}\right)} .$ (2)

通过FII从两个特征各自的模糊邻域熵之和得到一个相对的模糊邻域熵增益作为特征交互的评价指数.FIE(fk; fq)可进一步区分特征之间的交互和冗余关系.当FIE(fk; fq)≤ 0时, 特征fkfq无法提供有效的特征交互信息, 它们之间的关系是冗余的.FIE(fk; fq)≥ 0时, 特征fkfq之间的交互作用能为特征选择提供有效的特征交互信息, 它们之间的关系是交互的.

在此基础上, 将FIE与一个权重函数结合, 并在特征选择过程中不断更新该权重函数, 用于优化特征选择结果.

定义17 给定标签分布决策系统LDS=(U, Cd, g), fkC, fqC表示当前的候选特征, fk的特征权重函数定义如下:

σ (fk)← σ (fk)(FIE(fk, fq)+1). (3)

本文算法既利用FIE衡量特征之间的交互作用, 也利用FIE动态调整每个特征的重要性权重.所有特征的初始权重函数σ (fk)设为1.随着选择的进行, 权重函数不断更新, 用于反映每个特征的重要性, 确保识别最优的特征子集.

定义18 给定标签分布决策系统LDS=(U, Cd, g), fkC, fqC- {fk}, fk相对于fq的重要性定义如下:

SIG(fk, fq)=σ (fk)Drel(fk, d). (4)

Drel(fk, d)是决定一个特征能否被选择的重要指标, 将该值与特征权重函数σ (fk)相乘, 得到特征重要性度量, 所有特征重要性构成重要性矩阵SIG(fk, fq).在每轮特征选择过程中会依次将SIG(fk, fq)中重要性最大的特征加入特征子集中.选择一个特征后, 会根据该特征的FIE对权重函数σ (fk)进行动态更新, 再进行下一轮特征选择.

本文主要考虑特征之间的两两交互, 即通过FIE(fk; fq)量化两个特征联合作用时产生的信息增益.这一设计主要基于如下原因.高阶交互(3个及以上特征之间的协同作用)在现实数据中普遍存在, 但对其进行精确度量面临严峻挑战.一方面, 随着交互阶数的增加, 候选特征组合的数量呈爆炸式增长, 计算复杂度急剧上升; 另一方面, 高阶交互的统计显著性检验更困难, 容易出现过拟合风险.相比之下, 两两交互能捕捉特征间最主要的协同效应, 在信息增益与计算可行性之间取得较好平衡.

在获得重要性矩阵后, 设计基于模糊邻域粗糙集和特征交互的标记分布特征选择算法(FNRI), 步骤如算法1所示.

算法1 FNRI

输入 标签分布决策系统LDS, 参数ε ,

阈值Ω , 1≤ Ω n

输出 特征子集FS

1← 0;

2.for k=1 to m do

3. σ (fk)← 1;

4. 计算Drel(fk, d); //式(1)

5.end for

6.while η Ω do

7. for ∀ fkC do

8. 计算SIG(fk, fq); //式(4)

9. end for

10. 选择具有最大矩阵SIG(fk, fq)的特征fk;

11. FSFS ∪ {fk};

12. CC- {fk};

13. for ∀ fkC do

14. for ∀ fqC-{fk} do

15. 计算FIE(fk; fq); //式(2)

16. σ (fk)← σ (fk)(FIE(fk, fq)+1); //式(3)

17. end for

18. end for

19. η +1;

20.end while

21.return FS

假设输入标签分布决策系统LDS具有n个样本、m个特征、l个标签和需要选择的Ω 个特征.首先计算特征和标签的相似度, 时间复杂度为O(n2).在步骤2~5中, 需要计算mDrel(fk, d), 时间复杂度为O(n2m).在步骤6~19中, 时间复杂度为O(n2m2Ω ).综上所述, 总的时间复杂度为O(n2m+ n2m2Ω ).最终, FNRI的最终时间复杂度为O(n2m2Ω ).

3 实验及结果分析
3.1 实验环境

实验所用计算机配置为Intel Core i7-7700 CPU@3.60 GHz和8.0 GB内存.算法程序在Matlab2022a上运行.

使用SA-BFGS[2]和十折交叉验证评估所有算法的性能.

选取的14个数据集来自http://palm.seu.edu.cn/xgeng/LDL.具体数据集信息如表1所示.

表1 实验数据集 Table 1 Experimental datasets

FNRI涉及两个关键参数:模糊邻域半径 ε 和标签空间相似度阈值α .ε 控制模糊邻域颗粒的粒度大小:取值过小会导致邻域颗粒过细, 降低算法泛化能力; 取值过大会使邻域颗粒过粗, 难以捕捉样本间的细微差异.参考模糊邻域粗糙集相关研究的通用设置[17, 24], 本文设定ε =0.001, 0.002, 0.003, 0.004, 0.005, 步长为0.001.α 控制标签空间相似度的截断阈值, 设定α =0.1, 0.2, 0.3, 0.4, 步长为0.1.该范围能覆盖从宽松到严格的相似度判别标准, 便于评估算法在不同阈值下的稳定性.

LDL的最终输出是标签分布, 这使其有别于传统的机器学习方法.选择如下6种指标测试算法性能, 包括基于距离度量的4个指标(Chebyshev、Clark、Canberra、Kullback-Leibler(KL))和基于相似性度量的2个指标(Cosine、Intersection).对于距离度量指标, 数值越小表示性能越优.对于相似度度量指标, 数值越大表示性能越优.

3.2 对比实验

本节选择如下对比算法:NFEM[17]、DIJE(Dyna-mic Interacting Feature Selection Algorithm for LDL Based on Fuzzy Joint Entropy)[25]、SCLS(Multi-label Feature Selection Method Based on a Scalable Criterion for Large Label Set)[26]、MDFS[27]、GRRO(General Opti-mization Framework Global Relevance and Redundancy Optimization)[28]、FFDS(Dynamic Feature Selection Algorithm)[29].

各算法在14个数据集上的性能对比如表2~表7所示, 表中黑体数字表示最优值.

表2 各算法在14个数据集上的Chebyshev距离对比 Table 2 Chebyshev distance comparison of different algorithms on 14 datasets
表3 各算法在14个数据集上的Clark距离对比 Table 3 Clark distance comparison of different algorithms on 14 datasets
表4 各算法在14个数据集上的Canberra距离对比 Table 4 Canberra distance comparison of different algorithms on 14 datasets
表5 各算法在14个数据集上的KL距离对比 Table 5 KL distance comparison of different algorithms on 14 datasets
表6 各算法在14个数据集上的Cosine相似度对比 Table 6 Cosine similarity comparison of different algorithms on 14 datasets
表7 各算法在14个数据集上的Intersection相似度对比 Table 7 Intersection similarity comparison of different algorithms on 14 datasets

表2可看出, 在Chebyshev距离上, FNRI在10个数据集上取得最优值, 占比为71%.FFDS仅在Yeast-elu数据集上取得最优值.DIJE在Yeast-cdc、Yeast-elu、Yeast-spo、Yeast-spo5、SBU-3DFE数据集上取得最优值.

表3可看出, 在Clark距离上, FNRI在10个数据集上取得最优值, 占比为71%.FFDS仅在Yeast-heat数据集上取得最优值.DIJE在Yeast-cold、Yeast-dtt、Yeast-spoem数据集上取得最优值.

表4可看出, 在Canberra距离上, FNRI在9个数据集上取得最优值, 占比为64%.FFDS在Yeast-elu、Yeast-spo数据集上取得最优值.DIJE在Yeast-diau、SBU-3DFE、Natural Scene数据集上取得最优值.

表5可看出, 在KL距离上, FNRI在10个数据集上取得最优值, 占比为71%.FFDS在Yeast-spo、Natural Scene数据集上取得最优值.DIJE在Yeast-cdc、Yeast-elu数据集上取得最优值.

表6可看出, 在Cosine相似度上, FNRI在10个数据集上取得最优值, 占比为71%.FFDS在Yeast-alpha、Natural Scene数据集上取得最优值.DIJE在Yeast-alpha、Yeast-elu、Yeast-spo数据集上取得最优值.

表7可看出, 在Intersection相似度上, FNRI在10个数据集上取得最优值, 占比为71%.FFDS在Human Gene、Natural Scene数据集上取得最优值.DIJE在Yeast-spo、Human Gene、SBU-3DFE数据集上取得最优值.

下面分析FNRI性能优于对比算法的原因.由于对比算法都无法从特征交互中提取足够的交互信息, 因此, 随着选择特征数量的增加, 冗余信息会突然增加, 导致算法性能出现波动.相比之下, FNRI考虑特征交互, 并对冗余特征做出更严格的判断.此外, 随着特征数量的增加, 特征之间的相互作用变得更明显, 这使得FNRI可获得更多的特征交互信息, 从而提升算法性能.

因此, 在大多数情况下, FNRI的性能随着特征数量的增加而提升.这种趋势也可在表5~表7上看到, FNRI在SBU-3DFE(2 500个样本)、Human Gene(17 829个样本)等大型数据集上表现相对较优.

同时FNRI也存在一些局限性, 下面分析FNRI在某些数据集上表现不佳的原因.首先, 当特征数量较少时, 特征之间的交互不能提供充足的信息, 然而FNRI会始终选择具有潜在交互信息的特征, 这一情况较好地解释FNRI在特定的几个小数据集上表现不佳的原因.其次, 在特征选择的早期, 由于选择特征数量较少, 并且特征之间难以进行充分交互, 从而导致交互信息有限, FNRI的性能可能并不突出.但是, FNRI的性能会随着选择特征数量的增加而提升, 往往能在特征选择的中后期达到最优.

3.3 统计检验

为了有效反映FNRI和对比算法之间的性能差距, 使用Friedman检验进行统计检验.Friedman检验公式如下:

$\chi_{F}^{2}=\frac{12 N}{K(K+1)}\left(\sum_{j=1}^{K} r_{j}^{2}-\frac{K(K+1)^{2}}{4}\right), $

其中, N表示数据集数量, K表示算法数量, rj表示第 j种算法在所有数据集上的平均排名. χF2和FF在α =0.05的显著性水平上的取值如表8所示, 阈值为2.21.

表8 Friedman统计检验结果 Table 8 Friedman test results

表8可见, 在6种指标上的结果都大于2.21, 这表明算法之间存在明显差距, 因此拒绝原假设.

从3.2节实验结果对比和本节检验结果可看出, FNRI在绝大多数指标上表现最优, 其次是FFDS和DIJE, 而SCLS表现相对较差.

4 结束语

在LDL中, 特征之间的交互产生大量信息.为了在特征交互中提取较多的交互信息, 本文结合模糊邻域粗糙集的优点, 提出基于模糊邻域粗糙集和特征交互的标记分布特征选择算法(FNRI).首先, 利用模糊相似关系量化标签空间的相似度.然后, 定义LDL的模糊邻域熵, 并定义特征交互评价指数(FIE), 与动态更新的权重函数结合, 计算特征的重要性.在14个数据集上的广泛实验表明FNRI性能较优.另外, FNRI也有一定的局限性.例如:当特征子集上的特征数量很小时, 很难达到最优性能.这一特性会影响FNRI在小数据集或选择特征数量有限的数据集上的性能.今后工作将继续关注更广泛场景中的特征交互性能, 如高维数据集和噪声场景, 研究更多特征之间的复杂交互.

本文责任编委 苗夺谦

Recommended by Associate Editor MIAO Duoqian

参考文献
[1] ZHAO X Y, AN Y X, XU N, et al. Variational Continuous Label Distribution Learning for Multi-label Text Classification. IEEE Transactions on Knowledge and Data Engineering, 2024, 36(6): 2716-2729. [本文引用:]
[2] GENG X. Label Distribution Learning. IEEE Transactions on Know-ledge and Data Engineering, 2016, 28(7): 1734-1748. [本文引用:]
[3] SUN Y P, QI L Z, XU G. Classification of Extra-High Voltage Project Documents Based on Improved Multi-label Neural Network // Proc of the 5th International Conference on Applied Machine Lear-ning. Washington, USA: IEEE, 2023: 202-208. [本文引用:]
[4] CAO Q, LIU Y, WANG G X, et al. Building a Deep Learning Model for Multi-label Classification of Natural Disasters // Proc of the IEEE 3rd International Conference on Information Technology, Big Data and Artificial Intelligence. Washington, USA: IEEE, 2023: 505-509. [本文引用:]
[5] LI J, TANG H J, TANG D, et al. Multi-label Zero-Shot Learning for Industrial Fault Diagnosis // Proc of the 6th International Confe-rence on Information Communication and Signal Processing. Wa-shington, USA: IEEE, 2023: 1235-1240. [本文引用:]
[6] LE HOAI D, LIM E, CHOI E, et al. An Attention-Based Method for Multi-label Facial Action Unit Detection // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 2453-2458. [本文引用:]
[7] GENG X, LUO L R. Multilabel Ranking with Inconsistent Rankers // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2014: 3742-3747. [本文引用:]
[8] HAN H S, SÖNMEZ E B. Facial Expression Recognition on Wild and Multi-label Faces with Deep Learning // Proc of the 3rd International Conference on Electrical, Computer, Communications and Mechatronics Engineering. Washington, USA: IEEE, 2023. DOI: 10.1109/ICECCME57830.2023.10253453. [本文引用:]
[9] CHEN C, CHEN Z H, JIN X Y, et al. Attention-Guided Discriminative Region Localization and Label Distribution Learning for Bone Age Assessment. IEEE Journal of Biomedical and Health Informa-tics, 2022, 26(3): 1208-1218. [本文引用:]
[10] XUE D, HONG Z, GUO S Z, et al. Personality Recognition on Social Media with Label Distribution Learning. IEEE Access, 2017, 5: 13478-13488. [本文引用:]
[11] LING M G, GENG X. Indoor Crowd Counting by Mixture of Gau-ssians Label Distribution Learning. IEEE Transactions on Image Processing, 2019, 28(11): 5691-5701. [本文引用:]
[12] SCHÖLKOPF B, PLATT J C, SHAWE-TAYLOR J, et al. Estimating the Support of a High-Dimensional Distribution. Neural Computation, 2001, 13(7): 1443-1471. [本文引用:]
[13] ZHOU P, ZHANG Y Y, LING Z L, et al. Online Heterogeneous Streaming Feature Selection without Feature Type Information. IEEE Transactions on Big Data, 2024, 10(4): 470-485. [本文引用:]
[14] LIU J H, WEI W, LIN Y J, et al. Learning Implicit Labeling-Importance and Label Correlation for Multi-label Feature Selection with Streaming Labels. Pattern Recognition, 2024, 147. DOI: 10.1016/j.patcog.2023.110081. [本文引用:]
[15] ZHANG P, LIU G X, GAO W F, et al. Multi-label Feature Selec-tion Considering Label Supplementation. Pattern Recognition, 2021, 120. DOI: 10.1016/j.patcog.2021.108137. [本文引用:]
[16] QIAN W B, LONG X D, WANG Y L, et al. Multi-label Feature Selection Based on Label Distribution and Feature Complementarity. Applied Soft Computing, 2020, 90. DOI: 10.1016/j.asoc.2020.106167. [本文引用:]
[17] DENG Z X, LI T R, DENG D Y, et al. Feature Selection for Label Distribution Learning Using Dual-Similarity Based Neighborhood Fuzzy Entropy. Information Sciences, 2022, 615: 385-404. [本文引用:]
[18] ASH R B. Information Theory. New York, USA: Dover Publications, 1965. [本文引用:]
[19] PAWLAK Z, SKOWRON A. Rudiments of Rough Sets. Information Sciences, 2007, 177(1): 3-27. [本文引用:]
[20] WANG Z H, CHEN H M, YUAN Z, et al. Exploiting Fuzzy Rough Mutual Information for Feature Selection. Applied Soft Computing, 2022, 131. DOI: 10.1016/j.asoc.2022.109769. [本文引用:]
[21] QIAN W B, XU F K, HUANG J T, et al. A Novel Granular Ball Computing-Based Fuzzy Rough Set for Feature Selection in Label Distribution Learning. Knowledge-Based Systems, 2023, 278. DOI: 10.1016/j.knosys.2023.110898. [本文引用:]
[22] SHI E H, SUN L, XU J C, et al. Multilabel Feature Selection Using Mutual Information and ML-ReliefF for Multilabel Classification. IEEE Access, 2020, 8: 145381-145400. [本文引用:]
[23] XU F F, MIAO D Q, WEI L. Fuzzy-Rough Attribute Reduction via Mutual Information with an Application to Cancer Classifica-tion. Computers and Mathematics with Applications, 2009, 57(6): 1010-1017. [本文引用:]
[24] ZHANG X Y, ZHAO W C. Uncertainty Measures and Feature Selection Based on Composite Entropy for Generalized Multigranulation Fuzzy Neighborhood Rough Set. Fuzzy Sets and Systems, 2024, 486. DOI: 10.1016/j.fss.2024.108971. [本文引用:]
[25] DENG D Y, XU J, DENG Z X, et al. Feature Selection Based on Fuzzy Joint Entropy and Feature Interaction for Label Distribution Learning. Information Processing and Management, 2025, 62(6). DOI: 10.1016/j.ipm.2025.104234. [本文引用:]
[26] LEE J, KIM D W. SCLS: Multi-label Feature Selection Based on Scalable Criterion for Large Label Set. Pattern Recognition, 2017, 66: 342-352. [本文引用:]
[27] ZHANG J, LUO Z M, LI C D, et al. Manifold Regularized Discriminative Feature Selection for Multi-label Learning. Pattern Recognition, 2019, 95: 136-150. [本文引用:]
[28] ZHANG J, LIN Y D, JIANG M, et al. Fast Multilabel Feature Selection via Global Relevance and Redundancy Optimization. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(4): 5721-5734. [本文引用:]
[29] DENG D Y, CHEN T, DENG Z X, et al. Dynamic Feature Selection Based on F-Fuzzy Rough Set for Label Distribution Learning. International Journal of Fuzzy Systems, 2024, 26(8): 2688-2706. [本文引用:]