廖淑娇 ,博士,教授,主要研究方向为粒计算、数据挖掘、人工智能.E-mail:sjliao2011@163.com.
作者简介:
吴 迪,硕士研究生,主要研究方向为粗糙集、粒计算、数据挖掘.E-mail:wudi20172021@163.com.
范译文,硕士研究生,主要研究方向为粗糙集、粒计算、数据挖掘等.E-mail:1483426583@qq.com.
对多尺度决策系统进行处理可以使复杂的问题简单化,属性与尺度的同步选择是该处理过程中一个重要方法.此外,现实中数据处理经常需要考虑代价因素的影响,但是,目前研究还没有在属性与尺度的同步选择中考虑代价因素.为了解决这一问题,文中基于测试代价,研究协调多尺度决策系统的属性与尺度选择.首先,构造相应的粗糙集理论模型,模型中的定义及性质同时考虑属性和尺度这两个要素,并给出基于测试代价的属性-尺度重要度函数.然后,基于适用于多尺度决策系统的粗糙集概念及性质,提出属性与尺度同步选择的启发式算法.在UCI数据集上的实验表明,文中算法可大幅降低总测试代价,提升计算效率.
LIAO Shujiao, Ph.D., professor. Her research interests include granular computing, data mining and artificial intelligence.
About Author:
WU Di, master student. Her research interests include rough set, granular computing and data mining.
FAN Yiwen, master student. Her research interests include rough set, granular computing and data mining.
The processing of multi-scale decision systems can simplify the complex problem, and simultaneous selection of attributes and scales is an important method in this process. In addition, the influence of cost factors is often taken into consideration in practical data processing. However, there is no research on cost factors in the simultaneous selection of attributes and scales. To solve this problem, the method of attribute and scale selection based on test cost in consistent multi-scale decision systems is proposed in this paper. Firstly, a corresponding rough set theoretical model is constructed. Both attribute and scale are considered in definitions and properties of the constructed theoretical model, and the test cost-based attribute-scale significance function is provided. Then, on the basis of concepts and properties of rough set applicable to multi-scale decision systems, a heuristic algorithm for simultaneous selection of attributes and scales is proposed. Experiments on UCI dataset show that the proposed algorithm significantly reduces the total test cost and improves computational efficiency.
粗糙集理论能有效处理数据的不确定性、不完备性和不一致性等问题[1, 2].经典的Pawlak粗糙集模型假设信息系统和决策系统中的对象在每个属性下只能有一个属性值, 然而在现实生活中, 对象在某个属性下可能会有多个属性值.为了解决这一问题, Wu等[3, 4]定义多尺度决策系统(在一些研究中, 多尺度也称为多标记或多粒度), 并进行尺度选择(也称为粒度选择、标记选择或尺度组合选择), 即以保持最细尺度下的分辨能力为前提选择合适的尺度.
关于多尺度决策系统, 有一些研究主要侧重于尺度选择.Li等[5, 6]利用补模型和格模型分析多尺度决策表的最优尺度选择.李金海等[7]在多粒度背景下, 基于信息熵设计最优粒度选择算法.Chen等[8]利用序贯三支决策理论, 给出最优尺度的更新律.Zhu等[9]提出基于正区域一致性的补模型和格模型, 并给出尺度选择算法.
但是, 尺度选择更适合低维的多尺度数据集, 对于高维的多尺度数据集, 主要的研究方法之一是在尺度选择的基础上再进行属性约简.杨璇等[10]建立模糊相似关系的决策粗糙集模型, 并给出最优尺度选择和约简方法.Huang等[11]研究适用于连续数据的多尺度模糊决策系统, 提出启发式尺度选择算法和前向属性选择算法.杨烨等[12]利用证据理论, 在尺度选择的基础上, 对不协调广义多尺度序信息系统再进行规则提取. Wu等[13]首先对广义多尺度信息系统进行尺度选择, 再提取规则.
但是, 在尺度选择的基础上再进行属性约简并不适用于代价敏感的多尺度数据, 原因是此方法的目的是找到保持最细尺度下属性全集分类能力的最粗尺度组合和最小维属性子集, 然而所得属性子集在该尺度组合下的总测试代价不一定是最小的.因此对于代价敏感的多尺度数据, 需要进行属性与尺度的同步选择[14].
近年来, 一些学者开始研究多尺度决策系统中的属性与尺度的同步选择.Huang等[15]讨论基于优势度的多尺度直觉模糊决策表的最优尺度选择和规则获取算法.Zhang等[16]建立尺度空间的序贯三支决策模型, 并且结合Hasse图, 给出高效的同时选择属性与尺度的方法.Cheng等[17]提出将序贯三支决策与多尺度决策表结合的有效方法, 同时进行最优尺度选择和属性约简.张庐婧等[18]构造多尺度邻域信息粒, 并在此基础上给出可同时进行最优尺度选择和特征选择的算法.金铭等[19]结合辨识矩阵与图论, 提出最优尺度约简的算法.上述工作本质上都是在多尺度决策系统中进行属性与尺度的同步选择, 然而都未考虑代价因素.从实际应用的角度上看, 可能不够经济实用.
代价敏感学习是机器学习和数据挖掘领域的一个重要研究方向[20], 是处理分类不平衡问题或涉及代价问题的一种有效方法, 其中测试代价是经常被考虑的一种代价.现实中, 为了获得对象某个数据项的值, 往往需要对其进行测试, 而测试付出的代价就是测试代价, 并且不同数据项的测试代价可能不同.一些学者研究单尺度决策系统的代价敏感学习问题[21, 22, 23], 但对于多尺度决策系统的相关研究较少.张雪秋[24]定义代价敏感的多尺度决策系统, 并对其进行尺度选择.张清华等[25, 26]在代价敏感环境下, 分别计算多尺度决策系统的最优粒度和最优尺度组合.但是, 目前还没有多尺度决策系统中基于代价敏感的属性与尺度同步选择的相关研究工作.
鉴于上述情况, 本文在传统的协调多尺度决策系统(即属性值都是名词型的协调多尺度决策系统, 为了简便起见, 下文简称其为多尺度决策系统)中进行基于测试代价的属性与尺度同步选择.首先, 建立多尺度决策系统的粗糙集理论模型, 介绍同时考虑属性和尺度这两个要素的概念, 如等价类、上下近似、正区域、边界区域等, 并研究这些概念的性质.值得注意的是, 以往相关的粗糙集理论模型中的概念和性质往往只涉及属性和尺度这两个要素之一, 而本文模型中的概念和性质同时考虑这两个要素.然后, 提出基于测试代价的属性-尺度重要度函数, 并基于适用于多尺度决策系统的粗糙集概念及性质, 设计属性与尺度同步选择的启发式算法.该算法能选择合适的属性子集和尺度, 既保持多尺度决策系统的分辨能力不变, 又使总测试代价最小化.最后, 在10个UCI数据集上进行实验, 验证本文算法的有效性和实用性, 并与文献[18]算法、文献[19]算法以及最细尺度下的原数据(即没有进行属性约简的原数据)进行对比.实验表明, 本文算法可以大幅降低总测试代价.并且, 算法由于使用概念的单调性进行加速, 具有较高的计算效率.
本节简要回顾经典粗糙集的一些基础概念和性质.由于某些概念及性质不适用于多尺度决策系统, 因此着重介绍适用于多尺度决策系统的定义与性质, 这些定义和性质同时考虑属性和尺度这两个要素.
首先回顾经典粗糙集里的一些重要概念和性质, 如等价类、上下近似、正区域、边界区域等[1, 2, 3, 4].
在粒计算中, 信息粒子经常由等价类表示.假设U为论域, 是一个非空的有限集合, 则对于U中的任意对象x, 都存在一个关于x的等价类[x].[x]的构成与给定的属性集相关, 其中包含的所有对象在给定的属性集下与x都是不可分辨的.对象x关于属性集的等价类定义如下.
定义1[3] 称五元组
DS=(U, C, V, f, d)
为一个决策系统, 其中, U为论域, C为属性全集, a∈ C,
${{V}_{a}}=\{{{x}_{a}}|x\in U\}$
为属性a的值域, fa∶ U→ Va为信息函数, 决策属性d∉C.则对于任意对象x∈ U, x关于属性子集B⊆C的等价类定义为
${{[x]}_{B}}=\{y\in U|{{x}_{a}}={{y}_{a}}, \forall a\in B\}$,
其中xa、ya分别表示对象x和对象y在属性a下的值.换句话说, 等价类[x]B中包含的对象, 就是在属性子集B的所有属性下与对象x的属性值都相同的对象.论域U关于属性子集B的等价关系定义如下.
定义2[3] 给定一个决策系统
DS=(U, C, V, f, d), B⊆C,
则论域U关于属性子集B的等价关系定义为
${{R}_{B}}=\{(x, y)\in U\times U|{{x}_{a}}={{y}_{a}}, \forall a\in B\}$.
由定义2中对等价关系的定义, 可得到等价关系RB对论域U的划分:
$U/{{R}_{B}}=\{{{[x]}_{B}}|x\in U\}$.
等价关系可以把论域划分成多个互不相交的集合, 并且这些集合的并集是论域.
因为本文应用的上下近似是基于包含度函数定义的, 所以在引入上下近似之前需要先介绍包含度函数.
定义3[4] 给定一个决策系统
DS=(U, C, V, f, d),
对于∀ X⊆U, B⊆C, 则∀ x∈ U在X中关于属性子集B的包含度函数为:
$\mu _{B}^{X}(x)=\frac{\left| X\cap {{[x]}_{B}} \right|}{\left| {{[x]}_{B}} \right|}, x\in U, X\subseteq U$.
根据定义3, 决策系统的上下近似定义如下.
定义4[4] 给定一个决策系统
DS=(U, C, V, f, d),
对于∀ X⊆U, B⊆C, 则X关于属性子集B的下近似和上近似可以分别定义为
$\underline{{{R}_{B}}}(X)=\{x\in U|\mu _{B}^{X}(x)=1\}$,
$\overline{{{R}_{B}}}(X)=\{x\in U|\mu _{B}^{X}(x)> 0\}$.
在计算论域内所有对象x的包含度的过程中:当包含度大于0时, [x]B与X的交集非空, 对象x属于上近似; 当包含度为1时, [x]B完全包含于X, 对象x属于下近似.
在现实生活中, 对一个事物的观察经常可以得到不同尺度的观测值.对多尺度决策系统进行处理, 可以使复杂问题简单化, 从而有助于复杂问题的分析和解决.
由于1.1节的粗糙集理论知识在多尺度决策系统中并不适用, 因此为了解决这一问题, 本节介绍后续讨论过程会用到、并且适用于多尺度决策系统的粗糙集概念及性质, 这些概念和性质都涉及属性和尺度这两个要素.
为了简便起见, 假设1.1节提出的属性全集C中的属性都是多尺度属性, 且都有I个尺度.本文默认所有属性的尺度都是从细到粗的.值得注意的是, 决策属性d为特殊的单尺度属性, d∉C, 如表1所示的多尺度决策系统[4].
表1的多尺度决策系统可以分解成3个单尺度决策系统:第1个尺度决策系统、第2个尺度决策系统和第3个尺度决策系统.在下文中, 为了方便起见, 只讨论所有属性都选择相同尺度的情况, 而不讨论选择不同尺度的情况.令s表示尺度, 1≤ s≤ I, 属性全集和所选尺度结合起来可形成有序对(C, s).同样, 对于∀ B⊆C, 1≤ s≤ I, 可简写为有序对(B, s).称六元组
MSDS=(U, C, I, V, f, d)
为多尺度决策系统(Multi-scale Decision System, M-SDS).
多尺度决策系统里面的等价类具体定义如下.
定义5 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d),
对于任意的对象x∈ U, B⊆C, 1≤ s≤ I, 对象x关于有序对(B, s)的等价类定义为
${{[x]}_{(B, s)}}=\left\{ y\in U|{{x}_{(a, s)}}={{y}_{(a, s)}}, \forall a\in B \right\}$,
其中, (a, s)表示属性a选择尺度s时, 对象x的属性值和对象y的属性值相同.可见, 适用于多尺度决策系统的等价类和经典粗糙集的等价类的不同点主要是:适用于多尺度决策系统的等价类的定义既考虑属性又考虑尺度.
事实上, 多尺度决策系统中同一属性的不同尺度之间的属性值存在密切关系.给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d),
对于任意的属性a∈ C和任意的尺度s∈ {1, 2, …, I-1}, 存在满射
$g_{a}^{s, s+1}:{{V}_{(a, s)}}\to {{V}_{(a, s+1)}}$,
从而
${{x}_{(a, s+1)}}=g_{a}^{s, s+1}\circ ({{x}_{(a, s)}}), x\in U$,
称
$g_{a}^{{{s}_{1}}, {{s}_{2}}}:{{V}_{(a, {{s}_{1}})}}\to {{V}_{(a, {{s}_{2}})}}$,
其中
$g_{a}^{{{s}_{1}}, {{s}_{2}}}=g_{a}^{{{s}_{1}}, {{s}_{1}}+1}\circ g_{a}^{{{s}_{1}}+1, {{s}_{1}}+2}\circ \cdots \circ g_{a}^{{{s}_{2}}-1, {{s}_{2}}}$,
从而
${{x}_{(a, {{s}_{2}})}}=g_{a}^{{{s}_{1}}, {{s}_{_{2}}}}\circ ({{x}_{(a, {{s}_{1}})}}), x\in U$.(1)
由定义5不难得到如下关于等价类的性质.
性质1 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d), B⊆C, 1≤ s≤ I,
则∀ x∈ U, 关于(B, s)的等价类满足如下性质:
1)自反性.对于∀ x∈ U, x∈ [x](B, s);
2)对称性.对于∀ xi∈ U, xj∈ U, 若xj∈
在定义5的基础上, 可得到适用于多尺度决策系统的等价关系.
定义6 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d),
对于任意的属性子集B⊆C, 1≤ s≤ I, 则论域U关于(B, s)的等价关系可定义为
${{R}_{(B, s)}}=\{(x, y)\in U\times U|{{x}_{(a, s)}}={{y}_{(a, s)}}, \forall a\in B\}$,
故R(B, s)对论域U的划分
$U/{{R}_{(B, s)}}=\left\{ {{[x]}_{(B, s)}}|x\in U \right\}$.
结合定义6, 若R(C, 1)⊆Rd, 则称
MSDS=(U, C, I, V, f, d)
是协调的; 若R(C, 1)⊈Rd, 则称MSDS是不协调的.本文讨论的是协调的多尺度决策系统.
根据定义3和定义5更新包含度函数.更新后的包含度函数为
$\mu _{B, s}^{X}(x)=\frac{\left| X\cap {{[x]}_{(B, s)}} \right|}{\left| {{[x]}_{(B, s)}} \right|}, x\in U, X\subseteq U$.
当包含度函数大于0时, [x](B, s)与X的交集非空, 此时x属于上近似; 当包含度函数等于1时, [x](B, s)包含于X, 此时x属于下近似.基于更新后的包含度函数, 不难得到适用于多尺度决策系统的上下近似.
定义7 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d),
∀ X⊆U, B⊆C, 1≤ s≤ I, 则X关于(B, s)的上下近似定义如下:
$\underline{{{R}_{(B, s)}}}(X)=\{x\in U|\mu _{B, s}^{X}(x)=1\}$,
$\overline{{{R}_{(B, s)}}}(X)=\{x\in U|\mu _{B, s}^{X}(x)> 0\}$.
定义8 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d), B⊆C, 1≤ s≤ I,
决策属性d可将U划分成互不相交的多个集合, 设
U/{d}={X1, X2, …, XK},
则决策属性d关于(B, s)的上下近似可表示为
$\underline{{{R}_{(B, s)}}}(d)=\bigcup\nolimits_{i=1}^{K}{\underline{{{R}_{(B, s)}}}}({{X}_{i}})$,
$\overline{{{R}_{(B, s)}}}(d)=\bigcup\nolimits_{i=1}^{K}{\overline{{{R}_{(B, s)}}}({{X}_{i}})}$.
由上式可以容易看出, 决策属性关于(B, s)的上(下)近似是
U/{d}={X1, X2, …, XK}
中所有划分Xi的上(下)近似的并集.事实上, 下近似
$PO{{S}_{(B, s)}}(d)=\underline{{{R}_{(B, s)}}}(d)=\bigcup\nolimits_{i=1}^{K}{\underline{{{R}_{(B, s)}}}}({{X}_{i}}).$.
决策属性d关于(B, s)的上近似与下近似的差为边界区域:
$\begin{align} & B{{N}_{(B, s)}}(d)=\overline{{{R}_{(B, s)}}}(d)-\underline{{{R}_{(B, s)}}}(d) \\ & =\overline{{{R}_{(B, s)}}}(d)-PO{{S}_{(B, s)}}(d). \end{align}$.
由定义8得到如下性质2.
性质2 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d), B⊆C, 1≤ s≤ I,
则
1)POS(Ø , s)(d)=Ø ,
2)
3)POS(B, s)(d)∩ BN(B, s)(d)=Ø ,
4)POS(B, s)(d)∪ BN(B, s)(d)=U.
上述介绍的等价类、上下近似、正区域和边界区域等概念分别关于属性子集和尺度存在单调性, 这些单调性可以加速算法, 减少算法的计算量.
性质3 关于属性子集的单调性 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d), B1⊆B2⊆C, 1≤ s≤ I,
则满足如下性质:
1)$\forall x\in U, {{[x]}_{({{B}_{1}}, s)}}\supseteq {{[x]}_{({{B}_{2}}, s)}}$;
2)${{R}_{({{B}_{1}}, s)}}\supseteq {{R}_{({{B}_{2}}, s)}}$;
3)$\forall X\in U/\{d\}, \underline{{{R}_{({{B}_{1}}, s)}}}(X)\subseteq \underline{{{R}_{({{B}_{2}}, s)}}}(X), \overline{{{R}_{({{B}_{1}}, s)}}}(X)\supseteq \overline{{{R}_{({{B}_{2}}, s)}}}(X)$;
4)$PO{{S}_{({{B}_{1}}, s)}}(d)\subseteq PO{{S}_{({{B}_{2}}, s)}}(d), B{{N}_{({{B}_{1}}, s)}}(d)\supseteq B{{N}_{({{B}_{2}}, s)}}(d)$.
证明 先证1).对于$\forall x'\in {{[x]}_{({{B}_{2}}, s)}}$, 由定义5可知
$x{{'}_{(a, s)}}={{x}_{(a, s)}}\forall a\in {{B}_{2}}$.
由于B1⊆B2, 因此
x'(a, s)=x(a, s), ∀ a∈ B1,
故$x'\in {{[x]}_{({{B}_{1}}, s)}}$, 可得
${{[x]}_{({{B}_{1}}, s)}}\supseteq {{[x]}_{({{B}_{2}}, s)}}$.
再证2).对于$\forall (x, y)\in {{R}_{({{B}_{2}}, s)}}$, 可知
x(a, s)=y(a, s), ∀ a∈ B2.
由于B1⊆B2, 因此
x(a, s)=y(a, s), ∀ a∈ B1,
故$(x, y)\in {{R}_{({{B}_{1}}, s)}}$, 可得
${{R}_{({{B}_{1}}, s)}}\supseteq {{R}_{({{B}_{2}}, s)}}$.
再证3).对于
$\forall x\in \underline{{{R}_{({{B}_{1}}, s)}}}(X)$,
可得
${{[x]}_{({{B}_{1}}, s)}}\subseteq X$,
由性质1)可知
${{[x]}_{({{B}_{2}}, s)}}\subseteq {{[x]}_{({{B}_{1}}, s)}}\subseteq X$,
所以
$x\in \underline{{{R}_{({{B}_{2}}, s)}}}(X)$,
故而
$\underline{{{R}_{({{B}_{1}}, s)}}}(X)\subseteq \underline{{{R}_{({{B}_{2}}, s)}}}(X)$.
类似可证
$\overline{{{R}_{({{B}_{1}}, s)}}}(X)\supseteq \overline{{{R}_{({{B}_{2}}, s)}}}(X)$.
最后证4).假设
U/{d}={X1, X2, …, XK},
由性质2)可知
$\underline{{{R}_{({{B}_{1}}, s)}}}({{X}_{i}})\subseteq \underline{{{R}_{({{B}_{2}}, s)}}}({{X}_{i}}), i=1, 2, \cdots , K$.
由定义8知
$PO{{S}_{({{B}_{j}}, s)}}(d)=\bigcup\nolimits_{i=1}^{K}{\underline{{{R}_{({{B}_{j}}, s)}}}({{X}_{i}})}j=1, 2$.
因此显然
$PO{{S}_{({{B}_{1}}, s)}}(d)\subseteq PO{{S}_{({{B}_{2}}, s)}}(d)$.
同样, 由性质2)可知
$\overline{{{R}_{({{B}_{1}}, s)}}}(d)\supseteq \overline{{{R}_{({{B}_{2}}, s)}}}(d)$,
又因为
$B{{N}_{({{B}_{j}}, s)}}(d)=\overline{{{R}_{({{B}_{j}}, s)}}}(d)-PO{{S}_{({{B}_{j}}, s)}}(d), j=1, 2$,
故而
$B{{N}_{({{B}_{1}}, s)}}(d)\supseteq B{{N}_{({{B}_{2}}, s)}}(d)$.
性质3表示正区域随着属性的增多而扩大, 与此同时边界区域随着属性的增多而缩小.事实上, 不只是属性子集, 尺度也会影响上述概念的单调性, 具体如下所示.
性质4 关于尺度的单调性 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d), B⊆C, 1≤ s1≤ s2≤ I,
则满足如下关系:
1)$\forall x\in U, {{[x]}_{(B, {{s}_{1}})}}\subseteq {{[x]}_{(B, {{s}_{2}})}}$;
2)${{R}_{(B, {{s}_{1}})}}\subseteq {{R}_{(B, {{s}_{2}})}}$;
3)$\forall X\in U/\{d\}, \underline{{{R}_{(B, {{s}_{1}})}}}(X)\supseteq \underline{{{R}_{(B, {{s}_{2}})}}}(X), \overline{{{R}_{(B, {{s}_{1}})}}}(X)\subseteq \overline{{{R}_{(B, {{s}_{2}})}}}(X)$;
4)$PO{{S}_{(B, {{s}_{1}})}}(d)\supseteq PO{{S}_{(B, {{s}_{2}})}}(d), B{{N}_{(B, {{s}_{1}})}}(d)\subseteq B{{N}_{(B, {{s}_{2}})}}(d)$.
证明 先证1).由式(1)可知, 存在尺度信息转换$g_{a}^{{{s}_{1}}, {{s}_{2}}}$, 使得对于∀ x∈ U,
${{x}_{(a, {{s}_{2}})}}=g_{a}^{{{s}_{1}}, {{s}_{2}}}({{x}_{(a, {{s}_{1}})}})$.
因为对于$\forall x'\in {{[x]}_{(B, {{s}_{1}})}}$,
$x{{'}_{(a, {{s}_{1}})}}={{x}_{(a, {{s}_{1}})}}, \forall a\in B$,
所以
$x{{'}_{(a, {{s}_{2}})}}=g_{a}^{{{s}_{1}}, {{s}_{2}}}\circ (x{{'}_{(a, {{s}_{1}})}})=g_{a}^{{{s}_{1}}, {{s}_{2}}}\circ ({{x}_{(a, {{s}_{1}})}})={{x}_{(a, {{s}_{2}})}}, \forall a\in B$,
故$x'\in {{[x]}_{(B, {{s}_{2}})}}$, 可得
${{[x]}_{(B, {{s}_{1}})}}\subseteq {{[x]}_{(B, {{s}_{2}})}}$.
2)~4)的证明过程类似于性质3, 为了简便起见, 不再单独证明.
性质4表示正区域随着尺度的增大而缩小, 与此同时边界区域随着尺度的增大而扩大.
结合性质3和性质4, 可以得到如下性质5.
性质5 给定一个多尺度决策系统
MSDS=(U, C, I, V, f, d), B⊆C, 1≤ s≤ I,
则满足如下性质:
1)$\forall x\in U, {{[x]}_{(B, s)}}\supseteq {{[x]}_{(C, 1)}}$;
2)${{R}_{(B, s)}}\supseteq {{R}_{(C, 1)}}$;
3)$\forall X\in U/\{d\}, \underline{{{R}_{(B, s)}}}(X)\subseteq \underline{{{R}_{(C, 1)}}}(X), \overline{{{R}_{(B, s)}}}(X)\supseteq \overline{{{R}_{(C, 1)}}}(X)$;
4)$PO{{S}_{(B, s)}}(d)\subseteq PO{{S}_{(C, 1)}}(d), B{{N}_{(B, s)}}(d)\supseteq B{{N}_{(C, 1)}}(d)$.
证明 为了简便起见, 只证明
POS(B, s)(d)⊆POS(C, 1)(d).
因为s≥ 1, 由性质4可得
POS(C, s)(d)⊆POS(C, 1)(d).
又因为B⊆C, 由性质3可得
POS(B, s)(d)⊆POS(C, s)(d).
综上可得
POS(B, s)(d)⊆POS(C, 1)(d).
其它性质的证明是相似的, 不再赘述.
性质5表示对于任意的属性子集B, 不管该属性子集选取的尺度s是多少, 都不会比属性全集C在尺度1下的正区域更大, 边界区域则相反.
本文在属性与尺度选择的过程中, 不仅考虑多尺度决策系统的分辨能力, 而且考虑不同属性在不同尺度下的测试代价.绝大多数关于多尺度决策系统的研究只考虑分辨能力, 但是在实际应用中, 样本的测试代价可能会影响整体效能.因此把测试代价考虑进属性与尺度的选择过程, 会更适用于现实情况.
一般地, 对于同个属性来说, 尺度越细测试代价越大, 因此对于∀ a∈ C, 尺度为1时测试代价最大.假设tc(a, 1)表示属性a在尺度1下的测试代价, tc(a)表示属性a的最大测试代价, 则
tc(a)=tc(a, 1).
测试代价函数与属性的最大测试代价和尺度有关, 并且随着尺度的增大而减小.定义属性a在尺度s下的测试代价函数如下:
$tc(a, s)=\left\{ \begin{matrix} tc(a), & s=1 \\ \frac{\lambda }{s}tc(a), & 1< s\le I \\ \end{matrix} \right.$ (2)
其中, 1≤ λ < 2, 为调节系数.从分量(a, s)的测试代价函数可得出, (B, s)对应的总测试代价(Total Test Cost, TTC)为:
$TTC(B, s)=\sum\limits_{a\in B}{tc(a, s)}$.(3)
在属性子集B中增加单个属性, 这个时候正区域相比之前增加的部分称为正区域的增量(Incremental Positive Region, IPR), 则
$P{{R}_{(B, s)}}(a)=PO{{S}_{(B\cup \{a\}, s)}}(d)-PO{{S}_{(B, s)}}(d)$.
根据正区域的增量和测试代价函数, 可得到属性-尺度重要度(Attribute-Scale Significance)函数, 为了方便起见简写为sig, 即
$\begin{align} & si{{g}_{(B, s)}}(a)=|IP{{R}_{(B, s)}}(a)|\cdot {{[tc(a, s)]}^{\delta }} \\ & =\frac{|IP{{R}_{(B, s)}}(a)|}{{{[tc(a, s)]}^{|\delta |}}} \end{align}$ (4)
其中δ ≤ 0.
由式(4)可以容易看出, 该重要度函数既考虑属性的分类能力, 又考虑属性的测试代价, 并且测试代价越小或正区域的增量越大, 则属性-尺度重要度越大.注意, 当δ =0时, 是没有考虑测试代价的情况, δ 的取值越小, 测试代价对属性-尺度重要度函数的影响越大.
由此, 本文设计有效的启发式算法, 可以基于测试代价对多尺度决策系统的属性与尺度进行同步选择.算法由算法1、算法2和算法3组成, 算法1用于对比由算法2计算得出的不同尺度下的最小总测试代价, 算法2的计算过程中调用算法3.
算法1 多尺度决策系统中基于测试代价的属性与 尺度选择
输入 多尺度决策系统MSDS=(U, C, I, V, f, d), 每个属性的测试代价函数, 权重δ
输出 全局最优的属性子集R* , 最优尺度s*
1.gmttc=+¥ ; //gmttc为全局最小的TTC
2.s* =1; //s* 为最优尺度
3.R* =Ø ; //R* 为全局最优的属性子集
4.for(i=1; i++; i≤ I)do
5. R=Ø ; //R为算法2选出的属性子集
6. cmttc=0; /* cmttc为当前尺度下最小的总测试代价* /
7. 调用算法2, 得到cmttc和R;
8. if(cmttc< gmttc)then
9. gmttc=cmttc; //更新全局最小的TTC
10. R* =R; //更新全局最优的属性子集
11. s* =i; //更新最优尺度
12. end if
13.end for
14.return R* , s*
算法2 给定尺度下的决策系统中基于测试代价的属性约简
输入 第i个尺度对应的决策系统, 每个属性的测试代价函数, 权重δ
输出 当前尺度下的最优属性子集R, 对应的最小总测试代价cmttc
1.POS(R, i)(d)=Ø ; //POS(R, i)(d)为正区域
2.R=Ø ;
3.U'=U;
4.CA=C;
5.while(U'≠ Ø )do
6. for(each a∈ CA)do
7. SIGcomputing(U', R, a, i); /* 调用算法3, 返回IPR(R, i)(a)和sig(R, i)(a)* /
8. end for
9. 选择a'使sig(R, i)(a')=max(sig(R, i)(a));
10. if(sig(R, i)(a')> 0)then
11. R=R∪ {a'}; //更新5个变量
12. POS(R, i)(d)=POS(R, i)(d)∪ IPR(R, i)(a');
13. CA=CA-{a'};
14. U'=U'-IPR(R, i)(a');
15. cmttc=TTC(R, i); //根据式(3)计算
16. else
17. exit while;
18. end if
19.end while
20.return cmttc, R
算法3SIGcomputing
输入 正区域之外的对象集合U', 所选的属性子集R和尺度i, 未被选择的属性a
输出 正区域的增量IPR(R, i)(a), 属性-尺度重要度sig(R, i)(a)
1.IPR(R, i)(a)=Ø ;
2.for(each x∈ U')do
3. 计算[x](R∪ {a}, i); /* 计算对象x关于新的属性集和尺度的等价类* /
4. if(∃X∈ U/{d}, 使得[x](R∪ {a}, i)⊆X)then
5. IPR(R, i)(a)=IPR(R, i)(a)∪ {x}; /* 更新正区域的增量* /
6. end if
7.end for
8.根据式(2)计算tc(a, i);
9.$si{{g}_{(R, i)}}(a)=|IP{{R}_{(R, i)}}(a)|\cdot {{[tc(a, i)]}^{\delta }}$; /* 根据式(4)计算属性-尺度重要度* /
10.return IPR(R, i)(a), sig(R, i)(a)
算法1调用算法2, 得出不同尺度下的最优属性子集和最小总测试代价.之后对比不同尺度下的最小总测试代价, 选出最小值和其对应的属性子集, 该属性子集即为全局最优的属性子集, 该总测试代价为全局最小的总测试代价.算法2主要用于在保持分辨能力不变的前提下, 计算给定尺度下总测试代价最小的最优属性子集, 过程中会调用算法3.算法3可得到增加单个属性后正区域的增量和属性-尺度重要度函数.
值得注意的是, 算法中两次运用概念的单调性进行加速.首先, 性质3中正区域关于属性子集的单调性运用于算法2中的第14行,
U'=U'-IPR(R, i)(a').
若论域中的某个对象已经被判定属于某一属性子集相应的正区域, 则在该属性子集中增加属性后, 该对象也一定属于新属性子集相应的正区域.这种方法使得U'中的对象随着属性的选择越来越少, 即需要判断是否属于正区域的对象越来越少.然后, 算法3中第3行计算等价类的过程中运用性质3中等价类关于属性子集的单调性, 增加属性后的等价类一定包含于增加属性前的等价类.因此要想得到增加属性后的等价类, 只需要对增加之前的等价类中的对象进行排查即可, 不需要再遍历整个论域, 这样大幅减少计算量.
本文算法由算法1、算法2和算法3组成, 并且算法1调用算法2, 算法2调用算法3, 所以首先分析算法3的时间复杂度.计算对象x的等价类是算法3的主要步骤, 该步骤最坏情况下的时间复杂度为
$O(|U|(|R|+1))$,
则算法3的时间复杂度为
$O(|U'||U|(|R|+1))$.
假设选择的属性子集的基数为$|R|=h$, 并且每增加一个属性平均可以将
$|U'|=|U|(1-\frac{i}{h})=|U|\frac{h-i}{h}\text{ }i=0, 1, 2, \cdots , h-1, h$,
故算法2的时间复杂度为
$\begin{align} & O(|C||U{{|}^{2}}+2(|C|-1)|U{{|}^{2}}\left( \frac{h-1}{h} \right)+ \\ & 3(|C|-2)|U{{|}^{2}}\left( \frac{h-2}{h} \right)+\cdots + \\ & h(|C|-h+1)|U{{|}^{2}}\left( \frac{1}{h} \right))= \\ & O(\frac{|U{{|}^{2}}}{h}\sum\limits_{i=0}^{h-1}{(i+1)(h-1)(|C|-i)}). \\ \end{align}$
综合算法2和算法3的时间复杂度, 容易得出在最坏情况下, 算法1的时间复杂度为
$O(\frac{|I||U{{|}^{2}}}{h}\sum\limits_{i=0}^{h-1}{(i+1)(h-1)(|C|-i)})$.
事实上, 由于算法3中计算等价类的步骤运用性质3中等价类关于属性子集的单调性, 因此该步骤的实际计算复杂度要小于
$O(|U|(|R|+1))$.
其次, 算法2调用性质3中正区域关于属性子集的单调性, 所以算法2的时间复杂度同样会更小.最后, 随着算法2和算法3时间复杂度的减小, 实际算法1的时间复杂度也会随之减小, 即小于
$O(\frac{|I||U{{|}^{2}}}{h}\sum\limits_{i=0}^{h-1}{(i+1)(h-1)(|C|-i)})$.
实验的硬件配置环境为包含Intel(R) Core(TM) i5-7200U CPU@2.70 GHz和4 GB内存的PC.
本文算法分别计算是否考虑测试代价时得到的属性子集和尺度对应的总测试代价, 即分别计算δ < 0和δ =0时的最优属性子集和最优尺度, 并对比它们的总测试代价.同时还与2个多尺度决策系统属性与尺度同步选择的相关算法以及最细尺度的原数据进行对比.
由于UCI数据库上的数据集都是单尺度数据, 所以在计算之前, 需要先将单尺度数据转换成多尺度数据.该过程可参考文献[27]的方法, 使用合并相邻值的方式生成更粗尺度的数据.因为在接下来的计算中用到的多尺度决策系统都是3个尺度的, 所以只需要合并两次.
实验选取的10个数据集的具体信息如表2所示.基于上述步骤生成相应的多尺度决策系统, 之后运用式(2)得到各个属性在各个尺度下的测试代价, 测试代价区间为(0, 200].
首先对比本文算法在δ < 0和δ =0时选择属性子集与尺度的总测试代价(TTC)、测试代价约简比率、属性约简比率和算法运行时间, 其中,
δ 的取值区间为[-4, 0], 步长为0.5.
实验结果如表3~表11所示, 并且为了直观化, 本文算法在10个数据集上的测试代价约简比率如图1所示.
由表3~表11和图1可以看出, 相比δ =0时, 本文算法在δ < 0时得到的总测试代价具有较大优势, 考虑测试代价时所得的属性子集和尺度对应的总测试代价更低, 即测试代价约简比率更小, 并且数据集越大, 优势越明显.同时, 算法能得到较低的属性约简比率, 即使在δ < 0时比在δ =0时多考虑测试代价, 实验结果中两种情况下的运行时间和属性约简比率相差却不大, δ < 0时有些属性约简比率甚至小于δ =0时.
事实上, 本文算法不只是进行属性约简, 约简后的每个属性都选择相同的尺度, 相比原始的多尺度决策系统, 数据结构得到很大程度的精简.此外, 在每个δ 下算法都具有较高的计算效率, 并且δ 取值在[-1.5, -0.5]时的TTC和测试代价约简比率小于其它取值时, 所以可以缩减δ 的取值范围, 从而进一步减小算法的计算复杂度.因此在下文的对比实验中, 本文算法δ 的取值范围将缩减至[-1.5, -0.5].
为了更客观地评价本文算法, 本文选取文献[18]算法、文献[19]算法以及最细尺度的原数据(简称为FIN)进行实验对比.文献[18]算法基于多尺度邻域信息粒, 同时进行最优尺度选择和特征选择.文献[19]算法结合辨识矩阵与图论, 同步选择属性与尺度.
在对比实验中, 分别对比各算法的总测试代价、测试代价约简比率、属性约简比率以及在两个分类器(SVM、CART决策树)下的分类精度.还对比除了FIN以外的3种算法的运行时间, 具体结果如表12所示.表中黑体数字表示总测试代价、运行时间的最优结果.
为了节省篇幅, 表中仅列举7个代表性数据集的对比结果.
从表12中可以看出, 本文算法在5个数据集上的总测试代价最小, 剩下两个数据集虽然不是最小值, 但差距不大, 同时本文算法的运行时间和在两个分类器下的分类精度都是最优值.从实验中可发现, 本文算法在大多数数据集上所得总测试代价都小于对比算法.本文算法主要目的是使总测试代价最小化, 然而从表12最后两列可以明显看出, 本文算法所得结果在两个分类器下的分类精度与对比算法分类精度相差不大.并且从表中运行时间可知, 本文算法在所有数据集上的运行时间最短, 数据集越大优势越明显.综上所述, 本文算法可以大幅缩减总测试代价, 并且算法的运行时间较短.
为了选择合适的属性子集和尺度, 使协调的多尺度决策系统的分辨能力不变, 并且总测试代价最小, 本文提出基于测试代价的属性与尺度同步选择方法.构建多尺度决策系统的粗糙集理论模型, 充分讨论相关知识, 并设计同步选择的启发式算法, 实验结果验证算法的有效性和实用性.后续将进一步研究新的测试代价敏感的属性与尺度同步选择方法, 使不同的属性可以选择不同的尺度.此外, 不止针对协调的多尺度决策系统, 未来还将本文方法应用于不协调的多尺度决策系统, 从而使方法能更广泛地应用于现实.
本文责任编委 张燕平
Recommended by Associate Editor ZHANG Yanping
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|