基于属性分类的悲观概念格与乐观概念格
高乐1,2, 王振1,2, 魏玲1,2, 祁建军3
1.西北大学 数学学院 西安 710127
2.西北大学 概念、认知与智能研究中心 西安 710127
3.西安电子科技大学 计算机科学与技术学院 西安 710068
通讯作者:

魏 玲,博士,教授,主要研究方向为形式概念分析、粗糙集、三支决策、粒计算.E-mail:wl@nwu.edu.cn

作者简介:

高 乐,硕士研究生,主要研究方向为形式概念分析、三支决策、粒计算.E-mail:gaulle98@163.com.

王 振,博士研究生,主要研究方向为形式概念分析、三支决策、粒计算.E-mail:zhenwang@stumail.nwu.edu.cn.

祁建军,博士,副教授,主要研究方向为形式概念分析、三支决策、智能数据分析.E-mail:qijj@mail.xidian.edu.cn.

About Author:
GAO Le, master student. His research interests include formal concept analysis, three-way decision and granular computing.
WANG Zhen, Ph.D. candidate. His research interests include formal concept analysis, three-way decision and granular computing.
QI Jianjun, Ph.D., associate professor. His research interests include formal concept analysis, three-way decision and intelligent data analysis.

摘要

结合实际需求,在给定属性分类的形式背景中,首先定义悲观分类形式背景和乐观分类形式背景及其算子与概念,研究它们与原形式背景的算子、概念之间的关系.然后,对于悲观分类形式背景,建立原概念格与悲观分类概念格之间的映射,给出由原概念格直接生成悲观分类概念格的方法.对于乐观分类形式背景,引入概念包含映射,研究原概念格与乐观分类概念格之间的关系,给出对应的概念格生成方法.最后,通过例子阐述悲观分类概念格与乐观分类概念格在实际问题上的应用及语义解释.

关键词: 形式背景; 属性分类; 悲观分类概念格; 乐观分类概念格
中图分类号:O29;TP18
Pessimistic Concept Lattices and Optimistic Concept Lattices Based on Attribute Classification
GAO Le1,2, WANG Zhen1,2, WEI Ling1,2, QI Jianjun3
1. School of Mathematics, Northwest University, Xi'an 710127
2. Institute of Concepts, Cognition and Intelligence, Northwest University, Xi'an 710127
3. School of Computer Science and Technology, Xidian University, Xi'an 710068
Corresponding author:
WEI Ling, Ph.D., professor. Her research interests include formal concept analysis, rough set, three-way decision and granular computing.
Abstract

In the formal context with attribute classification, the pessimistic classified formal context and optimistic classified formal context are firstly proposed, the operators and concepts in these contexts are defined, and the relationships between operators and concepts in classified contexts and those in the original contexts are studied. Then, for the pessimistic classified formal context, the mapping between the original concept lattice and the pessimistic classified concept lattice is established, and the generation method of the pessimistic classified concept lattice from the original concept lattice is presented. For the optimistic classified formal context, the relationships between the original concept lattice and the optimistic classified concept lattice are studied by introducing the concept inclusion mapping, and the corresponding generation method of the concept lattice is presented as well. Finally, the practical application and the semantic interpretation of both pessimistic and optimistic classified concept lattices are discussed.

Key words: Key Words Formal Context; Attribute Classification; Pessimistic Classified Concept Lattice; Optimistic Classified Concept Lattice

本文责任编委 苗夺谦

Recommended by Associate Editor MIAO Duoqian

形式概念分析(Formal Concept Analysis)[1, 2]对哲学中的概念进行形式化描述, 形成概念格, 以格结构为基础进行知识发现.在哲学中, 概念由外延和内涵构成, 基于此种情况, 以形式背景为基础, 利用一组二元对和对应的导出算子对概念进行数学化表达.而概念格是根据形式背景中对象与属性之间的二元关系建立的一种概念层次结构, 体现概念之间的泛化关系和特化关系.

由于形式概念本身丰富的语义和较强的可解释性, 形式概念分析的研究内容呈现多元化[3, 4, 5].李金海等[3]指出概念格理论与方法的多个研究方向, 并对现有的研究成果进行梳理、总结和展望.概念格理论的主要研究方向包括属性约简[6, 7, 8, 9, 10, 11, 12]、规则获取[9, 13]、三支概念分析[14, 15, 16]、概念认知[17, 18]等.另一方面, 学者们研究不同形式背景下的概念格, 也取得许多成果.林艺东等[12]在模糊形式背景的基础上给出模糊-经典概念的矩阵表示和属性约简的矩阵方法.作为数据分析和知识处理的有力工具, 概念格理论也被广泛应用于医学、数据挖掘、信息检索、软件工程等领域[19, 20, 21].

属性聚类是形式概念分析研究的重要方向之一, 先根据属性之间的语义相似性对属性进行聚类[22], 再对聚类后的形式背景进行研究, 实现在保留必要信息的条件下对形式背景及概念格的简化.目前, 针对聚类方法在形式概念分析中的应用研究已取得较多成果.Elloumi等[23]在保持关联规则不变的情况下通过聚类分析对背景进行精炼, Zhou等[24]基于概念距离测度的相似度阈值, 研究区间概念格的约简, Kumar等[25]将模糊K-means聚类方法引入形式概念分析, 解决概念格的简化问题.

已有的研究大多聚焦于聚类方法的直接应用, 针对不同情况下的聚类形式背景及概念格的生成研究较少.Sumangali等[26]定义概念包含映射, 并结合实例分析证明属性聚类前后概念格中的信息并未遗漏.Liu等[27]从多粒度的角度出发, 在面向对象/属性概念格下研究不同粒度概念格间的关系.在实际应用中, 对于属性分类研究的出发点常是现实生活中不同问题下对于指标的人为分类, 不以数据驱动, 在考虑不同问题时针对同个属性集合的分类也可能会产生差异.因此本文考虑直接通过先验知识对属性进行分类, 并给出具体的分类逻辑, 将研究重心放在不同的分类逻辑和分类后形式背景的构建与研究上.

受实际问题启发, 对考察的属性全集进行分类, 将分类后形成的每个属性类视为一个新的属性.再根据不同的语义需求形成悲观分类形式背景和乐观分类形式背景, 在此基础上研究两种形式背景与原形式背景中算子、概念之间的关系, 进一步探讨悲观分类概念格和乐观分类概念格与原概念格之间的关系.最后给出不同分类概念格的生成定理.

1 预备知识

本节回顾有关形式概念分析的基本概念和性质.

定义1[2] 称(U, A, I)为一个形式背景, 其中:

U={x1, x2, …, xn}

为对象集, 每个xi(in)称为一个对象;

A={a1, a2, …, am}

为属性集, 每个aj(jm)称为一个属性; IUA之间的二元关系, IU× A.若(x, a)∈ I, 称x具有属性a.

形式背景可表示为一个二维表, 其中每行表示一个对象, 每列表示一个属性, 行列交叉处的1表示(x, a)∈ I, 0表示(x, a)∉I.

对于形式背景(U, A, I), 在对象子集XU和属性子集BA上分别定义算子:

X* ={a|aA, ∀ xX, (x, a)∈ I},

B* ={x|x∈ U, aB, (x, a)I}.

特别地, 对于∀ xU, aA, 记{x}* x* , {a}* a* .

设(U, A, I)为形式背景, 若二元对(X, B)满足X* =BX=B* , 称(X, B)是一个形式概念, 简称概念.X称为概念的外延, B称为概念的内涵.

对于形式背景(U, A, I), ∀ X1U, X2U, XU, B1A, B2A, BA, 可得如下基本性质:

1)X1X2X2* X1* , B1B2B2* B1* ;

2)XX* * , BB* * ;

3)X* =X* * * , B* =B* * * ;

4)XB* BX* ;

5)(X1X2)* = X1* X2* , (B1B2)* = B1* B2* ;

6)(X1X2)* X1* X2* , (B1B2)* B1* B2* ;

7)(X* * , X* )和(B* , B* * )都是概念.

使用L(U, A, I)表示形式背景(U, A, I)中所有概念的集合, 对于

∀ (X1, B1)∈ L(U, A, I), (X2, B2)∈ L(U, A, I),

在偏序关系

(X1, B1)≤ (X2, B2)⇔ X1X2(⇔ B1B2)

下, 可证明

(X1, B1)∧ (X2, B2)=(X1X2, (B1B2)* * ), (X1, B1)(X2, B2)=((X1X2)* * , B1B2)

也是概念, 从而L(U, A, I)是格, 并且是完备格, 称为(U, A, I)的概念格.

定义2[2]L(U, A1, I1)和L(U, A2, I2)是2个概念格, 且对于∀ (X', B')∈ L(U, A2, I2), 总存在(X, B)∈ L(U, A1, I1), 使得X'=X, 则称L(U, A1, I1)细于L(U, A2, I2), 记作

L(U, A1, I1)≤ L(U, A2, I2).

对于对象集与属性集均相同的2个概念格中的不同概念, 还可定义概念之间的包含关系, 称概念(X, B)包含于(X', B'), 即

(X, B)⊆(X', B')

当且仅当XX'BB'.基于概念之间的包含关系, 定义概念包含映射如下.

定义3[26]

L1=L(U, A, I1), L2=L(U, A, I2),

定义L1L2上的概念包含映射ζ L1L2, 使得对于任意2个概念(X, B)∈ L1, (Y, C)∈ L2,

ζ ((X, B))=(Y, C)

当且仅当

(X, B)⊆(Y, C)

且不存在(Y', C')∈ L(U, A, J), 使得

(Y', C')≤ (Y, C), (X, B)⊆(Y', C').

在对2个不同形式背景对应的概念格进行研究时, 针对概念格间定义的映射, 给出相关定义及定理如下.

定义4[2] 设(U, A, I)和(V, C, J)为2个形式背景,

α ∶ P(U)→ P(V)

为从UV上的一个映射,

β ∶ P(A)→ P(C)

为从AC上的一个映射.若对于(V, C, J)中的任意外延Y, 原像α -1(Y)为(U, A, I)中的一个概念外延, 则称映射α 是外延连续的; 若对于(V, C, J)中任意内涵B, 原像β -1(B)为(U, A, I)的一个内涵, 则称映射β 是内涵连续的.若α 是外延连续的且β 是内涵连续的, 则称映射对(α , β )是连续的.若对于∀ (X, B)∈ L(U, A, I), (β (B)* , α (X)* )为(V, C, J)中的概念, 则称映射对(α , β )是保概念的.若映射对(α , β )同时满足保概念且连续, 则称为概念可靠的.

对于定义3中给出的概念包含映射ζ , 可将其分解为外延之间的映射α :P(U)→ P(U)和内涵之间的映射β :P(A)→ P(A), 文献[26]证明该映射对是连续且保概念的, 即是概念可靠的.

定理1[2] 若(α , β )∶ (U, A, I)→ (V, C, J)为一个概念可靠映射, 则

(X, B)|→ (β (B)* , α (X)* )

是从(U, A, I)到(V, C, J)的完全同态.

2 悲观分类形式背景及其概念格

在形式背景(U, A, I)中给定属性集A的一个划分Aπ ={Ai }i=1k, A1, A2, …, Ak为该属性集的k个属性类.在实际应用中, 属性集A根据语义或先验知识进行预分类, 从而满足数据分析的不同需求, 更具普遍性.

在该属性分类的基础上, 将集合Aπ 视为一个新的属性集, 其中的每个属性类Ai视为一个属性, 在某一对象拥有某一属性类当且仅当其具有该分类下所有属性这一语义要求时, 能够给出悲观分类形式背景的定义.

定义5 悲观分类形式背景 设(U, A, I)为形式背景, 给定属性集A的一个划分Aπ ={Ai }i=1k, 称(U, Aπ , I πp)为形式背景(U, A, I)在Aπ 下的悲观分类形式背景, 其中

I πp={(x, Ai)∈ U× Aπ |∀ aAi, (x, a)∈ I}.

若不加说明, 本文中(U, Aπ , I πp)均表示形式背景(U, A, I)在属性集A的划分Aπ ={Ai }i=1k下的悲观分类形式背景.在(U, Aπ , I πp)下, 定义对象子集XU和属性子集族C⊆Aπ 上的算子:

X* p={Ai|Ai∈ Aπ , ∀ xX, (x, Ai)∈ I πp},

C* p={x|x∈ U, AiC, (x, Ai)∈ I πp}.

若二元对(X, C)满足X* p=C且X=C* p, 称(X, C)为一个悲观分类概念.

对于形式背景(U, Aπ , I πp), 对于∀ X1U, X2U, XU, C1⊆Aπ , C2⊆Aπ , C⊆Aπ , 可得如下基本性质:

1)X1X2X2* pX1* p, C1⊆C2C2* pC1* p;

2)XX* p* p, C⊆C* p* p;

3)X* p=X* p* p* p, C* p=C* p* p* p;

4)X⊆C* p⇔ C⊆X* p;

5)(X1X2)* p= X1* pX2* p, (C1∪ C2)* p= C1* pC2* p;

6)(X1X2)* pX1* pX2* p, (C1∩ C2)* pC1* pC2* p.

使用L(U, Aπ , I πp)表示悲观分类形式背景中所有概念的集合, 记

(X1, C1)≤ (X2, C2)⇔ X1X2(⇔ C1⊇C2),

L(U, Aπ , I πp)为(U, A, I)的悲观分类概念格, 定理2给出上确界、下确界, 并证明是一个完备格.

定理2L(U, Aπ , I πp)为一个完备格, 上确界、下确界分别为

(X1, C1)∨ (X2, C2)=((X1X2)* p* p, C1∩ C2), (X1, C1)(X2, C2)=(X1X2, (C1C2)* p* p).

证明 对于

∀ (X1, C1)∈ L(U, Aπ , I πp),

(X2, C2)∈ L(U, Aπ , I πp),

(X1X2)* p* p* p=(X1X2)* p= X1* pX2* p=C1∩ C2,

(C1∩ C2)* p=( X1* pX2* p)* p=(X1X2)* p* p,

即((X1X2)* p* p, C1∩ C2)是L(U, Aπ , I πp)中的一个概念.

再证((X1X2)* p* p, C1∩ C2)为上确界.由

C1∩ C2⊆C1, C1∩ C2⊆C2,

(X1, C1)≤ ((X1X2)* p* p, C1∩ C2)

(X2, C2)≤ ((X1X2)* p* p, C1∩ C2),

则其为上界.

下证((X1X2)* p* p, C1∩ C2)是最小上界.设(X', C')为L(U, Aπ , I πp)的一个上界, 满足

(X1, C1)≤ (X', C'), (X2, C2)≤ (X', C'),

则有

C'⊆C1, C'⊆C2,

C'⊆C1∩ C2,

则有

((X1X2)* p* p, C1∩ C2)≤ (X', C').

由(X', C')的任意性可知, ((X1X2)* p* p, C1∩ C2)是最小上界, 即上确界.

同理可证(X1X2, (C1∪ C2)* p* p)为一个概念, 且为下确界.

在给出悲观分类形式背景及其概念格的基础上, 引理1描述原形式背景中的概念导出算子与悲观分类形式背景中的概念导出算子之间的关系.

需要注意的是, 在本文描述中, C表示由属性类构成的属性集族, Ai表示单个属性类, ∪ Ai表示单个或多个属性类包含的属性构成的集合.

引理1 设(U, Aπ , I πp)为悲观分类形式背景, XU, C⊆Aπ , 则有如下性质:

1)X* p={Ai∈ Aπ |AiX* },

2) AiX* pAiX* ,

3)C* p=( AiCAi)* .

证明 先证1).设AiX* p, 则对于∀ xX, 有(x, Ai)∈ I πp, 从而对于∀ aAi, 都有(x, a)∈ I, 即aX* , 则AiX* , 即

Ai∈ {Ai∈ Aπ |AiX* },

进而

X* p⊆{Ai∈ Aπ |AiX* }.

另一方面, 设

Ai∈ {Ai∈ Aπ |AiX* },

则对于∀ aAi, 均有(x, a)∈ I, 从而有AiX* p, 即有

{Ai∈ Aπ |AiX* }⊆X* p.

综上所述, 1)成立.

再证2).由1)的证明过程易得, 对于∀ AiX* p, 都有AiX* , 则2)显然成立.

最后证3).设x∈ C* p, 则对于∀ Ai∈ C, (x, Ai)∈ I πp, 从而对于∀ aAi, 有(x, a)∈ I, 即有

x∈ ( AiCAi)* ,

C* p⊆( AiCAi)* .

另一方面, 设

x∈ ( AiCAi)* ,

则对于

aAiCAi, (x, a)∈ I,

从而对于∀ Ai∈ C, aAi, 有(x, Ai)∈ I πp, 即x∈ C* p, 则

( AiCAi)* ⊆C* p,

即3)成立.

结合引理1给出的算子之间的关系, 可获得原概念格与悲观分类概念格之间的关系, 以及此种关系下定义的2个概念格之间的映射的性质.

定理3L(U, Aπ , I πp)为悲观分类概念格, 若(X, C)∈ L(U, Aπ , I πp), 则(X, X* )∈ L(U, A, I), 进一步可有

L(U, A, I)≤ L(U, Aπ , I πp),

该偏序关系即为一般概念格之间的偏序关系.

证明 由(X, C)∈ L(U, Aπ , I πp), 有

X* p=C, C* p=X,

由引理1中3), 有

X=C* p=( AiCAi)* ,

(X, X* )=(( AiCAi)* , ( AiCAi)* * )∈ L(U, A, I),

则进一步得L(U, A, I)≤ L(U, Aπ , I πp).

定理4L(U, Aπ , I πp)为悲观分类概念格:

1)定义φ L(U, Aπ , I πp)到L(U, A, I)上的一个映射,

∀ (X, C)∈ L(U, Aπ , I πp), φ ((X, C))=(X, X* ),

φ 是一个保交映射;

2)定义ψ L(U, A, I)到L(U, Aπ , I πp)上的一个映射,

∀ (X, B)∈ L(U, A, I), ψ ((X, B))=(X* p* p, X* p),

ψ 是一个保序映射;

3)ψ 􀳱φ L(U, Aπ , I πp)→ L(U, Aπ , I πp)是一个恒等映射.

证明 先证1).对于

∀ (X1, C1)∈ L(U, Aπ , I πp),

(X2, C2)∈ L(U, , I πp),

由引理1中3), 有

X1= C1* p=( AiC1Ai)* , X2= C2* p=( AiC2Ai)* ,

则有

X1* * =( AiC1Ai)* * * =( AiC1Ai)* =X1,

X2* * ( AiC2Ai)* * =( AiC2Ai)=X2,

从而有

( X1* X2* )* * =( X1* * X2* * )* =(X1X2)* .

因此有

$\begin{aligned}\varphi(& \left.\left(X_{1}, C_{1}\right) \wedge\left(X_{2}, C_{2}\right)\right)=\\& \varphi\left(X_{1} \cap X_{2}, \left(C_{1} \cup C_{2}\right)^{* p * p}\right)=\\& \left(X_{1} \cap X_{2}, \left(X_{1} \cap X_{2}\right)^{* }\right)=\\& \left(X_{1} \cap X_{2}, \left(X_{1}^{* } \cup X_{2}^{* }\right)^{* * }\right)=\\& \left(X_{1}, X_{1}^{* }\right) \wedge\left(X_{2}, X_{2}^{* }\right)=\\& \varphi\left(X_{1}, C_{1}\right) \wedge \varphi\left(X_{2}, C_{2}\right) .\end{aligned}$

再证2).对于

∀ (X1, B1)∈ L(U, A, I), (X2, B2)∈ L(U, A, I),

若(X1, B1)≤ (X2, B2), 即X1X2, 则 X1* pX2* p, 则对于

ψ ((X1, B1))=( X1* p* p, X1* p),

ψ ((X2, B2))=( X2* p* p, X2* p),

ψ ((X1, B1))≤ ψ ((X2, B2)).

最后证3).对于(X, C)∈ L(U, Aπ , I πp), 由

X* p=C, X* p* p=X,

易得

ψ 􀳱φ (X, C)=(X, C).

在此基础上, 通过一般的概念格构造算法得到悲观分类概念格.

定理5 设(U, A, I)为形式背景, 给定属性分类Aπ ={Ai }i=1k, 则有

L(U, Aπ , I πp)={( Xπp, Bπp)| (X, B)∈ L(U, A, I)},

其中

Xπp=[ AiAπAiBAi]* , Bπp={Ai|Ai∈ Aπ , AiB}.

证明 设(X, C)∈ L(U, Aπ , I πp), 由定理3可知∃(X, B)∈ L(U, A, I), 其中B=X* .由引理1中1), 有

C=X* p={Ai|AiX* }={Ai|AiB},

又由引理1中3), 有

X=C* p=( AiCAi)* =( AiBAi)* ,

则有

$\begin{array}{l}L\left(U, \mathcal{A}_{\pi}, I_{\pi}^{p}\right) \subseteq \\\qquad\left\{\left(\left(\cup_{A_{i} \in \mathcal{A}_{\pi} \atop A_{i} \in B} A_{i}\right)^{* }, \left\{A_{i} \mid A_{i} \subseteq B\right\}\right)\right. \\\mid \forall(X, B) \in L(U, A, I)\} .\end{array}$

另一方面, 对于(X, B)∈ L(U, A, I), AiB, 由引理1中3),

$\begin{aligned}\left\{A_{i} \mid A_{i} \subseteq B\right\}^{* p}=& \left(\bigcup_{A_{i} \subseteq B} A_{i}\right)^{* } \\\left(\left(\bigcup_{A_{i} \subseteq B} A_{i}\right)^{* }\right)^{* _{p}}=& \left\{A_{i} \mid A_{i} \subseteq B\right\}^{* p * p}=\\& \left\{A_{i} \mid A_{i} \subseteq B\right\}, \end{aligned}$

(( AiBAi)* , {Ai|AiB})∈ L(U, Aπ , I πp).

由此二者相等.

从构建悲观分类概念格的角度出发, 本文给出直接由原概念格生成其悲观分类概念格的方法, 对应的概念生成算法如算法1所示.

算法1 形式背景的悲观分类概念生成算法

输入 形式背景(U, A, I),

属性集上的划分Aπ ={Ai }i=1k

输出 悲观分类概念集L(U, Aπ , I πp)

step 1 构建原概念格内涵集

LA(U, A, I)={B⊆A|X, B)L(U, A, I)}={Bj}j=1m

step 2 对于每个BjLA(U, A, I), 遍历Aπ ={Ai }i=1k, 若AiBj, 使其属于关于内涵Bj的悲观分类概念内涵 Bp.

step 3 构建所有悲观分类概念内涵的集合{ Bp}j=1m, 去重, 得到悲观分类概念内涵集

LA(U, A, I πp)={ Bp}l=1n.

step 4 针对每个悲观分类概念内涵 Bp, 计算其悲观分类概念外延 Xp=(∪ Bp)* .

step 5 以二元组的形式返回所有的 XpBp, 算法结束.

例1 考察5名中学生的学科成绩情况.设U={1, 2, …, 5}表示对象集, 表示5名学生; A={a, b, …, k}表示属性集, 表示11门学科.根据各学科思维方式的不同, 将其划分为4个学科领域, 以

Aπ ={A1, A2, A3, A4}

表示, 其中:A1={a, b}为语言类学科, 分别表示语文和英语; A2={c, d, e, f}为理工类学科, 分别表示数学、物理、化学、生物; A3={g, h, i}为文史类学科, 分别表示政治、历史、地理; A4={j, k}为艺术类学科, 分别表示音乐和美术.为了针对性地根据不同学生在不同学科领域的总体表现对其进行生涯规划, 进一步处理学生学科成绩表.将学科成绩位于班级前50%的学生认定为在该学科中表现良好, 并以1表示, 否则表示为0, 形成如表1所示的形式背景(U, A, I), 概念格如图1所示.

表1 例1的形式背景(U, A, I) Table 1 Formal context(U, A, I) of example 1

图1 例1的概念格L(U, A, I)Fig.1 Concept lattice L(U, A, I) of example 1

在“ 某学生在某学科领域中所有学科均表现良好, 则其适合进一步研究或从事该学科领域相关的方向或工作” 这一语义下, 研究(U, A, I)的悲观分类形式背景, 形成如表2所示的形式背景(U, Aπ , I πp), 根据定理5得到对应的悲观分类概念格如图2所示.

表2 例1的悲观分类形式背景(U, Aπ , I πp) Table 2 Pessimistic classified formal context(U, Aπ , I πp) of example 1

图2 例1的悲观分类概念格L(U, Aπ , I πp)Fig.2 Pessimistic classified concept lattice L(U, Aπ , I πp) of example 1

悲观分类概念格L(U, Aπ , I πp)从同时具有的角度, 研究不同学生对于各学科领域的掌握程度, 根据该层级结构可清晰地对学生进行分类, 从而实现生涯规划或学科互助的目的.以悲观分类概念(5, A1A2A4)为例, 学生5在语言类、理工类、艺术类学科表现均为良好, 而在文史类学科中存在弱势, 因此在进行专业选择时更适合于选择理工类学科.

3 乐观分类形式背景及其概念格

不同于悲观分类形式背景, 本节在某一对象拥有某一属性类当且仅当其具有该分类下至少一个属性这一语义下, 定义形式背景在给定属性分类下的乐观分类形式背景.

定义6 乐观分类形式背景 设(U, A, I)为形式背景, 给定属性集A的一个划分Aπ ={Ai }i=1k, 则称(U, Aπ , I πo)为形式背景(U, A, I)在划分Aπ 下的乐观分类形式背景, 其中

I πo={(x, Ai)∈ U× Aπ |∃aAi, (x, a)∈ I}.

若不加说明, 文中(U, Aπ , I πo)均表示形式背景(U, A, I)在属性集A的划分Aπ ={Ai }i=1k下的乐观分类形式背景.在(U, Aπ , I πo)下, 定义对象子集XU和属性子集族C⊆Aπ 上的算子如下:

X* o={Ai|Ai∈ Aπ , ∀ xX, (x, Ai)∈ I πo},

C* o={x|x∈ U, AiC, (x, Ai)∈ I πo}.

其性质与悲观分类形式背景下的算子性质类似.若二元对(X, C)满足X* o=C且X=C* o, 则称(X, C)是一个乐观分类概念.使用L(U, Aπ , I πo)表示乐观分类形式背景中所有概念的集合, 可证明L(U, Aπ , I πo)是一个完备格, 称为(U, A, I)的乐观分类概念格, 上确界、下确界分别为

(X1, C1)∨ (X2, C2)=((X1X2)* o* o, C1∩ C2), (X1, C1)(X2, C2)=(X1X2, (C1C2)* o* o).

引理2 设(U, Aπ , I πo)为乐观分类形式背景, XU, C⊆Aπ , 则有如下性质:

1)X* o={Ai∈ Aπ |aX* , aAi},

2)X* AiX* oAi,

3)C* o⊇( AiCAi)* .

证明 先证1).设AiX* o, 则对于∀ xX, 有(x, Ai)∈ I πo, 即∃aAi, 使得(x, a)∈ I, 则aX*

Ai∈ {Ai∈ Aπ |aX* , aAi},

X* o⊆{Ai∈ Aπ |aX* , aAi}.

另一方面, 设

Ai∈ {Ai∈ Aπ |aX* , aAi},

则∃aAiaX* , 则对于∀ xX, 有(x, a)∈ I, 则(x, Ai)∈ I πo, 即AiX* o, 则

{Ai∈ Aπ |aX* , aAi}⊆X* o,

即1)成立.

再证2).由1)有

X* o={Ai∈ Aπ |aX* , aAi},

即对于∀ xX, 若∃xAi, 有(x, a)∈ I, 则(x, Ai)∈ I πo, 显然有

X* AiX* oAi.

最后证3).设x∈ ( AiCAi)* , 则对于∀ aAiCAi, 有(x, a)∈ I, 即对于∀ Ai∈ C, (x, Ai)∈ I πo, 则x∈ C* o, 有

C* o⊇( AiCAi)* .

引理2给出在乐观分类形式背景下的概念导出算子与原形式背景中的概念导出算子之间的关系.由于乐观分类形式背景在定义上较宽泛, 乐观分类概念格与原概念格之间不再满足严格的细于关系, 仅满足概念之间的包含关系.

定理6L(U, Aπ , I πo)为乐观分类概念格, 则对于∀ (Y, C)∈ L(U, Aπ , I πo), ∃(X, B)∈ L(U, A, I), 有

XY, BAiCAi.

证明 设(Y, C)∈ L(U, Aπ , I πo), 则Y=C* o, 即对于∀ xY, Ai∈ C, 有(x, Ai)∈ I πo.由乐观分类形式背景的二元关系

I πo={(x, Ai)∈ U× Aπ |∃aAi, (x, a)∈ I},

对于∀ Ai∈ Aπ , Ai* o= aAia* , 则对于∀ aAi, 有a* Ai* o.进一步, 对于∀ aAiCAi, 至少存在一个Y的子集, 使得对于该子集中任意对象x, 有(x, a)∈ I, 则从概念的角度出发, 至少存在一个对象子集XY, 为L(U, A, I)的一个概念外延.

另一方面, 对于对象子集Y, 由Y=C* o, 则对于∀ xY, Aj∈ Aπ /C, 有(x, Aj)∉I πo, 从而对于∀ aAj, (x, a)∉I, 则对于对象子集XY, ∀ xX, aAjAπ/CAj, 有(x, a)∉I, 进而

B=X* AiCAi.

进一步, 定义L(U, A, I)到L(U, Aπ , I πo)上的映射τ L(U, A, I)→ L(U, Aπ , I πo), 即对于任意2个概念

(X, B)∈ L(U, A, I), (Y, C)∈ L(U, Aπ , I πo), τ ((X, B))=(Y, C),

当且仅当XY, BAiCAi且不存在

(Y', C')∈ L(U, Aπ , I πo),

使得(Y', C')≤ (Y, C)且

XY, BAiCAi.

可看到, 在将分类形式背景中的属性类视作属性集合时, BAiCAi与概念包含关系中要求的属性之间的包含关系是一致的, 因此这样定义的映射τ 与概念包含映射ζ 在本质上是相同的, 其具有的性质也相同, 因此映射

τ L(U, A, I)→ L(U, Aπ , I πo)

L(U, A, I)中的外延和内涵分别映射到L(U, Aπ , I πo)中的外延和内涵上, 并且为连续的.另外, 映射τ L(U, A, I)中每个概念均映射到L(U, Aπ , I πo)中的概念上, 因此该映射是保概念的.由于映射τ 是连续且保概念的, 则其为概念可靠的.在将映射τ 分解为映射对的情况下, 根据定理1可直接得到如下定理7.

定理7 设(U, A, I)为形式背景, 给定属性分类Aπ ={Ai }i=1k, L(U, Aπ , I πo)为其在属性分类Aπ 下的乐观分类概念格, 则映射

τ L(U, A, I)→ L(U, Aπ , I πo)

是一个完全格同态.

在此基础上, 通过一般的概念格构造算法得到乐观分类概念格.

定理8 设(U, A, I)为形式背景, 给定属性分类Aπ ={Ai }i=1k, 则有

L(U, Aπ , I πo)= {( Xπo, Bπo)| (X, B)∈ L(U, A, I)},

其中

Xπo= AiAπAiBØ( aAia* ),

Bπo{Ai|AiAπ , AiBØ }.

证明 对于(Y, C)∈ L(U, Aπ , I πo), 由定理6, ∃(X, B)∈ L(U, A, I), 有XYBAiCAi, 对于(X, B), (Y* * , Y* )∈ L(U, A, I), 有XYY* * , 即XY* * , 则有(X, B)≤ (Y* * , Y* ), 则BY* , 由引理2中2), 有

Y* ⊆∪ Y* o= AiCAi,

则有

Y* BAiCAi,

对于∀ aY* , 有aB, 进而有AiBØ , 则

C=Y* o={Ai},

其中

Ai∈ Aπ , AiBØ .

另外, 对于Ai∈ C,

$\begin{aligned} A_{i}^{* o}=& \left\{x \mid x \in U, \exists a \in A_{i}, x I a\right\}=\\ & \cup_{a \in A_{i}}\{x \mid x \in U, x I a\}=\cup_{a \in A_{i}} a^{* }, \end{aligned}$

$\begin{gathered} C^{* o}=\left\{x \mid x \in U, \forall A_{i} \in C, \exists a \in A_{i}, x I a\right\}= \\ \bigcap_{A_{i} \in C}\left\{x \mid x \in U, \exists a \in A_{i}, x I a\right\}= \\ \bigcap_{A_{i} \in C} A_{i}^{* o}=\bigcap_{A_{i} \in C}\left(\cup_{a \in A_{i}} a^{* }\right), \end{gathered}$

Y=C* o= AiC( aAia* ).

另一方面, 对于(X, B)∈ L(U, A, I), 令

C={Ai|Ai∈ Aπ , AiBØ },

C* o= AiCAi* o= AiC( aAia* )

且由

Ai* o= aAia* , AiCAi* o=C* o,

( AiC( aAia* ))* o=C={Ai},

( AiC( aAia* ), {Ai})∈ L(U, Aπ , I πo).

最后给出由原概念格直接生成乐观分类概念格的方法, 对应的概念生成算法如算法2所示.

算法2 形式背景的乐观分类概念生成方法

输入 形式背景(U, A, I),

属性集上的划分Aπ ={Ai }i=1k

输出 乐观分类概念集L(U, Aπ , I πo)

step 1 构建原概念格内涵集

LA(U, A, I)= {B⊆A|(X, B)∈ L(U, A, I)}={Bj}j=1m

step 2 对于每个BjLA(U, A, I), 遍历Aπ ={Ai }i=1k, 若AiBjØ , 则使其属于关于内涵Bj的乐观分类概念内涵 Bo.

step 3 构建所有乐观分类概念内涵的集合{ Bo}j=1m, 去重, 得到乐观分类概念内涵集

LA(U, A, I πo)={ Bo}l=1n.

step 4 针对每个乐观分类概念内涵 Bo, 计算乐观分类概念外延

Xo= AiBo( aAia* ).

step 5 以二元组的形式返回所有的 XoBo, 算法结束.

例2(续例1) 结合同一学科领域各学科思维方式类似这一特点, 为了帮助学生进一步挖掘学科潜力, 如表3所示, 形式背景(U, A, J)将学科成绩位于班级前20%的学生认定为在该学科中表现优秀, 表示为1, 否则表示为0, 概念格如图3所示.

表3 例2的形式背景(U, A, J) Table 3 Formal context (U, A, J) of example 2

图3 例2的概念格L(U, A, J)Fig.3 Concept lattice L(U, A, J) of example 2

在“ 某学生在某学科领域中至少有一门学科表现优秀, 则其具有在这一学科领域继续发展的潜力” 这一语义下, 研究(U, A, J)的乐观分类形式背景, 形成形式背景如表4所示, 根据定理8得到对应的乐观分类概念格如图4所示.

表4 例2的乐观分类形式背景(U, Aπ , J πo) Table 4 Optimistic classified formal context (U, Aπ , J πo) of example 2

图4 例2的乐观分类概念格L(U, Aπ , J πo)Fig.4 Optimistic classified concept lattice L(U, Aπ , J πo) of example 2

乐观分类概念格L(U, Aπ , J πo)从至少具有一个的角度, 研究学生在各学科领域是否具有优秀科目, 根据这一结果可从学生个体出发, 结合其可能具有的学科潜力因材施教.以乐观分类概念(1235, A2)为例, 学生1、学生2、学生3、学生5在理工科学科中均有优秀科目, 可通过建立理工科学习小组, 进一步挖掘理工学科潜力.

从例1和例2可看到, 悲观分类概念格和乐观分类概念格因其不同的分类逻辑分别适用于实际应用中的不同情境, 满足数据分析过程中的不同需求.

4 结束语

鉴于概念格理论良好的数学性质及其对于实际数据的可解释性, 针对不同形式的数据集和多种数据分析目标都具有较强的适用性.结合现实语义中不同情境下属性的分类逻辑, 本文直观定义悲观分类形式背景和乐观分类形式背景, 分别研究分类形式背景与原形式背景之间算子、概念的关系.再从概念格的角度分别阐述2种分类概念格与原概念格间的关系, 并通过定义映射进一步研究原概念和分类概念间的对应.最后给出2种分类概念格的构造定理.可以看到, 本文未从如何对属性进行聚类这一问题出发, 而是更多地从实际角度聚焦于在给定属性分类的情况下对象与属性类之间关系的定义方式, 研究不同定义方式下构成的新的形式背景和概念格.

出于简化模型的考虑, 本文现有的研究仅涉及2种较极端的情况, 即悲观分类和乐观分类, 而在现实生活中往往会出现更丰富的分类逻辑.另外, 在实际中会出现更复杂的情境, 单个形式背景中的不同属性类可能会具有不同的分类逻辑, 因此针对该类混合分类问题的研究也具有一定的实际意义.

参考文献
[1] WILLE R. Restructuring Lattice Theory: An Approach Based on Hierarchies of Concepts // RIVAL I. Ordered Sets. Boston, USA: Reidel, 1982: 445-470. [本文引用:]
[2] GANTER B, WILLE R. Formal Concept Analysis: Mathematical Foundations. Berlin, Germany: Springer, 1999. [本文引用:]
[3] 李金海, 魏玲, 张卓, . 概念格理论与方法及其研究展望. 模式识别与人工智能, 2020, 33(7): 619-642.
(LI J H, WEI L, ZHANG Z, et al. Concept Lattice Theory and Method and Their Research Prospect. Pattern Recognition and Artificial Intelligence, 2020, 33(7): 619-642. ) [本文引用:]
[4] 李金海, 吴伟志. 形式概念分析的粒计算方法及其研究展望. 山东大学学报(理学版), 2017, 52(7): 1-12.
(LI J H, WU W Z. Granular Computing Approach for Formal Concept Analysis and Its Research Outlooks. Journal of Shand ong University(Natural Science), 2017, 52(7): 1-12. ) [本文引用:]
[5] 李金海, 邓硕. 概念格与三支决策及其研究展望. 西北大学学报(自然科学版), 2017, 47(3): 321-329.
(LI J H, DENG S. Concept Lattice, Three-Way Decisions and Their Research Outlooks. Journal of Northwest University(Natural Science Edition), 2017, 47(3): 321-329. ) [本文引用:]
[6] 张文修, 魏玲, 祁建军. 概念格的属性约简理论与方法. 中国科学E辑(信息科学), 2005, 35(6): 628-639.
(ZHANG W X, WEI L, QI J J. Attribute Reduction Theory and Approach to Concept Lattice. Science in China Series E(Information Sciences), 2005, 35(6): 628-639. ) [本文引用:]
[7] 魏玲, 祁建军, 张文修. 决策形式背景的概念格属性约简. 中国科学E辑(信息科学), 2008, 38(2): 195-208.
(WEI L, QI J J, ZHANG W X. Attribute Reduction Theory of Concept Lattice Based on Decision Formal Contexts. Science in China Series E(Information Sciences), 2008, 38(2): 195-208. ) [本文引用:]
[8] WU W Z, LEUNG Y, MI J S. Granular Computing and Knowledge Reduction in Formal Contexts. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(10): 1461-1474. [本文引用:]
[9] LI J H, MEI C L, Y J. Knowledge Reduction in Decision Formal Contexts. Knowledge-Based Systems, 2011, 24(5): 709-715. [本文引用:]
[10] 王振, 魏玲. 基于单边区间集概念格的不完备形式背景的属性约简. 计算机科学, 2018, 45(1): 73-78.
(WANG Z, WEI L. Attribute Reduction of Partially-Known Formal Concept Lattices for Incomplete Contexts. Computer Science, 2018, 45(1): 73-78. ) [本文引用:]
[11] WANG Z, WEI L, QI J J, et al. Attribute Reduction of SE-ISI Concept Lattices for Incomplete Contexts. Soft Computing, 2020, 24(20): 15143-15158. [本文引用:]
[12] 林艺东, 李进金, 张呈玲. 基于矩阵的模糊-经典概念格属性约简. 模式识别与人工智能, 2020, 33(1): 21-31.
(LIN Y D, LI J J, ZHANG C L. Attribute Reductions of Fuzzy-Crisp Concept Lattices Based on Matrix. Pattern Recognition and Artificial Intelligence, 2020, 33(1): 21-31. ) [本文引用:]
[13] LI J H, MEI C L, KUMAR C A, et al. On Rule Acquisition in Decision Formal Contexts. International Journal of Machine Lear-ning and Cybernetics, 2013, 4(6): 721-731. [本文引用:]
[14] QI J J, WEI L, YAO Y Y. Three-Way Formal Concept Analysis // Proc of the International Conference on Rough Sets and Know-ledge Technology. Berlin, Germany: Springer, 2014: 732-741. [本文引用:]
[15] QI J J, QIAN T, WEI L. The Connections between Three-Way and Classical Concept Lattices. Knowledge-Based Systems, 2016, 91(1): 143-151. [本文引用:]
[16] 魏玲, 高乐, 祁建军. 三支概念分析研究现状与展望. 西北大学学报(自然科学版), 2019, 49(4): 527-537.
(WEI L, GAO L, QI J J. Review and Outlooks of Three-Way Concept Analysis. Journal of Northwest University(Natural Science Edition), 2019, 49(4): 527-537. ) [本文引用:]
[17] LI J H, HUANG C C, QI J J, et al. Three-Way Cognitive Concept Learning via Multi-granularity. Information Sciences, 2017, 378: 244-263. [本文引用:]
[18] 张文修, 徐伟华. 基于粒计算的认知模型. 工程数学学报, 2007, 24(6): 957-971.
(ZHANG W X, XU W H. Cognitive Model Based on Granular Computing. Chinese Journal of Engineering Mathematics, 2007, 24(6): 957-971. ) [本文引用:]
[19] KUMAR C A, SRINIVAS S. Mining Associations in Health Care Data Using Formal Concept Analysis and Singular Value Decomposition. Journal of Biological Systems, 2010, 18(4): 787-807. [本文引用:]
[20] MISSAOUI R, GODIN R, BOUJENOUI A. Extracting Exact and Approximate Rules from Databases // Proc of the SOFTEKS Workshop on Incompleteness and Uncertainty in Information Systems. Berlin, Germany: Springer, 1993: 209-222. [本文引用:]
[21] FREEMAN L C, WHITE D R. Using Galois Lattices to Represent Network Data. Social Networks, 1993, 23: 127-146. [本文引用:]
[22] AU W H, CHAN K C C, WONG A K C, et al. Attribute Clus-tering for Grouping, Selection, and Classification of Gene Expression Data. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2005, 2(2): 83-101. [本文引用:]
[23] ELLOUMI S, JAAM J, HASNAH A, et al. A Multi-level Conce-ptual Data Reduction Approach Based on the Lukasiewicz Implication. Information Sciences, 2004, 163(4): 253-262. [本文引用:]
[24] ZHOU W, ZHAO Y, LI Y, et al. Concept Reduction on Interval Formal Concept Analysis // Proc of the 9th IEEE International Conference on Cognitive Informatics. Washington, USA: IEEE, 2010: 899-903. [本文引用:]
[25] KUMAR C A, SRINIVAS S. Concept Lattice Reduction Using Fuzzy k-means Clustering. Expert Systems with Applications, 2010, 37(3): 2696-2704. [本文引用:]
[26] SUMANGALI K, KUMAR C A. Concept Lattice Simplification in Formal Concept Analysis Using Attribute Clustering. Journal of Ambient Intelligence and Humanized Computing, 2019, 10(6): 2327-2343. [本文引用:]
[27] LIU Z C, LI B, PEI Z, et al. Formal Concept Analysis via Multi-granulation Attributes // Proc of the 12th International Conference on Intelligent Systems and Knowledge Engineering. Washington, USA: IEEE, 2017. DOI: DOI:10.1109/ISKE.2017.8258818. [本文引用:]