基于三支决策的二阶段图像分类方法
陈超凡1,2, 张红云1,2, 蔡克参1,2, 苗夺谦1,2
1.同济大学 电子与信息工程学院 上海 201804
2.同济大学 嵌入式系统与服务计算教育部重点实验室 上海 201804
通讯作者:

张红云,博士,副教授,主要研究方向为主曲线算法、粒计算、模糊集.E-mail:zhanghongyun@tongji.edu.cn.

作者简介:

陈超凡,硕士研究生,主要研究方向为图像分类、深度学习、粒计算.E-mail:chao-128@tongji.edu.cn.

蔡克参,博士研究生,主要研究方向为图像分类、粒计算.E-mail:caikecan@tongji.edu.cn.

苗夺谦,博士,教授,主要研究方向为人工智能、机器学习、大数据分析、粒计算.E-mail:dqmiao@tongji.edu.cn.

About Author:
CHEN Chaofan, master student. His research interests include image classification, deep learning and granular computing.
CAI Kecan, Ph.D. candidate. Her research interests include image classification and granular computing.
MIAO Duoqian, Ph.D., professor. His research interests include artificial intelligence, machine learning, big data analysis and granular computing.

摘要

针对深度学习单一模型不能有效处理不确定性预测结果的问题,文中从三支决策出发,将阴影集理论引入图像分类中,构建两阶段图像分类方法.首先,使用卷积神经网络分类样本,获得隶属度矩阵.然后,使用基于阴影集的样本划分算法处理隶属度矩阵,获得分类结果中存在不确定性的部分,即不确定域,进行延迟决策.最后,使用特征融合技术,将SVM作为分类器进行二次分类,降低分类结果的不确定性,提高分类准确率.在CIFAR-10、Caltech 101数据集上的实验验证文中方法的有效性.

关键词: 三支决策; 阴影集; 卷积神经网络; 图像分类; 深度学习
中图分类号:TP391
Two-Stage Image Classification Method Based on Three-Way Decisions
CHEN Chaofan1,2, ZHANG Hongyun1,2, CAI Kecan1,2, MIAO Duoqian1,2
1. College of Electronics and Information Engineering, Tongji University, Shanghai 201804
2. The Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University, Shanghai 201804
Corresponding author:
ZHANG Hongyun, Ph.D., associate professor. Her research interests include principal curve algorithm, granular computing and fuzzy sets.
Abstract

A single model cannot handle the uncertainty in prediction results effectively, and therefore, the shadowed sets theory is introduced into image classification from the perspective of three-way decisions and a two-stage image classification method is designed. Firstly, samples are classified by convolutional neural networks to obtain the membership matrix. Then, a sample partitioning algorithm based on shadowed sets is employed to process the membership matrix and consequently the uncertain part of the classification results, the uncertain domain, for delayed decision making is obtained. Finally, feature fusion technique is utilized and SVM is regarded as a classifier for secondary classification to reduce the uncertainty of the classification results and improve the classification accuracy. Experiments on CIFAR-10 and Caltech 101 datasets validate the effectiveness of the proposed method.

Key words: Key Words Three-Way Decisions; Shadowed Sets; Convolutional Neural Network; Image Classification; Deep Learning

本文责任编委 张燕平

Recommended by Associate Editor ZHANG Yanping

图像分类是人工智能和计算机视觉领域的研究热点, 也是目前学术界和工业界共同关注的问题, 在交通场景分析、医学图像识别、遥感影像分类等诸多领域中都具有广泛的应用.目前, 学者们提出大量的图像分类方法, 常见的图像分类方法主要可分为2类:基于手工特征的图像分类方法和基于深度学习的图像分类方法.

基于手工特征的图像分类方法基本框架是图像预处理+特征提取+分类器.首先对原始图像进行预处理, 然后通过特征提取算子提取训练样本纹理、颜色、形状等特征, 最后设计分类器对特征向量进行分类.一般常用的特征提取算子有:形状特征、颜色特征、局部二值模式(Local Binary Pattern, LBP)[1, 2]、尺度不变特征转换(Scale Invariant Feature Transfor-mation, SIFT)[3, 4]、方向梯度直方图(Histogram of Oriented Gradient, HOG)[5]等.采用的分类算法主要有K最近邻(K-Nearest Neighbor, KNN)[6]、支持向量机(Support Vector Machine, SVM)[7]、随机森林(Random Forests, RF)[8]等.人工设计的特征提取算子依赖于研究人员的经验, 不具有泛化性, 在大规模图像数据的分类上具有明显的局限性.

深度学习的概念自提出以后, 以其强大的特征表示学习能力受到广泛关注, 逐渐取代基于手工特征的图像分类方法.尤其是卷积神经网络(Convo-lutional Neural Network, CNN)在图像领域迅速发展.Krizhevsky等[9]提出AlexNet, 在当年的ImageNet图像分类比赛上以绝对优势获得第一名.此后基于深度学习的图像分类方法大量涌现.在AlexNet的基础上, Simonyan等[10]进一步提出VGGNet, 利用小卷积核替换原有的大卷积核, 证明网络最终的性能在一定程度上受到网络深度的影响.Szegedy等[11]提出GoogleNet(又名Inception-V1), 组合不同尺度的卷积核, 优化网络结构, 减少模型参数, 在当年的ImageNet图像分类比赛上获得第一名.He等[12]针对神经网络的网络退化(Degradation)问题, 提出深度残差网络(Deep Residual Network)[12].Hu等[13]提出SENet(Squeeze and Excitation Network), 对特征通道间的相关性进行建模, 对每层学到的特征进行重新缩放, 强化重要特征, 提升准确率.除此之外, Iandola等[14]提出SqueezeNet, Howard等[15]提出MobileNets等, 上述方法在稍微降低模型精度的前提下构建轻量级的深层神经网络, 大幅提高运算速度.

随着网络和存储技术的飞速发展, 人们已从信息时代逐渐进入大数据时代, 图像数据急剧增长, 海量、不确定性等问题使图像数据趋于复杂.虽然相比基于人为设计特征的方法, 目前通用的基于深度学习的方法在图像数据分类准确率等指标上取得更优结果, 但深度学习未考虑现实世界中图像数据的不确定性和问题的复杂程度, 仅依靠硬件发展提供的强大计算能力直接求解复杂问题.具体体现在:由于光照、背景、类别差异等因素造成的图像数据的不确定性导致对样本的分析存在较大的不确定性, 任何模型都无法保证对每个样本的分析判定结果都是绝对确定的.一个典型的例子是:在基于深度学习的图像分类方法中, CNN在测试过程中根据输入的样本图像输出每个类别的预测概率, 即隶属度值.在实际应用中, 通常会选取隶属度最大的类别作为模型输出的预测类别.然而, 当模型预测的前几名隶属度值相近或最大的隶属度值也相对较小时, 预测结果存在较大的不确定性, 直接选择隶属度最大的类别作为预测类别并不合理.因此, 需要对不确定域进行重点研究, 降低其不确定性.

由Pedrycz[16]提出的阴影集理论是一种符合人类认知模式的理论模型, 通过三值逻辑映射保留对象的核心模糊信息, 减少量化损失.此理论经常被用于处理不确定性问题.自提出后, 阴影集理论已被学者们应用在许多领域.在聚类方面, Mitra等[17]提出基于阴影集理论的划分聚类方法, 不仅能减少区域划分的时间, 还能自动确定近似区域的阈值参数值.Zhou等[18]提出阈值参数自动选择的方法, 确定阴影集中上下近似阈值参数, 从而确定聚类任务中的近似区域.在样本选择方面, 苏小红等[19]提出基于阴影集的模糊SVM样本选择方法, 可有效去除样本中的噪声数据, 在降低选样率和训练时间的同时保持分类器的泛化能力.周玉等[20]提出基于阴影集的数据选择方法, 自动获取核数据和边界数据并将其作为可拓神经网络(Extension Neural Network, ENN)的训练样本, 不仅节约训练时间, 而且提高网络的分类准确度和泛化能力.在图像方面, Mitra等[21]针对遥感图像中像素交叠区域及边界之间存在不确定性问题, 将阴影集理论引入遥感图像分割问题中, 克服由于光照环境恶劣、分辨率较差等环境问题引起的遥感图像分割难题.Zhang等[22]将阴影集应用到图像检索算法中, 将图像划分为显著区域、非显著区域和阴影区域, 通过对阴影区域和显著性区域执行特征提取和分析处理, 可有效分割前景和背景相似的图像, 提高图像检索性能.

阴影集理论是处理不确定性问题的有力工具.借助阴影集理论, 可准确划分分类结果中存在不确定性的部分, 接下来的重点是如何处理不确定域.传统的两支决策简单地采用接受或拒绝两种方式进行决策, 难以处理不确定域这种决策信息不精确或不完备的情况, 而Yao[23, 24]提出三支决策(Three-Way Decision, 3WD), 在两支决策的基础上, 考虑决策过程中的不确定性因素, 增加不承诺选项, 构成接受、拒绝、不承诺(延迟决策)3种决策方式.当信息不足时, 延迟决策更符合人类在解决实际问题时的认知模式.同时在延迟决策后进一步研究不确定域, 对决策对象的认知粒度做出细化, 提高决策的准确性.

为此, 本文提出基于三支决策的二阶段图像分类方法.从三支决策的角度分析图像数据的分类问题, 引入阴影集理论[16], 对论域进行划分, 确定论域中的不确定域, 从而进行三支决策, 克服传统两支决策的弊端, 降低深度学习处理图像分类问题时的不确定性.

1 基于三支决策的二阶段图像分类方法

相比基于人为设计特征的方法, 基于深度学习的方法在图像分类领域取得更优性能.但在实际决策过程中, 由于姿态、视角、光照等复杂的成像条件, 类间差异较小和类内差异较大等类别差异特点造成不确定因素, 使决策结果存在较大的不确定性.因此, 通过对不确定域进行重点研究, 可降低其对分类结果的影响, 进一步提升深度学习预测结果的可靠性和准确率.

1.1 阴影集理论

阴影集理论[16]解决模糊集中使用具有精确数值的隶属度描述模糊逻辑这一缺陷.通过三值逻辑映射保留对象的核心模糊信息, 减少量化损失, 常被用于处理不确定性问题, 是研究不确定信息处理问题的有力工具.通过提升部分对象的隶属度值到1(或最大隶属度值), 降低部分对象的隶属度值到0, 同时保持整体不确定性的平衡, 可将传统的隶属度函数转变为具有三值逻辑的阴影集.

在模糊集的阴影化处理过程中, 通过上近似参数α 和下近似参数β 将论域X划分为3个区域.

α =μ max-β ,

μ max为最大隶属度值.将隶属度值小于β 的对象集合划分为负域(Exclusion), 表明元素x不属于集合X; 大于α 的对象集合划分为核(Core), 表明元素x属于集合X; 其余对象集合为阴影域(Shadow), 表明元素x可能属于也可能不属于X, 存在不确定性.

因此, 给定下近似参数β , 相应地可定义阴影集的核、阴影域和负域:

其中, F(x)为映射函数, 文中为深度学习输出的样本隶属度值.给定下近似参数, 可将论域划分为3个区域, 从而将数据根据隶属度划分为3部分, 进而确定数据中的不确定区域, 如图1所示.

图1 基于阴影集进行区域划分Fig.1 Region division based on shadowed sets

1.2 基于三支决策的级联模型

阴影集依据不确定性平衡原则求解α β , 将论域划分为3个区域:核、阴影域和负域.为了使这3个区域符合实际决策情景, 从三支决策的角度出发, 对其进行解释.

任何将问题一分为三而逐一解决的方法其实都可以称为三支决策, 狭义的三支决策主要指以粗糙集、模糊集、区间集、阴影集等集合论为基础的三支决策, 广义的三支决策泛指使用这种思想求解问题的方法, 如三支聚类、三支粒计算等.因此, 三支决策包含阴影集, 是更一般化、通用化的决策方法.

在三支决策的视角下, 可将阴影集划分的核、阴影域和负域分别解释为决策中的接受决策、延迟决策和拒绝决策, 并对延迟决策部分构建二级模型, 结合深度学习和传统图像分类方法各自的优势, 结合传统方法降低深度学习分类结果中存在不确定性的部分, 提高分类性能.

1.2.1 模型框架

在实际决策过程中, 由于存在信息的不完备性、环境的复杂性、先验知识的有限性等不确定情况, 决策结果存在较大的不确定性, 任何模型都无法保证对样本的预测结果绝对正确.因此, 通过对不确定域进行重点研究, 可对决策对象的认知粒度做出细化, 降低不确定域对分类结果的影响, 提高决策的准确性.为此, 本文从三支决策出发, 提出两阶段图像分类方法, 使信息在深度学习和传统的机器学习之间传递, 结合二者各自的优势, 提高分类性能.

本文方法整体流程如图2所示, 首先, 将测试样本输入一阶段的CNN中, 不同于直接选择隶属度最大的类别作为预测类别, 本文选择输出对应的隶属度矩阵.然后, 通过基于阴影集的样本划分算法将输出结果分为确定域和不确定域, 其中确定域部分的预测类别已确定, 对于不确定域部分做出延迟决策.将不确定域再次输入到二级模型中, 融合深度学习特征和传统特征, 提升二级模型在不确定域部分的分类效果.综合两次模型的输出, 得到最终的分类结果.

图2 本文方法框图Fig.2 Framework of the proposed method

1.2.2 获取基于阴影集的不确定性数据

在决策信息的不精确或不完备的情况下, 简单地采用接受或拒绝两种方式进行决策是不合理的, 这就是传统的两支决策的弊端.因此本文引入三支决策思想, 对于没有较大把握做出决策的样本, 在进一步的研究和学习后再进行最终判断, 即延迟决策.文中将阴影集理论中的核、负域和阴影域解释为接受域(Accept)、拒绝域(Reject)和不确定域(Un-certain), 划分的3个域可构造相应的三支决策规则, 其中接受域表示接受, 拒绝域表示拒绝, 不确定域表示不做出任何承诺, 即延迟决策.关键问题就在于下近似参数β 的确定.

参照Pedrycz等[16, 25]提出的不确定性平衡原则, 设计目标优化函数, 进而确定β .定义优化目标如下:

其中, β ∈ [μ min, μ min+0.5μ max], μ min表示隶属度的最小值, μ max表示隶属度的最大值.

因此, 当已知测试集样本属于某一特定类别c的隶属度μ i, i=0, 1, …, n-1时, 获取β 的算法如算法1所示.

算法1 获取β

输入 测试集样本i属于某一特定类别c的隶属度值μ i, i=0, 1, …, n-1

输出β

β ← 0.5, μ maxmax0in-1μ i;

Ω 1μiβμ i,

Ω 2μiμmax-β(μ max-μ i),

Ω 3β< μi< αμ i;

OΩ 1+Ω 2-Ω 3

while O> 0:

β β -0.001;

Ω 1μiβμ i,

Ω 2μiμmax-β(μ max-μ i),

Ω 3β< μi< αμ i;

OΩ 1+Ω 2-Ω 3;

end while

return β

根据测试样本隶属于某一类的隶属度, 依据算法1可获得对应的β , 从而将样本划分为3个域.接受域表明样本属于该类; 不确定域表明对该样本的分类存在不确定性, 需要延迟决策获取更多信息后做出判断; 拒绝域表明样本不属于该类, 但该类对应的拒绝域中的样本也会落在其它类的接受域或不确定域中.为此, 本文进一步设计算法2, 用于处理多分类问题, 划分不确定域进行延迟决策.算法2的思想是:对于每个类别, 根据测试样本对应该类的隶属度值, 划分接受域、不确定域和拒绝域, 所有的接受域去除存在重叠的部分即为确定域, 预测类别已知, 剩下的部分为不确定域, 存在不确定性, 需要进一步处理.算法2步骤如下所示.

算法2 基于阴影集的不确定性数据获取算法

输入 测试样本的索引集合D, 大小为1× N, 测试样本的N× C维隶属度矩阵M, N表示样本数, C表示类别数, 第i个样本属于第j类的隶属度Mij

输出 需要进行延迟决策的不确定域U

KØ , PØ , β ← 0;

for j← 0 to C-1:

μ maxmax0iN-1Mij;

β ← get_β (M[∶ , j]);

/* 根据样本属于第i类的隶属度值计算对应的 β * /

K← {i|0≤ iN-1, Mijμ max-β }; /* 根据β 求接受域 * /

PPK-PK; /* 去除接受域之间重叠的部分 * /

end for

U=D-P;

return U

使用阴影集划分样本并进行三支决策的一个简单示例如图3所示.

图3 基于阴影集的样本划分示例Fig.3 Sample partitioning based on shadowed sets

1.2.3 构建基于特征融合的二阶段模型

对于在一阶段过程中划分的不确定性域, 由于深度学习针对这一部分的样本不能取得较好的分类效果, 因此考虑引入传统的图像特征并与深度学习特征进行融合, 借助机器学习对该部分样本进行二次分类, 消除不确定性.

在本文实验中, 二阶段选用的特征包括颜色直方图、LBP、HOG.三者的特征维度分别为96维、59维、576维.颜色直方图是一种常见的颜色特征, 描述不同色彩在整幅图像中所占的比例.LBP为描述图像局部特征的算子, 计算简单、效果较好, 具有灰度不变性和旋转不变性等优点.HOG为表征图像局部梯度方向和强度分布特性的描述符, 较好地表达图像中物体的轮廓信息, 对图像几何形变及光照变化都保持较好的不变性.

深度学习特征采用CNN全连接层之前的卷积层输出的特征, 特征维度根据使用的深度学习模型而有所变化.特征融合方法采用将不同特征的特征向量直接拼接当作一个特征向量并进行归一化, 融合后的特征向量维度等于所有特征向量的维度之和.本文选择的深度学习模型有VGG16、ResNet18、GoogleNet、MobileNet_V2.具体的深度学习模型对应的特征维度如表1所示.

表1 模型及对应的特征维度 Table 1 Models and corresponding feature dimensions

在分类器的选择方面, 由于SVM可较好地处理小样本集的情况, 克服传统机器学习容易陷入局部最优解的问题, 并且能将低维空间的非线性问题映射到高维空间, 使其转变为线性问题, 具有较优的推广能力, 因此选用SVM作为二级分类器.

2 实验及结果分析
2.1 实验数据集和评价指标

实验采用CIFAR-10数据集和Caltech 101数据集.

CIFAR-10数据集是一个常用的通用图像分类数据集, 由10类32× 32的彩色图像组成, 包含60 000幅图像, 每类包含6 000幅图像.本次实验中, 从原始划分好的包含50 000幅图像的训练集中针对每类选取1 000幅图像共10 000幅图像作为验证集, 其余40 000幅图像作为训练集, 原始的10 000幅测试图像仍作为测试集.

Caltech 101数据集是由101个类别的图像组成的数据集, 不同类别包含40~800幅图像, 大多数类别都有50幅图像.每幅图像的大小约为300× 200.实验中按照0.6∶ 0.2∶ 0.2的比例将原始数据集划分为训练集、验证集、测试集.

实验中选择分类准确率作为评价指标.分类准确率是指分类正确的样本数占样本总数的比例:

Tacc= TcorrectTsum× 100%,

其中, Tacc表示在测试集T上的分类准确率, Tcorrect表示在测试集T上分类正确的样本数量, Tsum表示测试集T的样本总数.

对于图像分类任务来说, 分类准确率是常见也是常用的性能度量指标.当类别样本不均衡或更想关注某类或某几类的分类效果时, 分类准确率就不能较好地评价性能优劣, 此时可能需要使用查准率或查全率等其它评价指标.但本次实验使用的数据集

中各类别的样本数量较均衡, 并且只需要关注整体的分类效果, 因此选用分类准确率作为性能评价指标.

通过算法2可将测试集T划分为确定域CER和不确定域UNC.为了更直观地表示三支决策带来的实验效果, 定义确定域准确率CERacc和不确定域准确率UNCacc, 计算方式同Tacc, 但将T换为相应的确定域CER和不确定域UNC.具体定义如下:

确定域样本总数CERsum加上不确定域样本总数UNCsum等于测试集样本数目Tsum.

2.2 实验结果

实验过程中深度学习采用迁移学习, 从在ImageNet上预训练得到的网络权重开始, 整个网络权重在训练集上进行微调, 达到网络训练的目的, 同时保存在验证集上效果最优的模型参数.

使用的深度学习模型有VGG16、ResNet18、GoogleNet和MobileNet_V2.由于VGG16参数量较大, 因此在实验过程中冻结前面的卷积层参数, 不对整个网络权重进行更新, 仅更新全连接层参数.

实验过程中使用随机梯度下降(Stochastic Gradient Descent, SGD)进行网络反传, 损失函数采用交叉熵损失(Cross Entropy Loss).其它训练参数设置如下:学习率为0.001, 动量为0.9, 批尺寸大小为32, 迭代次数为20.

实验过程中首先将CNN在训练集上进行微调并在验证集上进行验证, 保存模型在验证集上具有最佳性能时的参数.训练完成后, 将测试集输入模型中, 得到一阶段模型的分类准确率及对应样本的隶属度矩阵.一阶段模型的实验结果如表2所示.

表2 一阶段模型的实验结果 Table 2 Experimental results in stage one

表2可看出, 通过算法2划分的不确定域中的样本确实存在较大的分类不确定性.在CIFAR-10、Caltech101数据集上, 此部分的准确率都远低于确定域部分及整体的分类准确率.由此可证实使用的样本划分算法的有效性.

再通过算法2划分样本的确定域和不确定域, 对于不确定域做出延迟决策, 输入到二阶段模型中.二阶段模型使用传统特征(颜色直方图、LBP、HOG)结合深度学习特征对一阶段模型得到的不确定域样本进行分类.实验过程中将这3种特征与CNN最后一个卷积层输出的特征融合, 并利用SVM进行训练和测试.在CIFAR-10数据集上, 从一阶段模型的训练集中随机抽取25%的样本作为二阶段模型的训练样本, 在Caltech 101数据集上, 二阶段模型与一阶段模型训练样本相同.经过二阶段分类后整体的实验结果如表3所示.

表3 两级模型在2个数据集上的实验结果 Table 3 Experimental results of two-stage model on 2 datasets %

表3可看出, 相比一阶段模型, 二阶段模型在不确定域部分上的分类准确率更高, 可提升整体的分类准确率.这说明基于三支决策的级联模型能在一定程度上解决一阶段模型预测结果的不确定性, 有效提升分类表现.本文方法在CIFAR-10、Caltech 101数据集上的最佳准确率达到94.51%和95.10%.

选择如下对比方法:VGG-19(Spinal Fully Co-nnected Layer, Spinal FC)[26]、文献[27]方法、Standard ACNet(Adaptively Connected Neural Net-work)[28]、文献[29]方法、文献[30]方法、文献[31]方法、DTSCNN(Dual-Tree Complex Wavelet Transform ScatterNet Convolutional Neural Network)[32]、文献[33]方法、ResNet+ELU(Deep Residual Networks with Exponential Linear Unit)[34]、文献[35]方法.各方法的分类准确率对比如表4所示.表4结果表明本文方法在降低分类结果不确定性方面的有效性.

表4 各方法的分类准确率对比 Table 4 Classification accuracy comparison of different algorithms %

级联模型对于分类性能的改善的主要原因在于单个分类器的预测结果存在较大的不确定性.正如表2所示, 分类器在不确定域部分的分类准确率远低于确定域及整体的分类准确率, 这就是预测结果的不确定性.从三支决策角度出发构建两阶段分类器, 可以从额外的分类器中获取更多的信息, 降低单个分类器的不确定性.正如实验结果所示, 级联深度学习模型和机器学习模型使信息在不同模型之间传递, 弥补单个分类器的局限性, 提升分类准确率.

2.3 算法时间复杂度分析

本文方法主要分为两个阶段, 第一阶段为正常的深度学习分类, 第二阶段针对不确定域通过特征融合和传统方法进行分类.额外的时间开销主要有不确定域的获取和二阶段模型的训练及分类两方面.

在不确定域的获取方面, 算法1只需一次遍历即可获得结果, 假设N为样本数, 时间复杂度为O(N).对于算法2, 需要对每类的隶属度数组执行算法1, 假设C为类别数, 算法2的时间复杂度为O(CN).在实验过程中, 算法1及算法2的时间开销可忽略不计.

在第二阶段, 需要训练一个机器学习模型, 对不确定域进行分类, 这也是本文方法主要的额外时间开销.两个阶段模型训练的时间如表5所示.实际的训练耗时依赖于硬件性能, 实验中所使用的 GPU为 RTX2080Ti, 11 GB显存, CPU为i9-10900X.

表5 二阶段模型的训练耗时对比 Table 5 Comparison of training time consuming of two-stage model min

表5可看出, 使用VGG16+SVM时, 二阶段训练耗时会显著增加, 这主要是因为此时融合特征维度为4 827, 特征维度较高, 因此训练耗时增加.但总体来说, 相比一阶段, 二阶段的训练耗时占总体比重较小.

在测试阶段, 由于模型已经过训练, 只是进行分类, 此时对不确定域进行延迟决策的耗时可忽略.因此, 本文方法虽然对不确定域进行延迟决策, 但整体的时间效率并不会显著增加.

3 结束语

在实际应用中, 主流的深度学习方法未考虑现实世界中图像数据的不确定性.在决策信息不完备时, 简单地采用接受或拒绝两种方式进行决策是不合理的, 这就是传统两支决策的弊端.三支决策作为一种符合人类认知模式的理论模型, 当信息不足时做出延迟决策, 对不确定域进行进一步研究, 可对决策对象的认知粒度做出细化, 提高决策的准确性.因此, 本文提出基于三支决策的二阶段图像分类方法, 利用基于阴影集的三支决策模型进行不确定域求解, 并结合特征融合方法, 降低分类结果的不确定性.在CIFAR-10、Caltech 101数据集上的实验验证本文方法在降低分类结果不确定性方面的有效性.今后主要研究如何对划分的不确定域进行更有效的处理, 如选用更高效的特征融合方式, 从而使整个模型在效率和精度上能有进一步的提升.

参考文献
[1] OJALA T, PIETIKÄINEN M, HARWOOD D. A Comparative Study of Texture Measures with Classification Based on Featured Distributions. Pattern Recognition, 1996, 29(1): 51-59. [本文引用:]
[2] OJALA T, PIETIKÄINEN M, MAENPAA T. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns. IEEE Transactions on Pattern Analysis and Machine Inte-lligence, 2002, 24(7): 971-987. [本文引用:]
[3] LOWE D G. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 2004, 60(2): 91-110. [本文引用:]
[4] LOWE D G. Object Recognition from Local Scale-Invariant Features // Proc of the 7th IEEE International Conference on Computer Vision. Washington, USA: IEEE, 1999, II: 1150-1157. [本文引用:]
[5] TRIGGS B, DALAL N. Histograms of Oriented Gradients for Human Detection // Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2005, I: 886-893. [本文引用:]
[6] COVER T, HART P E. Nearest Neighbor Pattern Classification. IEEE Transactions on Information Theory, 1967, 13(1): 21-27. [本文引用:]
[7] CORTES C, VAPNIK V. Support-Vector Networks. Machine Lear-ning, 1995, 20: 273-297. [本文引用:]
[8] BREIMAN L. Rand om Forests. Machine Learning, 2001, 45: 5-32. [本文引用:]
[9] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks. Communications of the ACM, 2017, 60(6): 84-90. [本文引用:]
[10] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C/OL]. [2021-04-22]. https://arxiv.org/pdf/1409.1556.pdf. [本文引用:]
[11] SZEGEDY C, LIU W, JIA Y Q, et al. Going Deeper with Convolutions // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2015. DOI: DOI:10.1109/CVPR.2015.7298594. [本文引用:]
[12] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 770-778. [本文引用:]
[13] HU J, SHEN L, ALBANIE S, et al. Squeeze-and -Excitation Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 42(8): 2011-2023. [本文引用:]
[14] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-Level Accuracy with 50x Fewer Parameters and < 0. 5 MB Model Size[C/OL]. [2021-04-22]. https: //arxiv. org/pdf/1602. 07360. pdf. [本文引用:]
[15] HOWARD A G, ZHU M L, CHEN B, et al. Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications[C/OL]. [2021-04-22]. https: //arxiv. org/pdf/1704. 04861v1. pdf. [本文引用:]
[16] PEDRYCZ W. Shadowed Sets: Representing and Processing Fuzzy Sets. IEEE Transactions on Systems, Man, and Cybernetics (Cybernetics), 1998, 28(1): 103-109. [本文引用:]
[17] MITRA S, PEDRYCZ W, BARMAN B. Shadowed c-means: Integrating Fuzzy and Rough Clustering. Pattern Recognition, 2010, 43(4): 1282-1291. [本文引用:]
[18] ZHOU J, PEDRYCZ W, MIAO D Q. Shadowed Sets in the Characterization of Rough-Fuzzy Clustering. Pattern Recognition, 2011, 44(8): 1738-1749. [本文引用:]
[19] 苏小红, 赵玲玲, 谢琳, . 阴影集的模糊支持向量机样本选择方法. 哈尔滨工业大学学报, 2012, 44(9): 78-84.
(SU X H, ZHAO L L, XIE L, et al. Shadowed Sets-Based Sample Selection Method for Fuzzy Support Vector Machine. Journal of Harbin Institute of Technology, 2012, 44(9): 78-84. ) [本文引用:]
[20] 周玉, 钱旭, 王自强. 基于阴影集数据选择的可拓神经网络性能改进. 北京工业大学学报, 2013, 39(3): 430-437.
(ZHOU Y, QIAN X, WANG Z Q. Performance Improvement of Extension Neural Network Using Data Selection Method Based on Shadowed Sets. Journal of Beijing University of Technology, 2013, 39(3): 430-437. ) [本文引用:]
[21] MITRA S, KUNDU P P. Satellite Image Segmentation with Sha-dowed c-means. Information Sciences, 2011, 181(17): 3601-3613. [本文引用:]
[22] ZHANG H Y, ZHANG T, PEDRYCZ W, et al. Improved Adaptive Image Retrieval with the Use of Shadowed Sets. Pattern Recognition, 2019, 90: 390-403. [本文引用:]
[23] YAO Y Y. Three-Way Decisions with Probabilistic Rough Sets. Information Sciences, 2010, 180(3): 341-353. [本文引用:]
[24] YAO Y Y. The Superiority of Three-Way Decisions in Probabilistic Rough Set Models. Information Sciences, 2011, 181(6): 1080-1096. [本文引用:]
[25] PEDRYCZ W. From Fuzzy Sets to Shadowed Sets: Interpretation and Computing. International Journal of Intelligent Systems, 2009, 24(1): 48-61. [本文引用:]
[26] KABIR H M D, ABDAR M, JALALI S M J, et al. SpinalNet: Deep Neural Network with Gradual Input[C/OL]. [2021-04-22]. https: //arxiv. org/pdf/2007. 03347v2. pdf. [本文引用:]
[27] HUSSAIN N, KHAN M A, SHARIF M, et al. A Deep Neural Network and Classical Features Based Scheme for Objects Recognition: An Application for Machine Inspection. Multimedia Tools and Applications, 2020. DOI: DOI:10.1007/s11042-020-08852-3. [本文引用:]
[28] WANG G K, WANG K Z, LIN L. Adaptively Connected Neural Networks // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2019: 1781-1790. [本文引用:]
[29] LIU Q, MUKHOPADHYAY S. Unsupervised Learning Using Pretrained CNN and Associative Memory Bank // Proc of the International Joint Conference on Neural Networks. Washington, USA: IEEE, 2018: 1-8. [本文引用:]
[30] LOUSSAIEF S, ABDELKRIM A. Deep Learning vs. Bag of Features in Machine Learning for Image Classification // Proc of the International Conference on Advanced Systems and Electric Technologies. Washington, USA: IEEE, 2018: 6-10. [本文引用:]
[31] RASHID M, KHAN M A, SHARIF M, et al. Object Detection and Classification: A Joint Selection and Fusion Strategy of Deep Con-volutional Neural Network and SIFT Point Features. Multimedia Tools and Applications, 2019, 78(12): 15751-15777. [本文引用:]
[32] SINGH A, KINGSBURY N. Efficient Convolutional Network Lear-ning Using Parametric Log Based Dual-Tree Wavelet ScatterNet // Proc of the IEEE International Conference on Computer Vision Workshops. Washington, USA: IEEE, 2017, I: 1140-1147. [本文引用:]
[33] ZHENG Q H, YANG M Q, ZHANG Q R, et al. Understand ing and Boosting of Deep Convolutional Neural Network Based on Sample Distribution // Proc of the 2nd IEEE Information Technology, Networking, Electronic and Automation Control Conference. Washington, USA: IEEE, 2017: 823-827. [本文引用:]
[34] SHAH A, KADAM E, SHAH H, et al. Deep Residual Networks with Exponential Linear Unit // Proc of the 3rd International Symposium on Computer Vision and the Internet. New York, USA: ACM, 2016: 59-65. [本文引用:]
[35] LEE C Y, GALLAGHER P W, TU Z W. Generalizing Pooling Functions in Convolutional Neural Networks: Mixed, Gated, and Tree // Proc of the 19th International Conference on Artificial Intelligence and Statistics. New York, USA: ACM, 2016: 464-472. [本文引用:]