
彭锦佳,博士,讲师,主要研究方向为行人重识别、图像处理.E-mail:pengjinjia@hbu.edu.cn.
作者简介:
宋鹏鹏,硕士研究生,主要研究方向为行人重识别.E-mail:songpengpeng@stumail.hbu.edu.cn.
王辉兵,博士,副教授,主要研究方向为机器学习、图像处理.E-mail:huibing.wang@dlmu.edu.cn.
行人重识别旨在从不同的摄像头中识别目标行人的图像.由于不同场景之间存在域偏差,在一个场景中训练好的重识别模型常常无法直接应用在另一个场景,并且从摄像头收集的数据通常包含敏感的个人信息,而现有的大部分重识别方法通常需要训练数据的集中化,这可能会带来隐私泄露问题.因此,文中提出面向隐私保护的联邦域泛化行人重识别方法(Federated Domain Generalization Person Re-identification with Privacy Preserving, PFReID),在保护行人隐私的前提下,从独立的多个非共享数据域中学习泛化模型.使用频域空间插值的方法平滑各个客户端在数据集上的域偏差,增加样本的多样性,提高各客户端模型的泛化性能.在客户端构建双分支对齐学习网络,保证客户端局部模型和全局模型学习表示的一致性,用于客户端局部模型的更新.在多个公开行人数据集上的实验验证PFReID的性能较优.
PENG Jinjia, Ph.D., lecturer. Her research interests include person re-identification and image processing.
About Author:
SONG Pengpeng, master student. His research interests include person re-identification.
WANG Huibing, Ph.D., associate profe-ssor. His research interests include machine learning and image processing.
Person re-identification aims at recognizing images of target pedestrians in different cameras. The re-identification model trained in one scene cannot be directly applied in another scene, due to the domain bias between different scenes. The data collected from cameras often contains sensitive personal information. Most of the existing re-identification methods usually require centralization of training data, resulting in privacy leakage problems. Therefore, a method for federated domain generalization person re-identification with privacy preserving(PFReID) is proposed in this paper to learn a generalized model in a non-shared data domain with pedestrian privacy preserved. In PFReID, the frequency-domain spatial interpolation is introduced to smooth the domain deviation of each client on datasets, increase the diversity of samples and improve the generalization performance of client models. Moreover, a double-branch alignment learning network is designed for the update of the client-side local model by maximizing the consistency between the learned representation of the client-side local model and the learned representation of the global model. The superiority of PFReID is verified on public pedestrian datasets.
行人重识别(Person Re-identification, ReID)旨在非重叠摄像头网络中匹配目标行人图像, 这一直是监控和公共安全领域的热门话题之一.大多数现有的方法侧重于全监督式学习, 即训练数据和测试数据来自同一场景(域)中并具有标签.这类方法可取得显著性能[1, 2, 3].然而, 拍摄环境(背景、光照和拍摄角度)不断动态变化, 造成场景之间存在明显的域偏差, 在一个场景(源域)中训练的重识别模型直接应用到另一个场景(目标域)中时, 性能会出现明显下降.
域泛化(Domain Generalization, DG)是上述问题的主要解决方法之一, 在不依赖任何目标域数据的前提下, 旨在从源域有标签数据中学习泛化性能较强的重识别模型[4, 5, 6].但是, 从摄像头收集的数据通常包含敏感的个人信息, 如行人的身份和位置信息.现有的域泛化方法通常需要在多个域的数据集上训练模型, 这可能会造成信息泄露.因此, 越来越严格的数据隐私规则限制重识别方法的应用.
为了在解决跨域重识别问题的同时, 保护行人的隐私信息, 学者们开始探索基于联邦学习的重识别方法, 利用多个客户端, 在不交换本地数据的基础上, 共同辅助学习模型.Wu等[7]提出FedReID(Fe-derated Person Re-identification), 结合域泛化方法和联邦学习, 共同解决隐私问题.在一般的域泛化重识别框架中, 主要将多个单独的数据集作为不同的域, 集中所有的数据集建立关联模型, 在训练过程中, 调整重识别模型以适应不同域的数据分布, 从而得到泛化性能较高的重识别模型.而在联邦学习域泛化问题中, 将每个域作为单独的客户端, 客户端之间无任何数据传输, 利用FedAvg(Federated Averaging)[8]等方法反复迭代局部模型和全局模型.
虽然基于联邦学习的域泛化方法已有一定的发展, 但是, 对于重识别问题, 由于不同数据集上的行人图像来自不同的摄像头和地区, 数据量和数据分布均不一致.因此, 利用联邦学习构建域泛化行人重识别训练框架的两个关键问题如下.1)不同客户端行人数据的分布异质性.这会导致当有一个客户端更新局部模型时, 局部优化目标会远离全局的优化目标, 得到的平均全局模型也会远离全局最优值.因此, 如何在平衡局部模型和全局模型的训练的前提下提高模型的泛化能力是联邦重识别任务面临的一个重要挑战.2)在联邦学习中服务器端模型与客户端模型具有强依赖关系, 客户端的泛化性能也决定服务器端重识别模型的泛化性能.因此, 如何学习本地客户端中模型的泛化信息并传输到全局服务器端也是需要解决的一个关键问题.
综上所述, 本文提出面向隐私保护的联邦域泛化行人重识别方法(Federated Domain Generalization Person Reidentification with Privacy Preserving, PFRe-ID), 在保护数据隐私的同时, 构建全局服务器(Server)和多个客户端(Client)的分布式协作模型.在不共享训练数据的前提下, 完成泛化性能较高的重识别模型的训练.PFReID主要通过两种途径缓解联邦学习模型训练的问题.一方面, 利用频域信息的修改和增强, 增加客户端数据集的多样性, 平衡局部模型和全局模型的收敛程度, 在一定程度上避免因局部数据过于简单而出现的局部模型过拟合的现象.另一方面, 为了缓解客户端和服务器端模型优化不一致的问题, 在客户端采用局部多模型训练的方式, 利用多个模型分别存储局部训练参数和全局更新参数, 多个模型之间通过对齐训练, 从而保证训练过程中的连续性和一致性.
在重识别方向, 相比完全依赖标签的全监督式模型训练方法, 近期的工作更关注于训练泛化性能高的重识别模型, 如域适应重识别方法和域泛化重识别方法.相比域适应重识别方法, 域泛化重识别方法直接使用多个源域训练重识别模型并直接将获得的模型部署到目标域中, 无需进一步微调[9].因此, 域泛化重识别方法对目标域的标签依赖非常小, 更适用于真实场景.Zhang等[10]提出SuA-SpML(Style-Uncertainty Based Self-Paced Meta Learning), 使用高斯噪声干扰行人样本的风格以随机化初始训练数据, 并结合自步元学习策略, 逐步提高模型的泛化性.Zhao等[11]设计随机分裂滑动采样器, 抑制模型偏向源域, 并从优化过程的角度提出方差变化的梯度随机失活(Dropout), 从而增强重识别的泛化性能.Zhao等[12]提出M3L(Memory-Based Multi-source Meta-Learning), 利用元学习提高重识别模型的泛化能力, 并将记忆库整合到训练过程中, 解决数据传输中存在的一些问题.Ni等[13]考虑在训练和测试期间分别将源域分布和目标域分布与已知的先验分布对齐, 提出MDA(Meta Distribution Alignment), 通过分布编码器将身份特征编码到潜在空间中, 并与标准高斯分布对齐, 以此提高模型的泛化性能.Zhou等[14]为学习细粒度特征和防止模型在源域数据上过拟合, 设计OSNet(Omni-Scale Network), 通过具有多个不同感受野大小的卷积块捕获全尺度特征, 由此产生全尺度特征图, 进一步通过统一聚合门生成的通道权重动态融合该图, 实现动态尺度融合, 增强模型的重识别泛化性能.Zhang等[15]为了解决领域冲突问题, 提出ACL(Adaptive Cross-Domain Learning), 为域不变特征和域特定特征维护一个公共特征空间, 捕捉不同领域之间的关系, 同时通过动态调整的模型架构学习领域自适应特征, 在提高模型泛化性能的同时有效降低计算成本.Gong等[16]受人类终身学习的课程式学习启发, 从域泛化角度提出DCCL(Debiased Contrastive Curriculum Learning), 旨在以一种从易到难的训练范式帮助模型学习丰富的域不变判别特征, 逐步有效消除域偏移, 增强模型的泛化性能.
现有的域泛化行人重识别方法的数据大都来自多个不同的域, 并且需要将数据收集后, 再进行统一的训练.但是, 集中大量行人图像会增加潜在的隐私泄露风险.因此, 本文针对隐私保护的域泛化行人重识别方法展开研究.
联邦学习技术[17]为协同人工智能模型训练带来新的解决方案.利用多方数据进行协同模型训练, 往往需要各方数据进行一定程度上的共享, 这意味着各方的私有数据面临着数据隐私泄露的风险.已有分布式机器学习方式可以在独立的各个节点上进行模型训练, 但对数据分布有要求, 适用于节点数据呈现独立同分布的情形.而联邦学习消除上述弊端, 在进行多方协同模型训练时, 各方用于训练的私有数据存储在本地而无需提前收集或共享, 通过聚合各局部模型在其训练数据上的参数更新, 学习全局模型, 最终各方在保证数据隐私的前提下获得集成各方数据优势的共享模型.
传统的联邦学习旨在利用同个标签空间中的分散数据学习一个共享模型并降低通信成本.McMahan等[8]提出联邦随机梯度下降算法和联合平均算法, 用于迭代平均局部参数, 更新共享模型.但是, 在行人重识别任务中, 每个局部域中的数据都是来自完全不同的人群, 与其它域不存在重叠, 是独立的, 导致在ID空间和语义空间上的独立.因此, 需要同时学习每个本地客户端中的非共享本地知识和中央服务器中潜在的共享知识.所以, Zhuang等[18]首次利用联邦学习构建分布式行人重识别模型, 并利用知识蒸馏和权重重分配方法解决数据异构性带来的性能问题.Wu等[7]提出FedReID, 同时学习多个隐私保护的局部, 用于构建可通用的全局模型, 注重局部模型和全局模型在训练过程中差异性的维护.每个客户端由一个用于视觉特征提取的特征嵌入网络和一个用于分类的映射网络组成, 并且在每个本地客户端中, 额外使用本地专家规范本地客户端模型的训练过程, 提高泛化性能.Yang等[19]提出DFH(Domain and Feature Hallucinating), 主要使用随机权重法合成新域的统计信息与本地信息, 平滑多个客户端中不同分布数据之间的异质性.Sun等[20]提出SKA(Selective Knowledge Aggregation):平衡模型个性化和泛化训练, 将注意力归一化整合到模型的归一化层中, 局部学习个性化知识; 利用双局部归一化机制学习本地客户端中模型的泛化信息, 并传输到全局服务器端, 提高全局模型的泛化能力.
现有的基于联邦学习的重识别方法较少, 主要关注点是平衡服务器中的全局模型和本地客户端的局部模型的训练, 发掘更多的潜在的泛化信息, 但是大部分方法只考虑利用全局模型和本地客户端模型之间的关联问题, 忽视客户端的泛化能力.因此, 本文重点考虑利用频域信息增强客户端对新环境的适应能力, 并在客户端构建多网络训练模型, 保持客户端和服务器端学习过程中的一致性.
假设有N个有标签的源域, 对于一个有Mi幅图像的域i(1≤ i≤ N), 训练客户端的局部模型φ i, 数据集可表示为
Di={(x1, y1), (x2, y2), …, (
本文目标是在多个源域之间无任何通信的前提下, 共同协作优化泛化性较强的服务器端的全局重识别模型T, 而生成的全局模型T将会用于未见过的域.
本文主要研究面向隐私保护的域泛化行人重识别任务.该任务旨在无需本地私有数据, 通过从独立的多源域标签空间中学习泛化性较高的模型.因此, 提出面向隐私保护的联邦域泛化行人重识别方法(PFReID), 具体结构如图1所示.假设有N个从不同地区捕获的私有数据集, 但是由于隐私保护, 导致这些数据集无法共享, 因此形成N个独立的客户端.每个客户端使用私有数据训练局部模型, 并将模型更新参数上传到中心服务器.中心服务器中的全局模型聚合局部更新参数后, 再将聚合参数传输到每个客户端.客户端-服务器协作学习过程是迭代处理的, 并从具有隐私保护的分散数据中学习泛化性能高的模型.
如图1所示, 对于每次训练, 服务器和客户端协作训练模型, 可分为如下四步.
1)局部训练.每个客户端第t-1次训练得到局部模型(
2)模型上传.每个客户端上传训练好的局部模型
3)模型聚合.服务器端接收各客户端的局部模型参数, 并聚合得到新的全局模型wt.
4)模型更新.服务器端将聚合后的全局模型wt下发到局部模型, 作为局部模型第t次训练的初始化参数.
中心服务器T(wt)不需要任何客户端数据用于模型的优化, 它的参数使用客户端局部模型上传的数据进行更新.其中, wt为第t次通信后中心模型的参数.在实施部署阶段, 服务器端全局模型T(wt)直接用于新环境中进行重识别测试.
训练数据为多分布的数据集, 并且每个客户端模型只能接触到一个单一分布.如何保证模型跨分布的泛化性是需要解决的一个主要问题.考虑到本文方法是建立在客户端之间无信息交互的基础上, 禁止共享原始图像, 因此, 本文提出在保证无信息泄露的前提下, 使用全局均值和方差建立与全局数据分布的联系.主要考虑如下2个问题.1)由文献[21]可知, 同个客户端内的数据集上由于采集时间和采集地点的不同, 也存在域偏差.客户端的重识别模型会由于域偏差, 导致局部模型的判别能力不高.2)由于不同客户端数据量不同, 图像多样性也有差别.因此, 可能会出现模型训练程度不同的情况, 导致部分客户端因数据过于简单出现局部模型过拟合.因此, 本文提出使用频域空间插值方法平滑各个客户端的数据集上的域偏差, 并增加客户端的训练样本多样性.
频域空间插值方法示意图如图2所示.假设给定第k个客户端的输入图像
F(xki)(u,v,c)=H−1∑h=0W−1∑w=0xki(h,w,c)e−j2π(hHu+wWv)
其中, H、W分别为图像的高、宽, C为通道数.
获得的频域特征F(
此外, 通常认为客户端中的数据Dk符合高斯分布, 因此, 可以使用均值
ˆμD=1NN∑i=1μDk,
(ˆσD)2=1NN∑i=1(ˆσDk)2,
其中
因此, 为了提高客户端和服务器端的联系, 对于第k个客户端内随机选取的另一幅图像
然后利用图像
其中, λ ∈ [0, 1.0]表示插值系数,
将插值后的幅值信息和原始的相位信息结合, 再进行傅里叶反变换(Inverse FFT, IFFT), 得到新的图像:
其中, 生成的图像
该方法通过上述处理过程, 在扩充数据集的同时, 可以有效缓解各客户端模型过拟合情况, 平滑域内偏差, 提高自身在新域中的泛化能力.
本文在2.2节中已使用频域空间插值的方法增加样本的多样性, 缓解部分客户端因数据过于简单出现局部模型过拟合的问题.但是, 由于不同客户端训练的模型总会存在偏差, 并且服务器端训练的模型的泛化性能通常会优于客户端模型.因此, 本文旨在减少客户端模型的学习表示与服务器端模型的学习表示之间的距离, 提高客户端局部模型的泛化能力.如图1中客户端结构图所示, 本地客户端包含1个网络:本地全局模型和局部模型.本地全局模型的初始化参数来自服务器端模型, 后续由客户端进行更新.
局部模型只与本地数据相关, 参数在训练过程中进行优化更新.为了保持客户端局部模型与全局模型训练过程中的一致性, 本文设计对齐学习, 减小局部模型与全局模型学习表示之间的距离.
在利用2.3节的频域空间插值方法得到丰富的样本后, 本文考虑设计可以更好地提取泛化能力更强的特征网络.Wang等[22]指出, 深度神经网络对特征的不同频率分量具有不同的偏好程度, 不同频率的分量可能会影响学习到的特征的鲁棒性.因此, 在训练阶段, 通过频域空间的注意力机制自动调整不同频率分量的权重以提高网络的泛化能力.
频域空间注意力机制示意图如图4所示, 对于输入的大小为H× W× C的特征图f的每个通道使用二维FFT转换到频域空间, 得到频域特征F, 大小为H× (⌊W/2」+1)× C, 其中实部和虚部都有C个通道.
频域特征F再通过由最大池化操作和平均池化操作组成的注意力模块后, 可得到频谱图的权重掩码:
mF=σ(Conv([Avg(F), Max(F)])),
其中, σ表示Sigmoid层, [·, ·]表示连接操作.Avg(·)和Max(·)分别表示取当前所在像素位置的所有通道的平均值和最大值.利用该掩码mF可过滤不利于模型泛化的频域分量:
f'=f⊗mF,
其中⊗为element-wise乘法.
假设Ci为客户端局部的Softmax分类器, Cg为当前本地全局模型的Softmax分类器.对于任意的输入图像x, 通过2个模型后, 会得到对应的逻辑特征表示Zi和Zg.本文目标是减小Zi与Zg的距离, 因此, 本文引入对齐损失lCO, 利用全局模型指导本地模型的训练, 定义lCO为
lCO=
因此, 对于输入(x, y), 损失为:
l=lSCE(x, y)+μ lCO(x, y), (2)
其中, μ 表示控制权重的超参数, lSCE表示标签平滑交叉熵损失.因此, PFReID客户端训练的步骤如算法1所示, 算法中
算法1 PFReID(客户端)
输入 每轮局部迭代次数E
输出 客户端模型wL
接收服务器端模型参数w
for e = 0, 1, …, E do
for 从当前客户端的数据集中随机选取的批处理
数据集Dbatch={x, y} do
lP← CrossEntropyLoss(
lC← CrossEntropyLoss(
lSCE=lP+lC
根据式(1)得到对齐损失lCO
根据式(2)进行反向传播, 更新本地模型参数wL
end for
end for
return wL
使用客户端的模型更新服务器端模型的参数, 然后利用服务器端新的模型再更新客户端.在每轮训练结束时, 服务器端聚合从客户端上传的参数.考虑到各个客户端的训练集的规模不同, 模型在训练过程中的收敛程度也不同, 因此, 受文献[7]的启发, 在本文方法中使用基于余弦距离权重的参数更新策略.根据模型的变化动态更新权重, 其中有较大变化的模型应在聚合过程中具有更大的权重, 以便学习更多的新知识.
假设所有客户端的训练集数量为|D|, 第i个客户端的训练集数量为|Di|, 本文使用余弦距离测量每个客户端的模型变化情况.
1)对于每个客户端, 随机选取训练图像Dbatch.
2)在第t轮训练中, 当客户端中的本地全局模型收到服务器端的模型参数后, 客户端模型会产生Dbatch对应的逻辑值
3)客户端模型参数(
4)客户端中的本地全局模型进行新一轮的训练, 获得新的模型参数(
5)利用新的本地全局模型参数(
6)利用
得到本地客户端的参数更新权值.
客户端将权重
wt+1=
更新服务器端模型参数.
综上所述, PFReID的服务器端具体过程如算法2所示.
算法2 PFReID(服务器端)
输入 通信次数T, 客户端数量N
输出 服务器端模型w
初始化服务器端模型参数w0
for t = 0, 1, …, T do
for k = 1, 2, …, N in parallel do
发送服务器端模型参数wt到客户端Pk
利用算法1训练局部并返回本地模型更新后的
参数
end for
利用式(3)和式(4)更新服务器端模型的参数wt+1
end for
本文实验涉及6个常用的行人重识别数据集, 分别为Market1501[23]、DukeMTMC-reID (DuKe)[24]、MSMT17[25]、CUHK03[26]、VIPeR[27]、iLIDS[28].表1列出各数据集上训练集、查询集和图库集的构成.
![]() | 表1 实验数据集 Table 1 Experimental datasets |
本文采用Rank-N和平均查准率(Mean Average Precision, mAP)评价实验性能, 其中, Rank-N指标是指在进行行人重识别时, 计算模型输出的特征向量与查询图像特征向量之间的相似度, 然后按相似度降序排列所有数据库上的行人图像, 查询图像在前N幅检索结果匹配身份一致检索图像的成功率.
实验平台为Pytorch[29], 使用的显卡型号为NVIDIA A6000.所有实验的重识别方法参数均利用Adam(Adaptive Moment Estimation)进行优化.在训练过程中, 客户端训练每轮局部迭代次数E设置为1, 动量因子设置为0.9, 批处理操作大小设置为64, 初始学习率均设置为0.05.
为了验证PFReID的有效性, 选择如下域泛化行人重识别方法作为对比方法:FedReID[7]、MDA[13]、文献[18]方法、MLDG(Meta-Learning Domain Gene-ralization Approach)[30]、DIMN(Domain-Invariant Map-ping Network)[31]、UMDL(Unsupervised Multi-task Dictionary Learning)[32]、PAUL(Patch-Based Unsuper-vised Learning Framework)[33]、TJ-AIDL(Transferable Joint Attribute-Identity Deep Learning)[34]、DSTML(Deeply Supervised Transfer Metric Learning)[35]、SyRI(Synthetic Person Re-identification)[36]、SSDAL(Semi-supervised Deep Attribute Learning)[37]、CROSS-GRAD[38]、BGM(Bistream Generative Model)[39]、PUL(Progressive Unsupervised Learning)[40]、SPGAN(Simi-larity Preserving Generative Adversarial Network)[41]、HHL(Hetero-Homogeneous Learning)[42]、BUC(Bottom-up Clustering)[43]、FedUReID(Federated Unsupervised Person ReID System)[44]、QAConv(Query-Adaptive Convolution)[45]、MetaBIN(Meta Batch-Instance Normalization)[46]、SNR(Style Normalization and Restitution)[47].
各方法在VIPeR、iLIDS、Market-1501、DuKe数据集上指标值的对比结果如表2和表3所示.在表2中, 训练集为Market1501、DuKe、MSMT-17、CUHK-03, 测试集为VIPeR、iLIDS.在表3中:当Market1501为测试集时, MSMT17、CUHK03、DuKe为训练集; 当DuKe为测试集时, Market1501、MSMT17、CUHK03为训练集.
![]() | 表2 各方法在VIPeR、ILIDS测试集上的Rank-1值对比 Table 2 Rank-1 comparison of different methods on VIPeR and ILIDS test sets % |
![]() | 表3 各方法在Market1501、Duke测试集上的指标值对比 Table 3 Indicator value comparison of different methods on Market1501 and Duke test sets % |
在不同的数据集上, PFReID均取得最优结果.从表2可以看出, 无论是相比未考虑隐私的方法(MLDG、DIMN等)还是跨域的方法(UMDL、PAUL等), PFReID的性能均有一定提升.相比同样使用联邦学习的FedReID和文献[18]方法, PFReID在测试数据集VIPeR、iLIDS上的Rank-1值分别提升3.8%和6.6%.主要是因为PFReID不仅考虑联邦学习中存在的服务器模型和客户端模型收敛不一致的情况, 还考虑利用频域插值模型扩充各客户端的数据集, 从而提高模型的泛化能力.此外, 通过表3可以看出, 相比较新的域泛化方法(SNR和MDA等), PFReID性能也有显著提高.这也说明在保护数据隐私的前提下, PFReID也可以得到较好的识别效果.
本文利用多组消融实验, 验证PFReID中3个组成部分的重要性:1)频域插值模型; 2)频域注意力模块; 3)多分支对齐学习网络.表4为消融实验设置说明.各模块在Market1501、CUHK03数据集上的消融实验结果如表5和表6所示, 表中黑体数字表示最优值.
![]() | 表4 消融实验设置 Table 4 Settings of ablation experiment |
![]() | 表5 各模块在Market1501数据集上的消融实验结果 Table 5 Results of ablation experiment of different modules on Market1501 dataset % |
![]() | 表6 各模块在CUHK03数据集上的消融实验结果 Table 6 Results of ablation experiment of different modules on CUHK03 dataset % |
频域插值模型主要是为了在无信息泄露的前提下, 扩充客户端训练集的多样性, 提高各个客户端模型的泛化性能.从表5和表6可以看出, 在Market-1501、CUHK03数据集上, 相比PFReID, 去除频域插值模型后的w/o FFT的mAP和Rank-1值都呈现下降的趋势.这说明本文设计的频域插值模型可以通过提高样本的多样性以提高重识别模型的性能.
为了提高模型的泛化性, 本文引入频域注意力模块, 自动调整不同频率分量的权重, 提高网络的泛化能力.从表5和表6可以看出, 在Market1501、CUHK03数据集上, 相比PFReID, 在客户端模型训练过程中, 去除频域注意力模块的w/o Att的mAP和Rank-1值都有所下降.这是因为客户端局部的泛化性能也能影响服务器端的模型, 从而表明频域注意力模块可有效提高模型对新环境的适应能力.
为了保证客户端局部的学习表示与全局模型的学习表示的一致性, 本文在客户端设计多分支对齐学习网络.从表5可以看出, 在Market1501数据集上, 相比PFReID, 在客户端去除多分支对齐学习网络的w/o C的mAP和Rank-1值分别下降3.6%和5.7%.从结果中可以看出, 使用多分支对齐学习网络可以约束客户端局部和服务器端中心模型收敛的一致性.
此外, 训练过程中删除3个重要组成成分的B和PFReID的mAP值变化曲线如图5所示.从图中也可以看出, 虽然PFReID在训练过程中的mAP值在不断动荡的改变, 但有了多分支对齐学习网络的约束, 相比B, mAP值在逐步上升中更平稳一些.
本文在训练过程中使用的批尺寸大小为64.为了探索不同的批尺寸大小对方法性能的影响, 在本节中, 分别使用批尺寸大小为16、32、64、96、128进行训练.训练集为Market1501、DuKe、MSMT17、CUHK03, 测试集为iLIDS, 设置μ =1, 具体指标值对比如表7所示.从表中可以看出, 随着批尺寸大小的改变, mAP值具有明显变化, 并且在批尺寸大小为16时取得最优结果79.07%, 这也说明批尺寸大小的设置对网络训练的影响较大.
![]() | 表7 在iLIDS训练集上不同批尺寸大小对方法性能的影响 Table 7 Effect of batchsize on the method performance on iLIDS training set % |
本文的训练损失函数主要由两部分组成:交叉熵损失和对齐损失, 在式(2)中利用μ 平衡两者之间的关系.本节主要分析μ 对网络训练的影响.因此, 在这组实验中, 分别将μ 设为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8和0.9, 讨论不同的μ 对方法性能的影响.训练集为Market1501、MSMT17、CUHK03、DuKe, 测试集为VIPeR.设置批尺寸大小为64.在不同λ 下得到的mAP值变化如图6所示.从图中可以看出, 随着μ 的改变, mAP值具有明显变化, 并且在 μ =0.9时取得最优结果, 即Rank-1值为51.89%, mAP值为55.89%.这说明交叉熵损失和对齐损失对的平衡对网络的训练是有影响的.
在联邦学习中客户端的个数可任意设置, 因此, 本节讨论源域个数对结果的影响.训练集为Market1501、DuKe、MSMT17、CUHK03, 测试集为iLIDS.设置批尺寸大小为64.源域个数分别设置为2, 3, 4, 得到的结果如图7所示.
![]() | 图7 iLIDS测试集上源域个数对方法性能的影响Fig.7 Effect of source domain number on the method performance on iLIDS test set |
从图7中可以看出, 当源域个数设置为3时, 方法mAP值取得最优结果0.801 2, 而且不同的源域数量对结果的准确性影响较大, 这也间接说明当客户端数量增多时, 服务器端模型可以学习到更多新的知识, 得到泛化性能更高的重识别模型.
在模型训练过程中, 客户端局部需训练E次后, 再将参数传给服务器端模型.因此, 本节讨论E对服务器端模型的影响, 训练集为Market1501、DuKe、MSMT17、CUHK03, 测试集为iLIDS.设置批尺寸大小为64, 源域个数设置为3, E分别设置为1、2、3、4、5时, 得到的结果如图8所示.从图中可以看出, 当E=1时, 方法取得最优mAP值, 为0.801 2, 而且不同的E对结果的准确性影响较大, 这也间接说明每轮客户端局部迭代次数越多, 越有可能加剧不同客户端收敛的不一致性, 使聚合后的全局模型参数的泛化能力降低.
为了更好地验证PFReID的有效性, 利用Grad-CAM(Gradient-Weighted Class Activation Mapping)[48]将Market1501数据集上部分图像的特征进行可视化, 结果如图9所示, 其中(b)为利用Baseline训练得到的重识别结果, Baseline表示没有使用频域插值模型、频域注意力模块和多分支对齐学习网络的行人重识别方法.从图9可以看出, 在利用PFReID得到的可视化结果中, 较好地定位具有判别性的区域, 如背包、人脸、鞋子等, 由此说明PFReID提取的特征有助于行人重识别任务.
本文提出面向隐私保护的联邦域泛化行人重识别方法(PFReID), 在保护数据隐私的同时, 构建全局服务器和多个客户端的分布式协作模型.在不共享训练数据的前提下, 完成泛化性能高的重识别模型的训练.在获得全局模型后, 可直接将模型部署到新环境中而无需进行微调.多方面的实验验证本文框架以及框架内各部分的有效性.
未来的工作包括如下2个方面.1)考虑到域泛化模型与监督式模型的准确率相差较大, 因此, 需要改进训练模型, 提高模型的鲁棒性.2)在训练过程中发现模型的稳定性较低、变化较大、训练时间较长, 因此, 今后需要探索更有效的方法, 使模型收敛更加快速有效.
本文责任编委 封举富
Recommended by Associate Editor FENG Jufu
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|