
杨宏宇,博士,教授,主要研究方向为网络与系统安全.E-mail:yhyxlx@hotmail.com.
作者简介:
李星航,硕士研究生,主要研究方向为人工智能安全.E-mail:lxh991225@163.com.
成 翔,博士,讲师,主要研究方向为网络与系统安全.E-mail:huozhai9527@126.com.
胡 泽,博士,讲师,主要研究方向为自然语言处理.E-mail:zhu@cauc.edu.cn.
针对现有深度伪造人脸检测方法在模型复杂性、样本量需求和应对新型深度伪造技术上的局限,提出基于视觉-语言模型的小样本深度伪造人脸检测方法(Few-Shot Deepfake Face Detection Method Based on Visual-Language Model, FDFD-VLM).基于CLIP(Contrastive Language-Image Pre-training),通过人脸区域提取与高频特征增强模块优化视觉特征,采用无类名-差异化Prompt优化模块提升Prompt适应性,利用CLIP编码结果优化模块强化多模态特征表示,通过三元组损失函数增强模型区分能力.实验表明,FDFD-VLM在多个深度伪造人脸数据集上的准确率较高,能在较少的训练样本下实现高效的深度伪造人脸检测.
YANG Hongyu, Ph.D., professor. His research interests include network and system security.
About Author:
LI Xinghang, Master student. His research interests include AI security.
CHENG Xiang, Ph.D., lecturer. His research interests include network and system security.
HU Ze, Ph.D., lecturer. His research interests include natural language processing.
Aiming at the limitations of existing deepfake face detection methods in terms of model complexity, sample size requirements and adaptability to new deepfake techniques, a few-shot deepfake face detection method based on visual-language model(FDFD-VLM) is proposed. FDFD-VLM is built upon contrastive language-image pre-training(CLIP). Visual features are optimized through a face region extraction and high-frequency feature enhancement module. Prompt adaptability is improved by a classless differentiated prompt optimization module, while multimodal feature representation is strengthened by CLIP encoding attention optimization module. Additionally, a triplet loss function is introduced to improve the model discriminative capability. Experimental results demonstrate that FDFD-VLM outperforms existing methods on multiple deepfake face datasets and achieves efficient detection performance in few-shot deepfake face detection scenarios.
深度伪造(Deepfake)是指利用深度学习生成虚假媒体内容的技术, 被用于创造虚假媒体内容并在网络上广泛传播, 给个人隐私、新闻真实性、社会稳定和国家安全带来严峻挑战.该技术的复杂性使得生成的伪造内容极具欺骗性, 难以通过肉眼或简单技术手段辨别, 同时开源代码和免费应用的普及大幅降低伪造门槛.
由于伪造技术的快速迭代远超检测方法的更新速度, 导致现有检测方法难以有效应对新型伪造技术, 因此迫切需要开发准确高效的深度伪造人脸检测技术.
现有的深度伪造人脸检测方法大多依赖深度神经网络, 通过分析图像中的伪影特征(如不自然的光照、纹理错误、边缘失真等)判别图像是否为伪造.然而, 这些检测方法仍面临如下关键技术挑战.
1)小样本场景下模型泛化能力不足.传统监督方法依赖大规模标注数据(通常需104量级样本), 当面对新型深度伪造技术难以获得足够训练数据时, 监督学习范式难以从有限样本中提取具有泛化能力的本质特征, 导致模型严重过拟合.相关实验表明, 当训练样本从10 000减至100时, 基于卷积神经网络(Convolutional Neural Network, CNN)的检测器准确率下降超过40%.
2)高计算成本与复杂模型依赖.现有检测方法普遍采用复杂深度网络, 需要庞大的训练资源, 严重限制检测方法在边缘设备等现实场景中的部署和应用.
3)新型扩散模型检测失效.现有方法主要针对生成对抗网络(Generative Adversarial Networks, GA-Ns)[1]和自动编码器(Auto-Encoder, AE)[2]等伪造技术设计检测规则, 而扩散模型(如Stable Diffu-sion)通过迭代去噪生成的人脸图像具有更自然的全局一致性, 导致现有检测方法失效.
针对上述问题, 本文提出基于视觉-语言模型的小样本深度伪造人脸检测方法(Few-Shot Deep-fake Face Detection Method Based on Visual-Language Model, FDFD-VLM).与传统基于视觉特征的检测方法不同, FDFD-VLM不依赖于直接探索伪造图像中的视觉特征, 而是在4亿图文对预训练获得的CLIP(Contrastive Language-Image Pre-training)[3]上, 通过迁移优化将深度伪造人脸检测重构为跨模态语义对齐与分类问题, 利用其在大规模数据集上学到的丰富视觉与语义知识区分真伪人脸, 最少仅需16幅训练样本(约为整个实验数据集数据的0.05%)便可实现有效的深度伪造人脸检测.同时, FDFD-VLM采用参数高效微调方法(Parameter-Efficient Fine-Tu-ning, PEFT), 冻结主要的预训练主干网络, 仅对三个重要优化模块的参数进行训练优化, 使模型参数量降至3.23M, 满足现实场景的低成本高效检测需求.大量实验表明, FDFD-VLM可对GAN与多种扩散模型技术生成人脸图像进行有效检测.
现有深度伪造人脸技术主要分为基于GAN的深度伪造人脸技术和基于扩散模型的深度伪造人脸技术.
GAN自提出后, 迅速成为深度伪造技术核心方法之一.Mirza等[4]引入条件变量, 提出条件GAN, 生成具有特定属性的人脸图像.Karras等[5]进一步提出StyleGAN, 通过非线性映射网络生成指定风格的高分辨率人脸图像.Nirkin等[6]提出FSGAN(Face Swapping GAN), 无需依赖特定主题或面部对, 实现便捷的换脸技术.Liu等[7]提出STGAN, 通过选择性传输单元, 实现精准自然的属性编辑.Xia等[8]提出TediGAN, 结合语言引导生成高质量且多样化的图像, 拓展GAN在多模态生成方面的应用.Pernuš 等[9]提出MaskFaceGAN, 在细节处理和图像质量上取得进展, 提升高分辨率人脸编辑效果.
近年来, 扩散模型逐渐成为深度伪造人脸技术的重要发展方向之一.Ho等[10]受非平衡热力学启发, 提出Denoising Diffusion Probabilistic Models, 奠定扩散模型的基础.Huang等[11]提出Collaborative Diffusion, 融合语言描述和掩模信息, 动态协调各单模态扩散模型的贡献权重.Kim等[12]提出DCFace(Dual Condition Face Generator), 利用双条件扩散模型, 结合主体外观ID和外部风格条件生成逼真的人脸图像.Zhao等[13]提出DiffSwap, 通过扩散模型实现高保真度且可控性强的人脸身份替换图像.Ye等[14]提出IP-Adapter, 利用解耦交叉注意力机制实现精确的面部属性编辑.Li等[15]提出PhotoMaker, 通过堆叠ID嵌入方法确保编辑前后人脸身份特征的一致性.
目前, 深度伪造人脸检测方法主要分为4类:基于生物特征的检测方法、基于图像空间特征的检测方法、基于图像频域特征的检测方法和基于混合特征的检测方法.
基于生物特征的检测方法分析伪造人脸与真实人脸之间的生物特征差异以识别伪造图像.Halia-ssos等[16]通过嘴部运动不规则性检测伪造的Lip- Forensics.Qi等[17]提出DeepRhythm, 通过远程视觉光电体积描记法检测心跳节律的异常以识别伪造.随着伪造技术的不断进步, 许多低级图像异常已被消除, 导致此类方法的有效性下降.
基于图像空间特征的检测方法挖掘图像空间特征以辨别真伪.Mandelli等[18]通过正交训练多个CNN, 聚合多个检测结果以提高检测的准确性.Li等[19]提出Face X-ray, 预测人脸操纵区域的编辑边界, 识别伪造图像.Wang等[20]发现可通过同一扩散模型较准确地重建扩散模型生成的图像, 而真实图像的重建误差更大, 因此提出DIRE(DIffusion Reconstruction Error), 计算输入图像与其重建版本之间的绝对差值作为区分特征, 实现检测.尽管此类方法在空间特征提取上取得一定进展, 但难以捕捉伪造人脸在更高层次上的不一致性.
基于图像频域特征的检测方法分析图像在频域中的特征分布差异以识别伪造图像.Qian等[21]提出F3-Net(Frequency in Face Forgery Network), 通过频率感知图像分解和本地频率统计发现频率感知差异, 实现伪造图像的检测.Gao等[22]提出HiFE(High-Frequency Enhancement), 利用自适应高频增强网络检测高压缩图像中的伪造内容.Wolter等[23]使用小波变换处理图像频域信息, 实现检测, 能较好处理非稳定信号和突变信号.然而, 此类方法可能忽略图像空间域中的细微特征, 导致检测精度受限.
基于混合特征的检测方法融合多种特征以增强检测能力和泛化性能.Masi等[24]结合图像RGB颜色域和频域信息进行检测.Gu等[25]提出RATF(Region-Aware Temporal Filter), 结合RGB域和频域细粒度分解实现检测.Guarnera等[26]提出Mastering Deepfake Detection, 通过三个逐级递进的分类步骤精确区分不同类型的深度伪造图像.
近年来, 大规模视觉-语言模型因其强大的泛化能力而在深度伪造检测领域表现出独特优势.Ojha等[27]利用CLIP的视觉模块实现通用的伪造图像检测, 但由于仅使用单一模态(视觉模态)特征而未充分挖掘语言模态信息, 表现受限.Khan等[28]提出CLIPping the Deception, 基于CLIP, 探索不同迁移学习策略, 增强模型在深度伪造检测任务上的通用泛化能力.尽管该方法初步验证跨模态特征融合的潜力, 但并未有效整合优化各策略方法以提高深度伪造检测的综合性能.为了应对小样本场景下的深度伪造检测问题, Zou等[29]提出DFCP(Few-Shot Deepfake Detection via Contrastive Pretraining), 采用预训练-微调策略, 通过少量标注数据实现高效检测.然而, 由于DFCP未利用大型预训练视觉-语言模型, 导致其多模态知识较有限, 泛化能力仍有待提升.
本文提出基于视觉-语言模型的小样本深度伪造人脸检测方法(FDFD-VLM), 包括3个关键模块:人脸区域提取与高频特征增强模块(Face Region Extraction and High-Frequency Feature Enhancement, FRE-HFFE)、无类名-差异化Prompt优化模块(Class-less Differentiated Prompt Optimization, CDPO)、基于注意力机制的CLIP模型编码结果优化模块(CLIP Encoding Attention Optimization, CEAO), 上述3个模块共同提升深度伪造人脸图像检测性能.FDFD-VLM整体框架如图1所示.
FDFD-VLM步骤如下.
1)视觉-语言模型输入预处理.针对视觉输入部分, 对输入的待检测人脸图像进行人脸区域与图像高频特征提取, 并对空间域图像特征与频域高频特征进行可学习的特征融合, 实现高频特征增强, 获得全面准确的视觉特征.针对语言输入部分, 利用CDPO构造差异化且无类名的Prompt, 并通过训练优化提升其表达能力.最终, 将处理后的视觉特征和语言特征输入CLIP预训练模型中.
2)视觉-语言预训练模型CLIP编码.CLIP通过两个独立编码器分别处理视觉输入和语言输入.视觉编码器首先将输入图像通过嵌入层转换为高维特征向量, 并通过位置编码保留图像空间位置信息.再通过多头注意力机制提取图像中重要特征.最后经过线性层将提取的特征映射到输出空间, 生成视觉编码结果.语言编码器以相似方式处理输入的Prompt, 生成相应的语言编码结果.
3)编码结果优化与检测.采用CEAO优化视觉编码结果和语言编码结果, 生成优化后的特征表示.再通过计算优化后视觉特征与语言特征之间的相似度, 衡量它们在嵌入空间中匹配程度.最后, 将相似度结果输入Softmax分类层, 实现深度伪造人脸的检测和分类, 输出最终检测结果.
2.2.1 人脸区域提取与高频特征增强模块
待检测的人脸图像作为视觉-语言模型视觉部分输入, 为了增强图像细节与伪造特征, 设计人脸区域提取与高频特征增强模块(FRE-HFFE), 结构如图2所示.
FRE-HFFE旨在精确提取输入图像中的人脸区域, 并增强高频特征, 提升深度伪造人脸图像中的伪造细节与特征.
FRE-HFFE首先基于Dlib-ml[30]实现多尺度人脸区域检测与提取.具体而言, 通过构建图像金字塔结构对输入图像进行多尺度缩放, 获得一系列不同尺度的图像.在每个尺度下独立执行人脸检测, 并将所得的多尺度检测结果统一映射到标准坐标空间, 实现对不同尺寸、角度及压缩程度的人脸区域精确定位.再根据这一精确坐标剪裁原始图像, 获得精确的人脸区域图像.
相关研究发现[31], GAN在生成人脸图像时通常先构建低分辨率的初始图像, 再通过转置卷积或上采样层逐步提升图像分辨率.在升采样过程中, 尤其是当卷积核大小与步长不互质时, 转置卷积容易引发输出特征的周期性重叠现象, 即“ 棋盘效应(Checkerboard Artifacts)” , 并伴随其它非自然的高频伪影特征, 如边缘不连续性、纹理异常突变和像素分布不均匀等现象.为了有效捕捉这些细微的伪造特征, 采用Laplacian算子提取图像的高频特征, 计算图像灰度的二阶导数以突出图像中像素值快速变化的区域, 即高频成分, 有效增强伪造图像中可能存在的微小伪影特征, 同时抑制低频、缓慢变化区域的干扰.
然而, 单独依赖频域的高频特征容易导致模型忽略空间域中的颜色或纹理异常特征.为了解决此问题, 进一步设计基于多层感知机(Multilayer Per-ceptron, MLP)的可学习特征融合机制, 有效融合空间域图像与高频特征图.
融合机制包括如下2个全连接层:第1个全连接层负责从输入的空间域图像与高频特征图像中提取高维的中间特征表示, 整合二者的特征信息; 第2个全连接层负责计算融合权重W, 通过模型训练阶段的反向传播与优化, 动态学习不同图像的空间-频域特征, 融合最佳权重.可学习的特征融合方式确保模型能同时兼顾空间域的全局颜色信息与频域的局部高频细节特征, 从而获得全面准确的视觉特征图像.
最终, 将经过融合处理的图像特征作为视觉输入, 提供给视觉-语言模型的视觉编码器进行后续处理, 以提升深度伪造人脸图像的检测性能.
2.2.2 无类名-差异化Prompt优化模块
视觉-语言模型的语言输入部分为提示词Prompt, 用于差异化描述真实人脸和伪造人脸的图像特征, 最终需通过评估待检测图像与不同Prompt的对齐程度实现检测分类, 因此如何设计Prompt使其与对应类别图像高度对齐对检测性能的提升至关重要.本文基于CoOp(Context Optimization)[32], 提出无类名-差异化的Prompt优化模块(CDPO).
在标准的视觉-语言模型(如CLIP)中, 语言输入端通常采用固定的Prompt模板进行文本描述, 例如:a photo of a real face或a photo of a fake face, 其中的类别名称(如real或fake)以明确的标签形式直接嵌入Prompt中.
然而, 在细粒度深度伪造检测任务中, 这种固定Prompt的表达能力极为有限, 难以有效捕捉伪造图像中的细微差异特征, 严重影响模型的泛化性与检测精度.
针对这一问题, CDPO中设计一种双重优化机制:1)取消传统Prompt中固定的类别标签(如real/fake); 2)为不同类别构建差异化的可学习Prompt, 充分提升模型对细粒度伪造特征的表达与捕捉能力.
具体而言, 取消固定的类别标签是考虑到在深度伪造场景中, 简单的类别名称(如real或fake)本身语义空间有限, 难以完整、准确地表达伪造图像的细微特征.此外, 这种固定标签可能引入语义上的先验偏差, 致使模型过于依赖类别名固有的概念(如real直接对应真实性概念), 而非关注图像具体的特征细节.因此, CDPO完全取消类别名的显式文本表示, 而是将Prompt表示为完全可学习的嵌入向量, 通过训练过程自动发现和捕捉真实人脸与伪造人脸之间的本质语义差异, 以实现更大的优化空间和灵活性.
另外, 在标准CLIP中, 不同类别通常共享相同的固定模板, 仅在末尾替换类别名称, 这使得Prompt之间的差异极为有限, 无法体现不同类别的差异化特征.CDPO进一步为不同类别构建差异化的可学习Prompt向量, 使Prompt能自动学习与类别最匹配的视觉表征.具体而言, real类别的Prompt自动倾向于捕捉真实人脸图像中更自然的纹理、光照条件、生理特征等细节, 而fake类别的Prompt更多地捕捉伪造图像中存在的细节断裂、高频噪点、光照不连续等异常伪影特征.通过这种差异化设置, Prompt之间的语义差异得到显著增强, 有助于在模型的共享嵌入空间中清晰区分不同类别的图像, 避免固定模板带来的语义约束, 有效提升模型的泛化能力.
不同Prompt优化方法的差异如图3所示.由图可见, 标准CLIP的Prompt为固定模板, 表达能力受限.可优化Prompt将模板中所有标记(Token)表示为一组共享的可学习嵌入向量, 但未区分不同类别Prompt.类间差异化可优化Prompt为每个类别分别构建独立的可学习Prompt向量, 但仍保留固定的类别名, 可能带来语义偏差.CDPO去除类别名限制, 完全通过差异化的可学习Prompt向量表示不同类别, 避免语义上的先验偏差, 使模型能精细表达与捕捉类别间的微妙特征差异, 更灵活适应深度伪造检测任务.
在具体实现中, CDPO将Prompt设定为可学习的向量参数, 并在训练过程中通过反向传播进行自动优化更新.这些Prompt向量的初始值一般通过随机分布(如均值为0、标准差为0.02的正态分布)进行初始化, 从而确保Prompt初始时具有足够的多样性与随机性.
在训练过程中, 模型根据真实人脸图像和伪造人脸图像与各自Prompt向量之间的匹配程度, 逐渐识别更具区分性的特征表达模式, 从而自动优化调整Prompt向量的权重, 最终使Prompt在嵌入语义空间中精准适配深度伪造检测任务, 提升视觉特征与Prompt的语义关联性.
相比传统的固定文本Prompt, CDPO无需人为设计大量专业术语或固定模板, 允许模型自动学习最优的语义表达, 提升方法对不同类型伪造图像与数据集的泛化迁移能力.最终, 优化后的Prompt作为语言部分输入视觉-语言模型的语言编码器中进行编码.
CLIP是FDFD-VLM的核心组件, 用于将视觉图像和语言Prompt编码并映射到一个共享的嵌入空间中.通过独立训练的两个编码器分别处理视觉图像和语言Prompt, 将输入数据编码映射到嵌入空间, 使匹配的视觉特征和语言特征在该空间中具有较小的余弦距离, 从而实现有效的特征关联.
通过CLIP视觉编码器f(· )处理视觉图像输入xi, 提取视觉特征并将其映射到嵌入空间, 得到高维视觉特征向量f(xi).语言编码器g(· )将每个语言Prompt输入ti转换为高维语言特征向量g(ti), 并映射到与视觉特征向量相同的嵌入空间中.
为了确保视觉特征向量和语言特征向量能在同一尺度上进行对比, 编码结果经过L2归一化处理, 归一化后的特征向量如下:
其中, f(xi)表示视觉特征向量, g(ti)表示语言特征向量, ‖ f(xi)‖ 2、‖ g(ti)‖ 2分别表示对应的L2范数.
通过这一过程, 视觉图像和语言Prompt分别被编码为视觉特征向量和语言特征向量, 在共享嵌入空间中反映其语义关系.
匹配的视觉图像和语言Prompt在嵌入空间中距离较近, 而不匹配的特征向量保持较大分离, 这一特性使模型能有效关联视觉信息和语言信息, 实现不同类型图像的分类.
标准CLIP将视觉编码结果和语言编码结果嵌入同一共享向量空间, 并直接计算其相似度进行匹配.这种方法通常表现良好, 但迁移到特定任务(如深度伪造人脸检测)时, 由于任务特征的差异, 可能会遇到性能瓶颈.
为了解决这一问题, 本文设计基于注意力机制的CLIP编码结果优化模块(CEAO), 结构如图4所示.CEAO引入自注意力机制和交叉注意力机制, 优化CLIP视觉编码结果特征和语言编码结果特征, 从而提升模型的适应性和灵活性, 使CLIP能更有效迁移至深度伪造人脸检测任务.
首先, CEAO对CLIP输出的视觉编码结果V和语言编码结果L分别进行自注意力优化.自注意力机制通过捕捉视觉特征和语言特征的内部上下文信息, 增强特征表示能力.
具体而言, 自注意力机制通过给定输入序列X, 计算查询向量Q、键向量K和值向量V:
Q=XWQ, K=XWK, V=XWV,
其中WQ、WK、WV表示权重矩阵.
然后, 使用缩放点积计算注意力得分:
Attention(Q,K,V)=softmax(QKT√dk)V,
其中, QKT表示查询向量Q和键向量K转置矩阵的点积, dk表示键向量维度.
CEAO分别对视觉编码结果V和语言编码结果L应用自注意力机制, 得到优化后的特征向量:
˜V=SelfAttention1(V),˜L=SelfAttention2(L).
在自注意力机制基础上, CEAO同时引入交叉注意力机制, 进一步增强视觉特征和语言特征之间的交互, 这种双向的信息传递确保模型能精准匹配视觉描述细节与语言描述细节.交叉注意力机制首先计算输入特征X、Y对应的查询向量QX、键向量KY和值向量VY:
QX=XW
其中W
然后, 通过相关性矩阵对特征进行加权求和, 实现信息的双向传递:
CrossAttention(QX,KY,VY)=softmax(QXKTY√dk)VY,
其中, Q
CEAO分别对视觉特征
CAV=CrossAttention(˜V,˜L),CAL=CrossAttention(˜L,˜V)
为了综合考虑不同特征的相对重要性, CEAO引入可训练的权重参数, 对各特征进行加权求和.最终, 优化后的视觉特征和语言特征如下:
Vf=WCAV⋅CAV+W˜V⋅˜V+WV⋅V,Lf=WCAL⋅CAL+W˜L⋅˜L+WL⋅L,
其中WV、WL、
最后, 计算优化后的视觉特征向量和语言特征向量的相似度, 进行深度伪造人脸分类.具体过程如下.
1)计算Vf和Lf的点积相似度, 并引入可训练的缩放因子调整logits范围, 获得模型对每个类别未经归一化的预测分数:
logits=logitscale· (Vf· Lf),
其中logitscale表示缩放因子.
2)对logits使用softmax函数, 获得推理类别的概率分布:
P(yi|X)=
其中, X表示待检测人脸图像, yi表示对应类别i, logitsi表示与类别i对应的logits值.
3)选择概率最大的类别, 实现深度伪造人脸检测, 模型最终预测的类别如下:
其中, arg max表示取最大值操作.
在训练阶段, 为了增强FDFD-VLM区分正负样本的能力, 引入三元组损失函数[33].三元组损失源于对比学习, 旨在通过优化嵌入空间使相似样本距离减小、不相似样本之间距离增大, 从而提升模型的判别能力.三元组损失的计算公式如下:
L=max(d(a, p)-d(a, n)+margin, 0),
其中, d(· , · )表示两个样本之间的距离, a表示锚点样本, p表示正样本, n表示负样本, margin表示预定义参数, 用于确保正负样本间的距离差异明显.
FDFD-VLM同时结合交叉熵损失和L2正则化损失, 共同构成总损失函数:
Lt=Ltri+Lc+Lr,
其中, Ltri表示三元组损失, Lc表示交叉熵损失, Lr表示L2正则化损失.
交叉熵损失用于优化分类任务, 确保模型能准确预测每个样本的类别标签.L2正则化损失限制模型参数大小, 防止过拟合并保证模型的泛化能力.
本文的实验数据集由如下4部分组成:真实人脸图像、GAN模型技术伪造人脸图像、扩散模型技术伪造人脸图像、真实网络环境收集伪造人脸图像.具体构成如表1所示.
![]() | 表1 实验数据集 Table 1 Experimental datasets |
1)真实人脸图像来源于MultiModal-CelebA-HQ数据集[8], 包含30 000幅高分辨率的人脸图像.
2)GAN模型技术伪造人脸图像来自Style-GAN[5]、DFFD(Diverse Fake Face Dataset)[34]、iFakeFaceDB[35]、StyleGAN2[36]数据集, 包含约380 000幅伪造人脸图像.
3)扩散模型技术伪造人脸图像来自Diffusion-Face数据集[37], 包括无条件扩散模型和条件引导扩散模型生成的伪造人脸图像, 约300 000幅图像.
无条件扩散模型包括Denoising Diffusion Proba-bilistic Models(简记为DDPM)[10]、DDIMs(Deep Di-ffusion Implicit Models)[38]、PNDMs(Pseudo Nume-rical Methods for Diffusion Models)[39]、LDMs(Latent Diffusion Models)[40]、ADM(Ablated Diffusion Mo-del)[41].
条件引导扩散模型包括Text2Image、Image2- Image、DiffSwap[13]、RePaint[42].
4)真实网络环境收集的伪造人脸图像来自Wild数据集, 包含30 000幅图像.
在如下硬件和软件环境下进行实验.硬件平台为Intel XeonPlatinum8255C CPU、NVIDIA GeForce-RTX2080Ti GPU.编程语言为Python 3.8.18, 深度学习框架为PyTorch 2.1.0, CUDA版本为 11.8.在Python环境中, 主要使用的库包括:NumPy 1.24.1、TorchVision 0.16.0、Triton 2.1.0、Pillow 9.3.0.
针对小样本检测任务的特点, 实验数据按1∶ 9比例划分为训练集和测试集.为了增强模型泛化性, 对人脸图像数据进行随机缩放、裁剪、水平翻转等数据增强处理.
实验中根据训练数据量动态调整数据加载器批量大小, 训练数据采用随机采样进行加载, 测试数据采用顺序采样进行加载.训练时采用Adam(Ada- ptive Moment Estimation)优化器[43], 训练轮数设为200, 学习率设为0.002, 动量参数设为β 1=0.9和β 2=0.999.为了确保训练过程的稳定性, 采用余弦调度器动态调整学习率, 并在训练初期引入学习率预热机制.
3.3.1 训练样本数不同
定义训练样本数为16, 32, 64, 128, 256, 512, FDFD-VLM在各数据集上的检测准确率如表2所示.由表可观察到, 随着训练样本数的增加, FDFD-VLM的检测准确率均有所提高.特别是在训练样本数达到256及512时, FDFD-VLM在大多数数据集上的检测准确率接近99%, 表明其能有效检测深度伪造人脸.
![]() | 表2 训练样本数不同时FDFD-VLM的检测准确率对比 Table 2 Comparison of detection accuracy of FDFD-VLM with different numbers of training samples |
相比大规模训练数据, 小样本检测要求方法具备更强的泛化能力, 应对因数据量不足而导致的过拟合风险.在仅使用16个训练样本时, FDFD-VLM在部分数据集上依然取得较高的检测准确率(如在DDPM数据集上为98.34%, 在iFakeFaceDB数据集上为97.34%).此外, 在使用512个训练样本时, FDFD-VLM对GAN模型技术伪造数据集及大多数扩散模型技术伪造数据集的检测准确率均超过99%.即使在真实环境伪造数据集(Wild)上, FDFD-VLM仍保持97.81%的检测准确率, 这表明其具有应对复杂多样的现实数据的适应性.
3.3.2 图像编码器不同
为了探究不同视觉-语言预训练模型的图像编码器架构对检测性能的影响, 选择CLIP中4种具有代表性的图像编码器:ResNet系列的RN50(Resi-dual Network 50-Layer)和RN101(Residual Network 50-Layer)、Vision Transformer系列的ViT-B/32(Vi-sion Transformer Base/32)和ViT-B/16(Vision Trans-former Base/16)).
实验统一设置训练样本数为512, 分别在GAN模型技术伪造数据集、扩散模型技术伪造数据集及真实环境伪造数据集上进行检测性能对比, 结果如表3所示, 表中黑体数字表示最优值.
![]() | 表3 视觉-语言预训练模型不同时的检测准确率 Table 3 Detection accuracy of different vision-language pre trained models % |
从表3可看出, 在4类数据集上, 基于Vision Transformer架构的模型(ViT-B/16和ViT-B/32)性能优于传统ResNet系列的RN50和RN101.这表明自注意力机制赋予ViT更强的全局上下文建模能力, 更适合捕捉深度伪造图像中复杂、细微的特征差异.
ViT-B/16在3个数据集上均取得最优值.ViT-B/32在性能上略低于ViT-B/16, 这主要是由于二者在图像分割块上的差异所致.ViT-B/32使用的块尺寸为32× 32, 相比ViT-B/16的16× 16块尺寸而言更大, 导致在图像序列化过程中损失部分细节信息, 对微妙特征捕捉能力下降, 检测准确率也因此有所降低.
相比之下, 基于CNN的ResNet系列模型(RN50和RN101)表现相对较弱, 这可能是由于传统CNN倾向于捕捉局部空间特征, 难以有效建模图像中高层次的全局语义与局部伪造特征之间的关联关系, 从而限制其在深度伪造检测这一细粒度任务中的表现.
3.4.1 检测结果可视化
为了直观展示FDFD-VLM的检测性能, 对不同场景下的检测结果进行可视化分析, 包括真实人脸图像、深度伪造人脸图像和分类错误案例.
真实人脸样本的检测结果可视化如图5所示, 图中样本涵盖不同年龄段、性别、表情及发型等多样化特征.
由图5可见, FDFD-VLM对所有真实样本均进行正确分类, 预测类别均为real, 置信度分布在0.967 7~1.000 0之间, 表明FDFD-VLM在识别真实人脸方面上的可靠性和准确性.
同时, 为了验证FDFD-VLM对不同深度伪造技术生成图像的识别性能, 选取GAN和扩散模型等多种不同深度伪造技术生成的人脸图像进行可视化分析, 结果如图6所示.由图可看到, FDFD-VLM成功检测全部深度伪造样本并将其正确分类为fake, 分类置信度处于0.994 8~1.000 0之间, 验证其对多样化伪造特征的判别能力, 对不同深度伪造技术生成人脸图像检测的准确性和有效性.
尽管FDFD-VLM表现出良好的整体检测性能, 但在实验过程中仍存在少量分类错误的案例, 具体如图7所示.对错误分类案例的分析发现, 当人脸存在明显遮挡物(如头发、眼镜、胡须等)或面部轮廓部分模糊不清时, 分类置信度明显降低, 甚至出现错误的预测结果.例如左侧真实人脸被错误分类为fake(置信度0.800 3), 右侧伪造人脸图像被误分类为real(置信度为0.592 5), 这说明FDFD-VLM在面对面部局部遮挡或伪造特征不明显的情况时仍可能出现误判.
3.4.2 类激活图可视化
为了进一步分析和解释FDFD-VLM的决策依据, 使用Grad-CAM(Gradient-Weighted Class Activa-tion Mapping)技术对方法推理过程进行可视化分析.Grad-CAM通过计算模型最后一个卷积层的梯度信息, 生成类激活图(Class Activation Map, CAM), 直观呈现图像中对分类决策贡献最大的区域.在类激活图中, 不同颜色表示不同区域对预测结果的贡献程度, 红色表示高激活区域, 对分类决策贡献较大, 蓝色表示低激活区域, 对决策贡献较小或无贡献.
真实人脸和深度伪造人脸的类激活图可视化对比如图8所示.由图可清晰看到, FDFD-VLM对真实人脸图像的高激活区域(红色区域)主要聚焦于面部的核心三角区域(眼睛与嘴巴连线构成的区域), 说明FDFD-VLM在判断真实人脸时, 更多地关注脸部五官整体的自然性与一致性, 这与真实人脸在面部结构、纹理和光照方面的特征稳定性吻合.
而在深度伪造人脸图像中, FDFD-VLM的高激活区域呈现出明显的差异性和局部化特征, 更多地关注某些特定区域(如眼睛、鼻子及其周边区域), 表明这些局部区域存在较明显的伪造痕迹(如纹理异常、高频伪影或不自然的边缘), 同时表明FDFD-VLM会针对不同伪造技术的伪影特征自动调整关注区域.类激活图的可视化结果进一步验证FDFD-VLM在捕捉真实人脸与深度伪造人脸细节特征上的能力, 同时也增强其决策过程的透明性和可解释性.
3.5.1 训练样本数
为了评估FDFD-VLM在训练样本数上的优势, 选择如下8种主流深度伪造检测方法进行对比实验:文献[18]方法、Face X-ray[19]、DIRE[20]、F3-Net[21]、文献[26]方法、文献[27]方法、文献[28]方法、DFCP[29].对比各方法所需的训练样本数, 结果如图9所示.
由图9可见, 大部分检测方法的训练样本数均较庞大, 如文献[18]方法和Face X-ray分别需要316 000幅和300 000幅样本, 而F3-Net和文献[27]方法所需的训练样本数甚至达到数十万量级.这主要是由于上述方法多采用传统监督学习框架, 通常需要基于大量标注数据以有效捕捉伪造图像的复杂特征, 导致训练成本高昂, 泛化能力有限.尽管文献[27]方法和文献[28]方法同样基于大规模视觉-语言预训练模型开展研究, 但由于未对模型进行全面的迁移优化, 仍需大量训练数据(分别为720 000幅和20 000幅样本).DFCP设计基于对比学习的预训练策略, 虽明显减少训练数据需求, 但训练样本数仍达到1 250幅.
相比之下, FDFD-VLM充分利用CLIP在4亿图文对上的跨模态预训练优势, 并设计FRE-HFFE、CDPO和CEAO模块, 提升方法的特征捕捉与泛化能力.因此, 本文方法效率较高, 平均仅需512幅训练样本即可实现有效的深度伪造检测, 相比对比方法, 训练样本数降低多个数量级, 由此降低对数据标注资源的需求, 提升小样本泛化能力, 更适用于实际部署环境中的快速、高效检测需求.
3.5.2 训练参数量和推理时间
为了评估FDFD-VLM在实际部署场景应用的优势, 研究FDFD-VLM与上述8种对比方法在训练参数量与推理时间上的差异, 评估各方法的复杂性和检测效率, 结果如图10和图11所示.
由图10可见, 在训练参数量上, 各方法表现出明显的差异.文献[18]方法、Face X-ray、DIRE、F3-Net、文献[26]方法等传统检测方法的参数量较大, 如文献[18]方法的参数量为95.0M, DIRE甚至高达576.3M, 表明这些方法的模型复杂度相对较高, 对计算资源的需求较大.
相比之下, FDFD-VLM的训练参数量仅为3.2M, 远低于上述传统方法, 并且与文献[27]方法、文献[28]方法和DFCP等基于预训练模型的方法相比, 也处于较低水平.这得益于FDFD-VLM采用基于CLIP的迁移学习策略, 充分利用其预训练模型知识, 大量参数无需从头训练, 而是通过微调预训练模型即可实现对伪造特征的高效学习, 大幅降低训练过程中的资源需求和复杂性.
相反, 其它对比方法大多从零开始进行模型训练, 缺乏预训练模型的先验知识支撑, 因此需要大规模参数学习深度伪造图像的特征分布, 导致模型规模较大.
由图11可见, 在推理时间方面, 较小的训练参数量使FDFD-VLM的推理过程更高效, 单幅待检测人脸图像推理时间仅为11 ms, 优于对比方法, 这表明FDFD-VLM能满足计算资源受限但对实时性要求严格的实际应用场景的需求, 进一步验证其在边缘计算环境和移动端设备中的部署潜力与实际价值.
3.5.3 平均准确率
为了更全面验证FDFD-VLM的检测性能, 计算FDFD-VLM与上述8种对比方法在3类数据集(GAN模型技术伪造数据集、扩散模型技术伪造数据集、真实环境伪造数据集)上检测的平均准确率, 具体如表4所示, 表中黑体数字表示最优值.
![]() | 表4 各方法的平均准确率对比 Table 4 Comparison of average accuracy across different detection methods % |
由表4可见, FDFD-VLM在GAN模型技术伪造数据集和真实环境伪造数据集上的平均准确率分别为99.3%和97.8%, 优于其它对比方法.在扩散模型技术伪造数据集上, 尽管FDFD-VLM的平均准确率为98.2%, 略低于DIRE的98.9%, 但考虑到FDFD-VLM使用的训练样本明显少于DIRE, 其检测性能依然非常优秀, 这进一步验证FDFD-VLM在小样本学习任务中的优势.
从整体对比结果可看出, 部分检测方法如F3-Net、文献[18]方法在面对扩散模型深度伪造技术时, 平均准确率出现明显下降, 这反映针对单一深度伪造技术设计的伪造特征提取与检测方法难以适应新型伪造技术.基于视觉-语言预训练模型的方法(文献[27]方法和文献[28]方法)虽然初步探索视觉-语言模型的泛化优势, 但文献[27]方法仅使用视觉模态特征, 未做针对性的Prompt优化, 导致检测效果有限.文献[28]方法分别探讨不同迁移学习策略的有效性, 但缺乏将多种策略融合的深度优化, 性能表现也未达到最优.此外, 多数检测方法在真实环境数据集上检测性能较差, 这表明在真实复杂场景下, 方法容易受到噪声干扰或伪造图像多样性的影响.
相比之下, FDFD-VLM利用视觉-语言模型的丰富通用知识, 并对模型多个部分进行改进优化, 有效增强模型对细粒度伪造特征的表达能力和泛化性, 提升检测模型对复杂环境数据的适应能力, 能识别并适应不同的深度伪造技术.
为了评估FDFD-VLM中FRE-HFFE、CDPO、CEAO模块的有效性, 设置4种不同配置的模型进行消融实验.1)基线模型.不包含任何额外模块, 仅使用预训练CLIP对输入进行编码和分类检测, 用于评估CLIP在未经过优化时对深度伪造人脸检测的基本性能.2)在基线模型的基础上, 加入FRE-HFFE, 用于改善视觉特征表示, 评估FRE-HFFE对方法性能的提升效果.3)在模型2)的基础上, 加入CDPO, 通过优化Prompt提升CLIP对深度伪造人脸检测任务的适应性, 评估其在提升分类准确性上的有效性.4)整合FRE-HFFE、CDPO和CEAO, 即FDFD-VLM.CEAO通过自注意力和交叉注意力机制优化CLIP编码结果, 增强视觉特征和语言特征之间关联性与表达能力, 用于评估整合所有模块后FDFD-VLM的整体检测性能.
各模型平均准确率如表5所示, 表中黑体数字表示最优值.
![]() | 表5 不同模块的消融实验结果 Table 5 Results of ablation experiment for different modules % |
由表5可见, 基线模型在所有测试数据集上表现最差, 表明未经过优化的原始CLIP在此类细粒度分类任务上性能有限, 需针对特定任务进行优化和迁移学习.加入FRE-HFFE之后, 平均准确率有所提升但增幅有限, 各数据集上的平均准确率仍在50%左右, 表明FRE-HFFE虽然有效但对整体性能提升有限.在加入CDPO之后检测性能明显提升, 平均准确率在GAN模型技术伪造数据集上提升90.6%, 在扩散模型技术伪造数据集上提升89.5%, 在真实环境伪造数据集上提升93.7%.这表明CDPO在提升方法分类准确性方面具有重要作用.整合所有模块之后, FDFD-VLM的平均准确率达到最优值, 表明CEAO进一步优化CLIP编码结果, 提高整体检测方法的适应性与准确性.
消融实验表明, 相比基线模型, FRE-HFFE表现出小幅改进, CDPO明显提升检测性能, 而整合所有模块之后, FDFD-VLM取得最高平均准确率, 由此验证该方法的有效性.
针对深度伪造技术在人脸伪造领域的安全问题, 本文提出基于视觉-语言模型的小样本深度伪造人脸检测方法(FDFD-VLM).设计如下3个模块:人脸区域提取与高频特征增强模块(FRE-HFFE)、无类名-差异化Prompt优化模块(CDPO)和基于注意力机制的CLIP编码结果优化模块(CEAO), 提升深度伪造人脸检测的准确性与检测效率.实验表明, FDFD-VLM在多种伪造数据集上表现优秀, 具有较高的检测准确率.特别在小样本条件下, 在数据效率和资源利用方面优势明显, 表明其在实际应用中的实用性和有效性.
今后将重点探索动态视频中的小样本深度伪造人脸检测技术.随着伪造技术从静态图像扩展到视频领域, 现有检测方法可能难以应对视频中的复杂时序和空间特征.因此今后也将致力于结合时序信息与多模态特征, 进一步提升小样本深度伪造视频检测的准确性与实时性, 以此应对更复杂的伪造场景.
本文责任编委 高 隽
Recommended by Associate Editor GAO Jun
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|