模式识别与人工智能
2025年4月5日 星期六   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2024, Vol. 37 Issue (4): 352-367    DOI: 10.16451/j.cnki.issn1003-6059.202404006
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于邻域分布的去噪扩散概率模型
石洪波1, 万博闻1, 张赢2
1.山西财经大学 信息学院 太原 030031;
2.哈尔滨工程大学 计算机科学与技术学院 哈尔滨 150009
Vicinal Distribution Based Denoising Diffusion Probabilistic Model
SHI Hongbo1, WAN Bowen1, ZHANG Ying2
1. School of Information, Shanxi University of Finance and Economics, Taiyuan 030031;
2. College of Computer Science and Technology, Harbin Engineering University, Harbin 150009

全文: PDF (814 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model, VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM 模型,并使用VD-DDPM 数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
石洪波
万博闻
张赢
关键词 数据增强邻域风险最小化邻域分布扩散模型表格型数据    
Abstract

Tabular datasets with limited sample size lack invariance structure and enough samples, making traditional generative data augmentation methods difficult to obtain diverse data that conforms to the original data distribution. To address this issue, a vicinal distribution-based denoising diffusion probabilistic model(VD-DDPM) and its learning algorithm based on the characteristics of tabular data and the principle of vicinal risk minimization are proposed. Firstly, features of the tabular data with limited sample size are analyzed. Weakly correlated features are selected via priori knowledge, and the vicinal distribution of the training sample is constructed. Then, the VD-DDPM is built on the data sampled from vicinal distribution. A diverse dataset that conforms to the original data distribution is generated via VD-DDPM generation algorithm. Experiments on multiple datasets verify the effectiveness of the proposed algorithm in terms of the quality of the generated data and the performance of the downstream model.

Key wordsData Augmentation    Vicinal Risk Minimization    Vicinal Distribution    Diffusion Models    Tabular Data   
收稿日期: 2024-02-04     
ZTFLH: TP 391  
基金资助:

中央引导地方科技发展资金项目(No.YDZJSX20231A057)、教育部人文社科项目(No.22YJAZH092)资助

通讯作者: 石洪波,博士,教授,主要研究方向为机器学习、数据挖掘等.E-mail:shihb@sxufe.edu.cn.   
作者简介: 万博闻,硕士研究生,主要研究方向为机器学习、数据挖掘等.E-mail:419106432@qq.com. 张 赢,博士研究生,主要研究方向为机器学习、数据挖掘等.E-mail:zhangying123@hrbeu.edu.cn.
引用本文:   
石洪波, 万博闻, 张赢. 基于邻域分布的去噪扩散概率模型[J]. 模式识别与人工智能, 2024, 37(4): 352-367. SHI Hongbo, WAN Bowen, ZHANG Ying. Vicinal Distribution Based Denoising Diffusion Probabilistic Model. Pattern Recognition and Artificial Intelligence, 2024, 37(4): 352-367.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202404006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I4/352
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn