结合扩散模型的三维旋转等变自监督学习矢量网络

引用本文

沈科迪, 赵杰煜, 谢敏. 结合扩散模型的三维旋转等变自监督学习矢量网络. 模式识别与人工智能, 2025,38(4): 310-324
SHEN Kedi, ZHAO Jieyu, XIE Min. Three-Dimensional Rotation Equivariant Self-Supervised Learning Vector Network Combined with Diffusion Model. PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE, 2025,38(4): 310-324. 复制到剪切板

Doi: 10.16451/j.cnki.issn1003-6059.202504002
Permissions

《模式识别与人工智能》编辑部

结合扩散模型的三维旋转等变自监督学习矢量网络

沈科迪¹, 赵杰煜¹, 谢敏¹

1.宁波大学信息科学与工程学院宁波 315211

通讯作者:

赵杰煜,博士,教授,主要研究方向为图像图形技术、自然交互、机器学习、计算机视觉.E-mail:Zhao_jieyu@nbu.edu.cn.

作者简介:

沈科迪,硕士研究生,主要研究方向为机器学习、计算机视觉.E-mail:skuld_1456@163.com.

谢敏,博士研究生,主要研究方向为机器学习、模式识别、计算机视觉.E-mail:cqxiemin@gmail.com.
第二十七届中国科协年会学术论文

收稿日期: 2025-01-08 接受日期: 2025-04-29

资助项目: 国家自然科学基金项目(No.62471266)、浙江省自然科学基金项目(No.LZ22F020001)、宁波市2025关键技术创新项目(No.2023Z224)资助

摘要

现有的部分处理三维数据的网络缺乏旋转等变性,难以处理经过未知旋转后的三维物体并估计其姿态变化.为了解决此问题,文中提出结合扩散模型的三维旋转等变自监督学习矢量网络,用于学习三维物体的旋转信息,估计三维物体的姿态变化.对于等变矢量网络,使用矢量神经元将标量数据提升为矢量表示,利用自监督学习的方式在无需标注数据的情况下学习三维目标的矢量信息,实现对三维数据的旋转重建和姿态变化估计.同时,针对姿态估计结果局部偏差的问题,构建用于优化整体姿态变化估计结果的扩散模型,在局部姿态信息的加噪去噪过程中,较好地去除局部姿态中的噪声,并使用去噪后的局部姿态信息优化整体姿态信息.实验表明,文中网络在测试数据随机旋转时,能估计数据在三维空间中的姿态变化.提出的扩散模型在重组任务上也可通过局部姿态信息优化整体姿态信息.

关键词: 三维点云; 等变矢量网络; 姿态变化估计; 自监督学习; 旋转等变性

中图分类号:TP183

Three-Dimensional Rotation Equivariant Self-Supervised Learning Vector Network Combined with Diffusion Model

SHEN Kedi¹, ZHAO Jieyu¹, XIE Min¹

1.Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211

Corresponding author:
ZHAO Jieyu, Ph.D., professor. His research interests include image graphics technology, natural interaction, machine lear-ning, and computer vision.

About Author:
SHEN Kedi, Master student. His research interests include machine learning and computer vision.
XIE Min, Ph.D. candidate. Her research interests include machine learning, pattern recognition, and computer vision.
Academic Papers of the 27th Annual Meeting of the China Association for Science and Technology

Fund:Supported by National Natural Science Foundation of China(No.62471266), Natural Science Foundation of Zhejiang Province(No.LZ22F020001), 2025 Key Technological Innovation Program of Ningbo City(No.2023Z224)

Abstract

Some networks for processing 3D data lack rotation equivariance and have difficulty in processing 3D objects after unknown rotation and estimating their pose changes. To solve this problem, a three-dimensional rotation equivariant self-supervised learning vector network combined with diffusion model is proposed in this paper. The network is designed to learn the rotation information of 3D objects, handle the pose change estimation task, and optimize the overall pose information using the local pose information denoised by the diffusion model. For the equivariant vector network, the scalar data are promoted to vector representations using vector neurons. Self-supervised learning is implemented without labeled data to enable the network to learn the vector information of 3D targets and achieve rotation reconstruction and pose change estimation of 3D data. Meanwhile, to solve the problem of local deviation in the pose estimation results, a diffusion model is constructed to optimize the overall pose change estimation results. The model learns local pose information in the process of noising and denoising, and can effectively remove the noise in the local pose. Experiments demonstrate that the designed network can estimate pose changes of the data in 3D space when the test data are randomly rotated, and it outperforms other networks. Moreover, the proposed model achieves superior performance in the reassembly task compared with current state-of-the-art methods, and optimizes the overall pose information through local pose information.

Key words: Key Words 3D Point Cloud; Equivariant Vector Network; Pose Change Estimation; Self-Supervised Learning; Rotational Equivariance

文章图片

三维点云作为一种简单高效的三维空间数据表示形式, 在工业领域具有广泛应用^[1], 如自动驾驶^[2]、机器人交互^[3]等, 其蕴含的三维信息能辅助机器执行复杂任务, 如辅助机械臂操作^[4].在这些任务中, 要求神经网络在面对变化的物体姿态时能实时有效地学习并输出对应的姿态信息, 这对传统的神经网络是一种挑战.

传统的神经网络, 如卷积神经网络(Convolu-tional Neural Network, CNN), 只具有平移不变性^[5], 只有标量信息的输出, 难以处理空间中未知的旋转姿态信息^[6].

姿态信息是矢量信息, 其隐特征随着输入的旋转变换而变换, 即网络需要具有旋转等变性^[7].然而在现阶段, 旋转等变网络^[8]在等变任务领域的探索程度还较有限, 对于姿态变化估计的结果仍存在一定偏差.

同时在现阶段的网络训练过程中, 通常需要大量的具有标签的训练数据集, 使网络的适用范围受限^[9], 也提高网络的训练成本, 尤其是在数据形式更复杂的三维数据上进行训练.

针对上述问题, 本文提出结合扩散模型的三维旋转等变自监督学习矢量网络.引入矢量神经元构建矢量层与矢量化的Transformer结构, 学习三维数据中的矢量信息, 保证网络的旋转等变性.采用自监督学习方式, 利用未标记的数据学习隐特征, 在构建表示时无需人工定义的注释, 降低训练网络时需要的标签成本^[10].与传统的针对点云的神经网络不同, 本文网络可对三维残缺点云进行等变重建, 在后续任务上也可直接估计变换后的点云姿态变化, 并以旋转矩阵的形式进行展现.同时针对姿态估计结果局部偏差的问题, 构建用于优化整体姿态变化估计结果的扩散模型, 学习三维点云的局部信息.通过对三维点云的各个局部点云进行加噪, 训练扩散模型的去噪能力, 使其能把各个姿态混乱的局部点云部件重新整合成有序的整体结构, 最终实现利用局部信息对点云整体姿态变化信息的优化, 使得到姿态信息更精确, 同时兼顾整体与局部.在Shape-Net^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集上的实验表明, 本文网络性能较优.

1 相关工作

1.1 等变网络

等变网络研究主要集中在两类方法:构建群卷积的可控核方法^[15]和使用矢量表示的矢量网络方法.

在可控核方法中, Cohen等^[16]引入使用群等变卷积^[7]的网络, 通过群卷积学习输入数据中的方向信息.在矢量网络方法中, Hinton等^[17]针对CNN池化操作会破坏网络旋转等变性, 设计胶囊网络, 利用胶囊存储矢量信息, 并设计动态路由机制^[18], 可在网络中传递方向信息.Huang等^[19]构建图神经网络, 将数据中的变换信息映射至图信号中, 实现网络的等变性.Fuchs等^[20]提出SE(3)-Transformers, 在图结构上设计自注意力机制, 更好地在层与层之间传递网络中的变换信息.Liu等^[21]在图神经网络中传递矢量消息, 学习矢量特征.Lim等^[22]构建符号等变网络, 在网络中的各个学习节点构建特征向量, 实现网络的等变性.

上述网络内嵌的等变性有利于处理数据中的变换信息.然而, 这些方法需要特定的架构以匹配经过特殊处理的数据, 在具有良好性能的同时也限制网络的适用性.Deng等^[23]提出VN-PointNet, 是一个简洁的SO(3)等变框架, 具有良好的性能和通用性.任何针对标准点云的网络都可提升为SO(3)等变网络, 同时最大限度地保留原始架构的性能.

虽然上述方法成功实现旋转等变性, 但将网络的应用局限在一些旋转不变性的任务上^[24], 如对旋转的输入进行分类, 未最大程度利用网络中蕴含的等变信息, 并且大部分网络的复杂结构难以适用不同的任务.

1.2 自监督学习

自监督学习是一种无监督学习, 可从数据本身生成用于学习的标签.它通常使用前置任务(如重建)在大型数据集上进行预训练, 再进行微调, 将其学习的表示推广到其它数据集以执行各种任务^[25].自监督学习在预训练期间不需要标签, 减轻对手动标记数据的大量需求^[10].

自监督学习在点云网络中也有广泛研究^[26].Yu等^[27]提出MM-Point, 运用二维视图的信息辅助网络对三维物体进行自监督学习.Wang等^[28]提出OcCo(Occlusion Completion), 尝试从摄像机视图上被遮挡的点云中恢复原始点云并进行训练.Yu等^[29]提出Point-BERT, 直接屏蔽点云数据的一部分, 让网络在重建点云的过程中学习其中的信息.在此基础上, Pang等^[10]提出Point-MAE, 采用MAE(Masked Autoencoder)^[30], 仅将未掩码的点云输入编码器, 缓解位置泄漏的问题, 并采用适合处理点云这类无序集合型数据^[31]的Transformer结构作为网络主体, 构建掩码自编码器, 在重建点云上取得不错效果.

虽然上述方法对于点云具有较好的学习能力, 但未考虑旋转等变性, 对旋转点云中的特征不敏感.

1.3 扩散模型

Dhariwal等^[32]提出扩散模型, 通过双向迭代的马尔科夫链完成目标对象的生成过程.在一个方向上, 逐步添加高斯噪声, 将数据转换为高斯分布.再在另一个方向上训练扩散模型, 逆转这个过程, 即去噪, 从随机噪声中生成新的样本.Ho等^[33]采用基于非平衡热力学的扩散概率模型, 实现高质量的图像合成结果.Song等^[34]采用分数匹配与郎之万动力学的方法, 也实现不错的图像合成与修复结果.Huang等^[35]提出SceneDiffuser, 可生成三维场景.Luo等^[36]提出用于点云生成的扩散模型.Giuliari等^[37]提出Positional Diffusion, 运用扩散模型解决位置推理问题, 将分散在二维空间中的元素恢复成原始位置.Scarpellini等^[38]提出DiffAssemble, 在三维空间中将分散的局部数据重组成完整数据.

虽然上述方法有效探索三维点云的重组任务, 但其重组效果仍有待提升, 并且未对其学习的姿态信息进行扩展.

2 结合扩散模型的三维旋转等变自监督学习矢量网络

本文提出结合扩散模型的三维旋转等变自监督学习矢量网络, 用于学习三维点云的矢量信息, 其网络框架图如图1所示.

	Figure Option View Download New Window
	图1 结合扩散模型的三维旋转等变自监督学习矢量网络框架图Fig.1 Framework of 3D rotation equivariant self-supervised learning vector network combined with diffusion model

本文网络可分为如下两部分.

1)自监督学习的旋转等变矢量性网络(Rotation Equivariant Vector Network with Self-Supervised Lear-ning, SEVN), 使用矢量神经元的方式使网络具有旋转等变性.同时借鉴MAE, 在使用掩码并重建的自监督训练方式对SEVN进行训练后, 可有效地从三维点云中学习并获得具有旋转等变性的内在表示, 估计三维点云数据的姿态变化.

2)姿态扩散网络(Pose Diffusion Network, Pose-Diff).在点云局部的姿态信息中引入随时间步长变化的高斯噪声, 构建针对点云局部姿态信息的加噪去噪过程.将整体点云分割成一个个点云块, 构造每个局部点云, 用于后续的加噪去噪过程.在加噪过程中, 对每个局部点云逐步增加噪声水平递增的姿态变换信息, 以此训练PoseDiff, 使其能预测加噪过程中产生的噪声.对于训练完成后的PoseDiff可执行迭代去噪, 从高斯噪声中初始化姿态信息, 实现把各个局部点云从混乱的姿态重组为初始的有序结构.

2.1 自监督学习的旋转等变矢量性网络

自监督学习的旋转等变矢量性网络(SEVN)可学习任意旋转点云中的矢量信息, 具体训练流程如图2所示.

	Figure Option View Download New Window
	图2 SEVN训练流程图Fig.2 Training flowchart of SEVN

为了应对海量数据和点云固有无序性带来的挑战, SEVN在输入网络前需要将输入点云分割成块.此预处理过程旨在降低点云的信息密度, 有助于点云数据的后续处理, 并减轻隐特征对点云密度变化的敏感性.当输入数据变成具有均匀尺度的点云块时, 按块为单位进行屏蔽.只处理可见的点云块, 执行一系列数据处理步骤, 如矢量化、特征提取和特征标记(Token)化.然后, 采用基于Transformer结构的等变自编码器框架, 并采用MAE, 对Token进行随机掩码, 训练和学习特征Token.最后利用学习的特征重建输入点云中被遮挡的点云块.

上述训练过程属于预训练的部分, 其中等变解码器模块仅用于预训练过程.在下游任务中, 本文结合等变编码器模块与等变线性层的微调头, 处理姿态变化估计任务.

对于网络的旋转等变性, 本文采用轻量级的等变网络框架^[23], 使用矢量神经元实现等变特征的传输.传统的标量网络是无法保证旋转等变性的, 因为标量神经元只有标量特征, 无法保存数据的方向信息, 而矢量神经元的维度高于标量神经元, 可存储数据中复杂的方向信息.标量神经元与矢量神经元在数据维度上的区别如图3所示.

	Figure Option View Download New Window
	图3 标量神经元与矢量神经元在数据维度上的区别Fig.3 Difference between scalar neurons and vector neurons in data dimension

采用矢量神经元的矢量网络f(· )可学习数据中的方向信息, 网络存在如下性质:对于任意的旋转矩阵R∈ SO(3), 满足

f(VR; θ )=f(V; θ )R,

其中, θ 表示网络隐特征,

V=[v₁, v₂, …, v_N]∈ R^N^×^C^{× 3},

是由三维数据中原始特征

X=[x₁, x₂, …, x_N]∈ R^N^×^C^{× 3}

生成的矢量特征.

等变网络中每层的潜在通道数C⁽^d⁾可类似于标准神经网络从前一层映射至后一层, 即

V⁽^d⁺¹⁾=f(V⁽^d⁾; θ )∶ $R^{N \times C^{(d)} \times 3}$ → $R^{N \times C^{(d + 1)} \times 3}$ .

通过上述方法, 本文将网络中神经元的表示从标量x∈ R提升为矢量v∈ R³, 保留数据中的矢量信息.与Deng等^[23]仅将它们应用于多层感知机的方法不同, 本文进一步将它们的使用扩展到基于注意力机制的Transformer架构, 使矢量信息在整个SEVN中无缝传输, 实现网络整体的等变性, 同时提升性能.

SEVN具体由等变特征提取层、等变自编码器、重构层这3个模块构成.

对于由若干点组成的点云数据, 难以直接进行特征提取.为了方便后续矢量网络处理特征, 需要将不规则的标量点云数据转化成统一化的矢量化特征.由于点云的无序性和尺寸的不统一, 难以进行矢量化, 因此需要先将点云规整成固定的点云块.

本文采用FPS(Farthest Point Sampling)^[10]和K近邻(k-Nearest Neighbor, KNN)^[10]将输入的完整点云划分为点云块.给定一个有N个点的点云数据X∈ R^N^{× 3}, 通过FPS找到最简洁描述此点云轮廓的n个中心点 $p_{i}^{center}$ ∈ Rⁿ^{× 3}, i=1, 2, …, n.基于这n个中心点, KNN在点云数据X中找到距离每个中心点最近的k-1个点.这些点群和n个中心点共同构成n个点云块, 表示为P_i∈ Rⁿ^×^k^{× 3}.在这些点云块中, 块内的每个点都相对于块的中心点进行坐标归一化操作.在掩码操作方面, 以点云块为单位进行掩码, 采用的掩码率为m.可见的点云块P_vis∈ R^(1-^m⁾ⁿ^×^k^{× 3}作为输入送入后续模块, 被掩码的点云块P_mask=P_gt∈ R^mn^×^k^{× 3}作为真实值与重构的点云块进行损失计算.在掩码策略上, 采用和MAE相同的随机掩码策略.

对于每个点云块中的每个点, 可参考其所在的块构建局部矢量特征, 尽可能地整合原始数据中更多维的矢量信息.由于每个点云块都经过坐标归一化, 所以后续的处理会很统一.点云块内的每个点都会根据其相对于所属的点云块中心点的位置进行矢量化.对于生成的点云块中的每个点p_i∈ R³, 点云块中的构造矢量为:

Vec_i=[v_i₁, v_i₂, …, v_ik]∈ R^k^{× 3× 3},

其中, 单点的构造矢量

v_ij=concat(p_j-p_i, p_i, p_j× p_i), pj_∈Pp_atch,pi_∈Pp_atch.

这样得到的矢量信息较复杂, 结构不够简单, 难以进行后续操作.因此, 特征经过卷积运算后被聚集成R^C^{× 3}的矢量矩阵, 组合成初始矢量特征:

V=[Vec₁, Vec₂, …, Vec_N], Vec_i∈ R^N^×^C^{× 3},

该矢量特征供后续矢量等变网络计算, 其中的每个V由v_ij卷积聚合而成.

在得到初始的矢量信息之后, 通过由等变的线性层、非线性层和归一化层组合而成的矢量多层感知机进行特征学习.其中的线性层和归一化层都是线性变换, 保留矢量特征原有的方向性, 每个网络层的矢量化也能保证层与层之间的矢量信息传递, 但是需要特殊处理非线性层中的激活函数.传统的ReLU函数是针对标量特征的激活函数, 并不适用于矢量特征.本文首先采用一个线性矢量层预测矢量V需要激活的方向矢量k.然后将矢量V沿矢量k分解, 得到与方向矢量k平行的分矢量q₁和与方向矢量k垂直的分矢量q₂.最后对q₁进行激活操作.矢量ReLU表达式如下:

V'= $\{\begin{array}{l} V, & < q_{1}, k > \geq 0 \\ V - < q_{1}, \frac{k}{‖ k ‖} > \frac{k}{‖ k ‖}, & < q_{1}, k > < 0 \end{array}$

上述线性矢量层和非线性矢量层通过传统的多层感知机结构的组合方式串联组合, 最终堆叠成矢量多层感知机, 表示为f_mlp, 具有如下性质:

f_mlp(PR)=VR=f_mlp(V)R,

其中, P∈ R^N^{× 3}表示输入的三维点云, V∈ R^C^{× 3}表示矢量初始化后的矢量特征列表, R∈ R^{3× 3}表示旋转矩阵.应用在f_mlp(· )输入点云上的旋转操作被等变地转移到后续的矢量特征上, 保证特征提取层的等变性.特征提取层在三维点云中提取的矢量特征V将被转化成一个个Token送入等变自编码器模块, 用于后续学习.

等变自编码器进一步学习矢量特征V, 满足后续的旋转等变任务.本文的等变自编码器骨干网络是基于Transformer结构的掩码自编码器^[30], 同时采用非对称的编码器-解码器设计, 即编码器的层数多于解码器的层数.

在等变编码器部分, 本文仅将可见Token, 即T_v∈ $R^{(1 - m) n \times C_{T} \times 3}$ 作为输入.对可见Token的每个位置单独进行嵌入, 得到位置嵌入T_pv∈ $R^{(1 - m) n \times C_{T} \times 3}$ .T_pv与T_v一起输入编码器.这种方法有两个优点.首先, 有助于减少编码器部分的计算负担, 考虑到编码器通常比解码器包含更多的块, 减少编码器中的输入数据量可大幅减轻计算复杂度和处理时间.其次, 可降低输入数据信息之间的相关性, 掩码Token的完全丢失可使编码器更好地关注可见Token之间的内部关系, 并学习数据中的隐含特征.

在等变解码器部分, 需要对Token进行一次合并处理.经过编码器模块处理之后的Token, 即T_e∈ $R^{(1 - m) n \times C_{e} \times 3}$ 会与被掩码的Token, 即T_m∈ $R^{mn \times C_{e} \times 3}$ 合并送入解码器.同时, 处理位置信息, 解码器将所有Token位置信息嵌入T_pf∈ $R^{n \times C_{e} \times 3}$ (包括可见Token和掩码Token)作为输入的一部分, 与T_e、T_m一起作为输入进行学习.输入的T_pf、T_e和T_m在经过解码器处理后, 得到输出T_d∈ $R^{mn \times C_{d} \times 3}$ .T_d与掩码Token具有相同维度, 可作为后续重构任务的输入, 并最终被重建成缺失的点云块.

为了确保等变自编码器模块的旋转等变性, 本文采用矢量神经元对自编码器模块的整体进行矢量化.由于传统Transformer中的网络层都是标量结构, 缺失等变性, 为了保证网络中整体矢量信息的等变传输, 修改Transformer中的网络层, 使其可以处理矢量信息, 并且将注意力层的计算方式提升为矢量, 能对矢量进行操作.原本Transformer中注意力计算公式:

\[\text{Attention}\left( Q, K, V \right)=\text{softmax}\left( \frac{Q{{K}^{T}}}{\sqrt{{{d}_{k}}}} \right)V\]

通过对网络进行矢量化的改造, 将原来的注意力公式Attention(Q, K, V)改为VN-Attention(Q, K, V), 并使用矢量数据Q∈ R^C^{× 3}, K∈ R^C^{× 3}, V∈ R^C^{× 3}代替Q∈ R^C, K∈ R^C, V∈ R^C.这样可在不改变原本注意力计算步骤的情况下, 保留特征中蕴含的矢量信息.对矢量特征进行注意力的计算, 使注意力计算的过程保持等变特性, 具体公式如下:

\[\begin{matrix} \text{VN-Attention}\left( \mathsf{QR}, \mathsf{KR}, \mathsf{VR} \right)=\text{softmax}\left( \frac{\mathsf{QR}{{(\mathsf{KR})}^{T}}}{\sqrt{{{d}_{k}}}} \right)\mathsf{VR} & {} \\ =\text{softmax}\left( \frac{\mathsf{QR}{{\mathsf{R}}^{T}}{{\mathsf{K}}^{T}}}{\sqrt{{{d}_{k}}}} \right)\mathsf{VR} & {} \\ =\left( \text{softmax}\left( \frac{\mathsf{Q}{{\mathsf{K}}^{T}}}{\sqrt{{{d}_{k}}}} \right)\mathsf{V} \right)\mathsf{R} & {} \\ \ \ =\text{VN-Attention}\left( \mathsf{Q}, \mathsf{K}, \mathsf{V} \right)\mathsf{R} & {} \\\end{matrix}\]

在上式中可发现, 对于输入数据的旋转操作等价于经过注意力计算后再对输出数据的旋转操作, 表明采用矢量计算之后的注意力计算是旋转等变的.此外, Transformer架构中的其它线性层也通过矢量神经元实现矢量化, 从而构建完整的矢量化的Transformer结构, 在自编码器中保证旋转等变性.

经过等变自编码器处理后, 矢量特征得到有效学习, 可通过后续模块依据任务需求进行针对性调整.

重构层模块根据等变自编码器输出的矢量特征Token构建点云块的结构.通过构建一个线性等变层, 将自编码器输出的结果T_d∈ R^mn^×^C^{× 3}重新重构为与最初的点云块维度相同的结构, 用于后续的损失计算.对于输入的点云信号X∈ R^N^{× 3}, 在经过预处理后会得到点云块P∈ R^N^×^k^{× 3}, 作为输入被送入等变层进行等变特征学习, 经过矢量特征学习、掩码操作, 最后经过自编码器之后, 可得到输出结果T_d∈ R^mn^×^C^{× 3}.T_d会被送入最后的重构头, 并重塑为点云块, 最终得到网络输出结果P_pre∈ R^mn^×^k^{× 3}.以原始的掩码点云块P_mask∈ R^mn^×^k^{× 3}作为真实值, 与网络的输出结果P_pre进行对比并开展损失计算, 实现自监督的训练过程.对于自监督损失计算, 采用l₂倒角距离损失公式:

$\begin{aligned}L_{1}= & \frac{1}{\boldsymbol{P}_{\mathrm{pre}}} \sum_{\boldsymbol{a} \in \boldsymbol{P}_{\mathrm{pre}}} \min _{\boldsymbol{b} \in \boldsymbol{P}_{\mathrm{gt}}}\|\boldsymbol{a}-\boldsymbol{b}\|_{2}^{2}+ \\& \frac{1}{\boldsymbol{P}_{\mathrm{gt}}} \sum_{\boldsymbol{b} \in \boldsymbol{P}_{\mathrm{gt}}} \min _{\boldsymbol{a} \in \boldsymbol{P}_{\mathrm{gt}}}\|\boldsymbol{a}-\boldsymbol{b}\|_{2}^{2} .\end{aligned}$

当预训练结束后, 重构层模块与等变自编码器中的等变解码器会被部分舍弃, 取而代之的是用于姿态变化估计任务的微调头.微调头模块输出点云的预测姿态, 这个姿态表示为旋转矩阵的形式.具体SEVN在下游任务上的训练流程如图4所示.

	Figure Option View Download New Window
	图4 SEVN在下游任务上的训练流程图Fig.4 SEVN training flowchart on downstream tasks

本文对点云的姿态变化估计主要是在类别级别预测点云整体的姿态变化方向.当点云旋转时, 旋转后的点云与原始点云之间会产生一个等距变换.这个等距旋转变换可表示为一个3× 3旋转矩阵的形式, 记为R_S∈ R^{3× 3}.微调头的目的是直接预测R_S, 让网络学习点云的姿态变化信息.由于任务很复杂, 不是简单的分类和分割, 需要保持等变传输, 因此使用一维矢量线性层和代替传统的标量线性层微调头, 保证网络整体的旋转等变性.最终设计的网络将根据输入的点云X∈ R^N^{× 3}输出预测矩阵R'_S∈ R^{3× 3}.这个任务不是使用标签损失的普通分类和分割任务, 需要设计一个新的损失函数用于损失计算, 新的损失函数设计如下:

$L_{2}=\alpha f_{d}\left(\boldsymbol{R}_{S}, \boldsymbol{R}_{S}^{\prime}\right)+\beta\left\|\left|\boldsymbol{R}_{S}^{\prime}\right|-1\right\|, $

其中, 函数f_d(· )用于计算旋转矩阵对应矢量间的欧氏距离, α 、 β 表示调整权重的系数, 公式右边为正则化项.

如果旋转矩阵的行列式值不为1, 即矩阵不正交, 则旋转矩阵对点云进行的仿射变换就不是等距变化, 点云可能发生拉伸或压缩, 从而产生形变, 使点云失真.为了解决这个问题, 必须对旋转矩阵施加特定的正则化约束, 针对最终效果的衡量采用余弦相似度.R'_S与R_s中各个对应方向矢量的余弦相似度越大, 说明各个矢量在方向上越接近, 预测效果越优.

2.2 姿态扩散网络

本文在实验中发现, 虽然SEVN能较好地估计点云的姿态变化, 但是在处理一些局部细节时存在不足, 因此设计姿态扩散网络(PoseDiff), 学习局部信息, 优化整体姿态.具体PoseDiff训练流程如图5所示.

	Figure Option View Download New Window
	图5 PoseDiff训练流程图Fig.5 Training flowchart of PoseDiff

PoseDiff采用NCSN(Noise Conditional Score Network)^[34]作为骨干网络, 去除点云局部姿态信息中的噪声.NCSN具有较强的数学逻辑并且能较好地适配本文任务, 可优化整体点云的姿态信息.

依据现有分割标签对整体点云进行拆分, 得到局部点云m初始的旋转矩阵 $r_{0}^{m}$ 与平移矢量 $l_{0}^{m}$ , 结合后得到每个局部点云的初始姿态信息 $s_{0}^{m}$ .

训练过程主要分为正向加噪过程和反向去噪过程.在正向加噪过程中, 迭代地将从高斯分布中采样的噪声添加至姿态信息中.随后训练PoseDiff.在反向去噪过程中, 逆转噪声, 获得初始的姿态信息

S₀={ $s_{0}^{m}$ }_m_{∈ [1, 2, …,}_M_].

在正向加噪过程中, 将服从高斯分布的噪声添加至每个输入 $s_{0}^{m}$ 中, 在每个时间步长e获得一个加噪的姿态信息 $s_{e}^{m}$ .但是, 考虑到高斯噪声是一种线性独立同分布的噪声, 并且旋转群中对于加法运算是不封闭的, 将其直接加至姿态信息中会导致姿态信息失真, 破坏其内部的旋转矩阵.

因此, 本文在正向加噪过程和后续的反向去噪过程中, 首先将姿态信息中的旋转信息 $r_{0}^{m}$ 映射至李代数空间, 使其变成一个线性矢量的形式, 再与平移矢量结合, 组合成便于加噪的矢量形式.本文使用Rodrigues公式的变体将原本的旋转矩阵r映射为一个李代数的旋转矢量ω .对于任何旋转矩阵R∈ R^{3× 3}, 可使用如下公式进行对数映射^[39], 映射至李代数空间:

$\begin{array}{l}\gamma=\cos ^{-1}\left(\frac{\operatorname{tr}(\boldsymbol{R})-1}{2}\right), \\\boldsymbol{\omega}=\frac{\gamma}{2 \sin (\gamma)}\left[\begin{array}{l}r_{32}-r_{23} \\r_{13}-r_{31} \\r_{21}-r_{12}\end{array}\right], \end{array}$

其中tr(R)表示矩阵R的迹.

通过上式可将每个旋转矩阵 $r_{e}^{m}$ 转化为对应的矩阵矢量 $ω_{e}^{m}$ , 再将其与平移矢量 $l_{e}^{m}$ 结合, 得到可使用高斯噪声进行线性加噪的姿态信息 $s_{e}^{m}$ , 并且由于转化为矢量, 可直接采用矢量相减的方式计算损失.

随后, 在每个噪声水平σ _i∈ Σ 下进行时间步长e的加噪过程, Σ ={σ _i}_i_{∈ [1, 2, …,}_L_].在每个噪声水平σ _i下, 根据时间步长e逐步对姿态信息 $s_{e}^{m}$ 增加高斯噪声Δ S=N(0, $σ_{i}^{2}$ I), 那么在每个噪声水平σ _i下的位于时间步长e的扰动后的数据分布:

$q_{\sigma_{i}}(\boldsymbol{S}) \triangleq \int \boldsymbol{p}_{\text {data }}(e) N\left(\boldsymbol{S} \mid e, \sigma_{i}^{2} \boldsymbol{I}\right) \mathrm{d} e$

不断对 $q_{σ_{i}}$ (S)进行加噪迭代, 实现每步的正向加噪.在每步加噪过程中, 会将当前噪声水平下的姿态信息S_e_-1加噪成S_e.把S_e当作输入数据, 输入分数网络c_θ, 即PoseDiff中可得到网络预测的结果S'_e_-1.此时将二者相减并通过损失函数进行计算即可对网络进行训练.在PoseDiff中有4个条件细化块和1个卷积层, 4个条件细化块均通过卷积层进行堆叠, 最终得到网络的预测结果.

本文依据退火朗之万动力学对噪声扰动后的数据分布进行采样.对于给定的加噪后的姿态信息

$\widetilde{\boldsymbol{S}}_e=\left\{\widetilde{\boldsymbol{S}}_e^m\right\}_{m\in\left[1, 2, \cdots, M\right]}$,

在每个噪声水平σ _i∈ Σ 下进行一次去噪, 在此噪声水平下, 每个时间步长e下的姿态信息$\widetilde{S}_{e}$可通过如下公式去噪:

$\widetilde{S}_{e-1}=\widetilde{S}_{e}+\alpha_{i} \frac{c_{\theta}\left(\widetilde{S}_{e}, \sigma_{i}\right)}{2}+\sqrt{\alpha_{i}} z_{e-1}, $

其中, α _i表示根据噪声水平计算的步长, z_e_-1表示从标准正态分布N(0, I)中采样的噪声, c_θ表示训练的分数网络, σ _i表示当前的噪声水平.在去噪过程结束后再通过Rodrigues公式将旋转信息从李代数映射为旋转矩阵.

由于训练样本不同, 本文简化原有NCSN中的损失函数, 对于扰动过后的数据分布$q_{\sigma}(\widetilde{S})$, 根据如下损失函数

$L(\theta ; \sigma)=\frac{1}{2} E_{q_{\sigma}(\tilde{\boldsymbol{S}})}\left[\left\|c_{\theta}(\widetilde{\boldsymbol{S}}, \sigma)+\boldsymbol{S} * \sigma\right\|^{2}\right]$

进行最小化分数网络输出与真实梯度之间的差异计算.在加噪过程中不断优化该损失函数, 以此训练PoseDiff.

3 实验及结果分析

为了证实本文网络在三维点云上获取姿态信息的能力, 设计旋转重建实验、姿态变化估计实验、局部点云重组实验、优化姿态实验, 并给出相应可视化结果, 揭示网络的旋转等变性, 全面评估本文网络性能.

实验选用ShapeNet^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集.实验中使用的旋转操作均为随机生成的任意角度的旋转.

所有实验在 Ubuntu 20.04.2 系统上完成, 使用1块NVIDIA RTX 2080 Ti GPU(11 GB 显存), 基于PyTorch框架实现.

3.1 旋转重建实验

为了说明SEVN重建残缺点云的能力, 设计旋转重建实验, 框架如图6所示.

	Figure Option View Download New Window
	图6 旋转重建实验框架图Fig.6 Framework of rotation reconstruction experiment

采用ShapeNet数据集进行旋转重建实验.ShapeNet数据集包含50 000多个不同的3D点云模型, 可分为55个类别.在训练时使用Adam(Adap-tive Moment Estimation)优化器, 学习率设为0.001, 批量大小设为16, 一共训练300轮.

SEVN包含一层特征提取层、一层编码器、一层解码器和一层点云重塑层, 每层都包含若干子层.先使用FPS操作将所有点云数据统一为2 048个点, 分成64个点云块, 每个点云块中有32个点.SEVN将这64个点云块作为输入, 进行掩码率为m的随机掩码操作.当输入的可见点云数据经过特征提取层后, 转化成维度为(1-m)64× 128× 3的矢量特征.随后的编码器和解码器都是由各类线性矢量层与矢量注意力层组合而成的矢量块组成的, 在编码器中有12个矢量块, 解码器中有4个矢量块, 呈现出非对称的结构.特征在进行注意力计算的前后并不会产生数据维度上的变化.当特征Token经过编码器后, 会由空白的Token将维度填充为64× 128× 3.最后经过解码器和点云重构层之后还原成原本输入中缺失的点云数据.

SEVN对ShapeNet数据集上图像的重建效果如图7所示, 并采用Mitsuba^[40]对其进行渲染, 后续的点云可视化图都采用该渲染器进行渲染.由图可看出, SEVN对于旋转点云的重建效果较优, 能重建不同旋转状态下的点云, 重建的点云噪声较小, 重建结果较简洁, 与原始输入基本吻合.SEVN以m=60%的掩码率进行预训练, 也能重建完整点云.这种高泛化性和强鲁棒性验证SEVN可较好地学习数据中深层次的隐含特征, 作为下游任务的良好预训练模型.

	Figure Option View Download New Window
	图7 SEVN在ShapeNet数据集上的重建效果渲染图Fig.7 Rendering of reconstruction results obtained by SEVN on ShapeNet dataset

同时, 对网络的隐特征θ 进行可视化展示, 通过可视化编码器模块生成的隐特征θ 验证旋转等变性, 结果如图8所示.

	Figure Option View Download New Window
	图8 SEVN中隐特征θ 的可视化结果Fig.8 Visualization results of hidden feature θ in SEVN

隐特征θ 通过t-SNE(t-Dis-tributed Stochastic Neighbor Embedding)^[41]进行可视化.

值得注意的是, 当输入数据经历旋转变换时, θ 表现出与输入一致的旋转, 由此证实SEVN具有旋转等变性.

3.2 姿态变化估计实验

为了进一步说明SEVN对于点云信号方向信息的处理能力, 设计姿态变化估计实验, 框架如图9所示.

	Figure Option View Download New Window
	图9 姿态变化估计实验框架图Fig.9 Framework of pose change estimation experiment

在SEVN预训练完成后, 舍弃网络中的解码器部分, 取而代之的是由矢量线性层组成的微调头, 网络输出点云的姿态信息并将其与原点云进行对比.对于随机旋转的点云, SEVN应输出产生姿态变化的矩阵.

为了更直观地展示预测的结果, 本文将SEVN预测的矩阵R'应用至原点云P上, 对比应用旋转矩阵产生的点云P₁与P₂.

在姿态变化估计的下游任务上, 选择Model-Net40、Human Body数据集进行实验.

ModelNet40数据集包含12 311个三维点云模型, 涵盖40个对象类(包含飞机、摩托车、台灯等), 其中的9 843个模型用于训练, 剩下的2 468个模型用于测试.

Human Body数据集包含399个高质量的三维人体扫描数据, 以三维网格的形式进行存储.本文在其基础上使用FPS进行采样, 但是由于两个网格模型过于简单, 导致无法有效采样, 因此最终选择397个复杂模型作为采样来源, 并在每个模型上随机采样4 096个点构成三维点云模型.

在训练时使用Adam优化器, 学习率设为0.000 1, 批量大小设为16, 一共训练100轮.

处于下游任务阶段的SEVN在原有预训练网络的基础上去掉解码器和重构层, 接上一个微调头, 其中包含两个等变的线性层, 最后输出3× 3旋转矩阵形式的结果.在姿态变化估计实验中并不会对输入点云进行掩码操作.

SEVN在ModelNet40、Human Body数据集上的姿态变化估计效果如图10所示.

	Figure Option View Download New Window
	图10 SEVN预测的姿态与原始姿态对比结果Fig.10 Comparison between pose predicted by SEVN and original pose

由图10可看出, 当旋转后的点云输入网络中时, 网络会输出其对应的姿态变化信息.为了更直观地展现网络输出的姿态变化信息与真实姿态信息的重合程度, 将输出的姿态变化信息重新运用到原有的点云上并与输入点云进行对比, 二者具有很高的重合度, 由此证实SEVN具有不错的姿态变化估计能力.

选择Point-MAE^[10]、VN-PointNet^[23]、PointNet^[42]与SEVN进行性能对比, 相应指标包括CD-Loss(Cham-fer Distance Loss)和准确率.准确率采用旋转矩阵的余弦相似度进行计算, 对于所有测试集上的全部旋转矩阵的结果, 计算其各方向上的余弦相似度, 再计算平均值.余弦相似度为1时表示方向完全一致, 余弦相似度为-1时表示方向正好相反.

由表1可见, 由于有逆方向的存在, 因此无法正确识别方向的PointNet与Point-MAE性能很差, 尤其是姿态准确率, 而VN-PointNet性能稍好, 但都差于SEVN.

表1 各方法在ModelNet40数据集上的指标值对比 Table 1 Metric value comparison of different methods on ModelNet40 dataset

同时, 本文也对比4个网络的姿态变化估计图, 结果如图11所示, 图中给出具体的CD-Loss值.由图可看出, 缺失旋转等变性的PointNet和Point-MAE对于点云的姿态并不敏感, 难以获取正确姿态.虽然矢量网络VN-PointNet具有旋转等变性, 但姿态变化估计效果略差.SEVN具有最优的估计效果和最低的CD-Loss值.

	Figure Option View Download New Window
	图11 各网络姿态变化估计图对比Fig.11 Comparison of pose change estimation of different networks

3.3 局部点云重组实验

为了说明PoseDiff能学习局部点云信息, 设计局部点云重组实验, 框架如图12所示.

	Figure Option View Download New Window
	图12 局部点云重组实验框架图Fig.12 Framework of local point cloud reconstruction experiment

选择Breaking Bad数据集上的everyday子集进行实验.everyday子集由20类常见物品的三维网格(Mesh)组成, 如瓶子、盘子和玻璃杯等, 通过模拟几何将完整物体分成若干碎片.本文提取每个三维网格的顶点作为后续训练的三维点云数据集.

训练PoseDiff, 求解姿态中的噪声问题, 总步长E设为100, 噪声水平的总数量L设为32.通过对初始姿态S₀在李代数空间不断添加高斯噪声以实现姿态的退化, 并在每步加噪之后都训练PoseDiff, 预测每步增加的噪声, 训练网络的去噪能力.在去噪过程中, 通过退火朗之万动力学逐步减少噪声水平, 并采用训练好的PoseDiff逐步采样, 预测噪声并将退化后的姿态逐步回归至初始姿态.

PoseDiff对Breaking Bad数据集上部分物件的去噪结果如图13所示.由图可看出, 噪声水平下降时, PoseDiff不断对局部点云姿态信息进行迭代, 成功地将一个个分散的局部点云重组成一个有序的整体点云.

	Figure Option View Download New Window
	图13 PoseDiff对局部点云姿态噪声的去噪结果Fig.13 Denoising results of PoseDiff on local point cloud pose noise

同时, 也将PoseDiff与重组方面性能最优的DiffAssemble^[38]进行定性对比.在同一参考系中两个网络对同一个碎酒杯和碎酒瓶的重组结果如图14所示.由图可看出, PoseDiff的重组结果优于DiffAssemble, 更接近真实的姿态信息.

	Figure Option View Download New Window
	图14 PoseDiff和DiffAssemble的重组结果对比Fig.14 Comparison of reconstruction results of PoseDiff and DiffAssemble

选择如下网络进行对比实验:Breaking Bad数据集上默认网络Global^[14]、DGL(Dynamic Graph Learning)^[14]和LSTM(Long Short-Term Memory)^[14]、神经配对网络NSM(Neural Shape Mating)^[43]、等变网络SE(3) Equivariance^[44]、最新效果较优的Diff-Assemble^[38], 指标值结果如表2所示.表中旋转与平移的RMSE(Root Mean Squared Error)分别为旋转向量和平移向量之间的均方根误差, 局部准确率是计算CD-Loss中小于0.01的部件数量的百分比.由表可看到, PoseDiff的旋转和平移RMSE值均最低, 表明每个部件最终的位姿与原位姿十分接近, 而局部准确率最高则表明部件级的准确度也获得保障, 分散的局部点云在经过去噪后能较好地与原始点云重合, 重组成最初的完整点云.

表2 各网络在Breaking Bad数据集上的指标值对比 Table 2 Metric value comparison of different methods on Breaking Bad dataset

3.4 优化姿态实验

为了说明PoseDiff可实现局部点云的姿态信息对整体点云姿态信息的优化, 设计优化姿态实验, 框架如图15所示.

	Figure Option View Download New Window
	图15 优化姿态实验框架图Fig.15 Framework of optimized pose experiment

在优化姿态实验上, 结合SEVN和PoseDiff, 采用局部姿态信息优化全局信息, 得到精确的点云姿态信息.

本文按照图15, 分别将旋转后的点云数据送入SEVN, 得到网络对于整体点云的姿态变化估计S.之后将S进行加噪并按照分割标签产生每个局部点云加噪后的姿态.这些局部点云的姿态信息使用PoseDiff进行去噪.此时的局部姿态信息并非由完全混乱的噪声产生, 而是在噪声水平最低的σ ₁和σ ₀阶段, 分别进行一次步长为e的加噪过程和去噪过程即可.该任务不需要估计平移信息, 因此在这个阶段将全部的平移矢量l设为0, 防止平移信息进行干扰.最后将每个去噪之后得到的局部点云姿态 $s_{0}^{m}$ 进行聚合, 得到S₀, 与整体的姿态估计S进行加权平均, 得到优化之后的姿态变化估计S'.

通过PoseDiff优化后的姿态变化估计与SEVN直接得到的姿态变化估计对比如图16所示, 同时给出相应CD-Loss值.

	Figure Option View Download New Window
	图16 优化前后的姿态变化估计图对比Fig.16 Comparison of pose change estimation before and after optimization

由图16可看出, 经过PoseDiff优化后的姿态产生的CD-Loss值更小, 这说明经过PoseDiff优化后的姿态更贴近点云数据的真实姿态, PoseDiff优化实现对点云姿态变化更精确的估计.

4 结束语

本文提出结合扩散模型的三维旋转等变自监督学习矢量网络, 能有效学习三维点云的任意旋转信息, 同时将网络内部的隐特征进行可视化, 表明网络具有旋转等变性.本文网络在旋转重建实验和姿态变化估计实验上性能较优, 表明网络具有良好的学习等变特征的能力.由于局部噪声的存在, 网络对于旋转点云的姿态估计存在一定误差.因此本文设计针对局部点云姿态变化信息进行预测的扩散模型, 通过在李代数空间对局部点云姿态信息加噪和去噪这一双向过程的学习, 较好地学习局部点云的姿态变化信息.实验表明, 该扩散模型在处理局部点云的姿态信息上性能较优, 并且能通过局部点云的姿态信息进一步优化整体的姿态信息, 更加精准估计三维点云的整体姿态变化情况.在今后的研究中, 可进一步拓宽网络的应用数据面, 如处理更复杂的网格形式的三维数据, 应对具有更多细节的三维数据的挑战.

本文责任编委张军平

Recommended by Associate Editor ZHANG Junping

参考文献

文献选项

[1]	GAO W, LI G. Typical Engineering Applications of 3D Point Clouds // GAO W, LI G, eds. Deep Learning for 3D Point Clouds. Berlin, Germany: Springer, 2025: 273-299. [本文引用:1]
[2]	WU H, WEN C L, LI W, et al. Transformation-Equivariant 3D Object Detection for Autonomous Driving. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(3): 2795-2802. [本文引用:1]
[3]	YANG J Y, DENG C Y, WU J, et al. EquivAct: SIM(3)-Equivariant Visuomotor Policies beyond Rigid Object Manipulation // Proc of the IEEE International Conference on Robotics and Automation. Washington, USA: IEEE, 2024: 9249-9255. [本文引用:1]
[4]	SIMEONOV A, DU Y L, TAGLIASACCHI A, et al. Neural Descriptor Fields: SE(3)-Equivariant Object Representations for Manipulation // Proc of the International Conference on Robotics and Automation. Washington, USA: IEEE, 2022: 6394-6400. [本文引用:1]
[5]	KAYHAN O S, VAN GEMERT J C. On Translation Invariance in CNNs: Convolutional Layers Can Exploit Absolute Spatial Location // Proc of the IEEE/CVF Conference on Computer Vision and Pa-ttern Recognition. Washington, USA: IEEE, 2020: 14262-14273. [本文引用:1]
[6]	LIN C E, SONG J W, ZHANG R, et al. SE(3)-Equivariant Point Cloud-Based Place Recognition. Proceedings of Machine Learning Research, 2023, 205: 1520-1530. [本文引用:1]
[7]	COHEN T S, WELLING M. Steerable CNNs[C/OL]. [2024-12-26]. https://arxiv.org/pdf/1612.08498. [本文引用:2]
[8]	ZHU M H, GHAFFARI M, CLARK W A, et al. E2PN: Efficient SE(3)-Equivariant Point Network // Proc of the IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 1223-1232. [本文引用:1]
[9]	MIDGLEY L I, STIMPER V, ANTOR?N J, et al. SE(3) Equivariant Augmented Coupling Flows // Proc of the 37th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2023: 79200-79225. [本文引用:1]
[10]	PANG Y T, WANG W X, TAY F E H, et al. Masked Autoenco-ders for Point Cloud Self-Supervised Learning // Proc of the European Conference on Computer Vision. Berlin, Germany: Springer, 2022: 604-621. [本文引用:6]
[11]	CHANG A X, FUNKHOUSER T, GUIBAS L, et al. ShapeNet: An Information-Rich 3D Model Repository[C/OL]. [2024-12-26]. https://arxiv.org/pdf/1512.03012. [本文引用:2]
[12]	WU Z R, SONG S R, KHOSLA A, et al. 3D ShapeNets: A Deep Representation for Volumetric Shapes // Proc of the IEEE Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2015: 1912-1920. [本文引用:2]
[13]	MARON H, GALUN M, AIGERMAN N, et al. Convolutional Neu-ral Networks on Surfaces via Seamless Toric Covers. ACM Transactions on Graphics, 2017, 36(4). DOI: 10.1145/3072959.3073616. [本文引用:2]
[14]	SELLÁN S, CHEN Y C, WU Z Y, et al. Breaking Bad: A Dataset for Geometric Fracture and Reassembly // Proc of the 36th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2022: 38885-38898. [本文引用:5]
[15]	KONDOR R, LIN Z, TRIVEDI S. Clebsch-Gordan Nets: A Fully Fourier Space Spherical Convolutional Neural Network // Proc of the 32nd International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2018: 10138-10147. [本文引用:1]
[16]	COHEN T, WEILER M, KICANAOGLU B, et al. Gauge Equivariant Convolutional Networks and the Icosahedral CNN. Procee-dings of Machine Learning Research, 2019, 97: 1321-1330. [本文引用:1]
[17]	HINTON G E, KRIZHEVSKY A, WANG S D. Transforming Auto-Encoders // Proc of the 21st International Conference on Artificial Neural Networks. Berlin, Germany: Springer, 2011: 44-51. [本文引用:1]
[18]	SABOUR S, FROSST N, HINTON G E. Dynamic Routing Between Capsules // Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 3859-3869. [本文引用:1]
[19]	HUANG N Y, LEVIE R, VILLAR S. Approximately Equivariant Graph Networks // Proc of the 37th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2023: 34627-34660. [本文引用:1]
[20]	FUCHS F B, WORRALL D E, FISCHER V, et al. SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks // Proc of the 34th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2020: 1970-1981. [本文引用:1]
[21]	LIU C, RUHE D, FORRÉ P. Multivector Neurons: Better and Faster O( n)-Equivariant Clifford GNNs[C/OL]. [2024-12-26]. https://arxiv.org/pdf/2406.04052. [本文引用:1]
[22]	LIM D, ROBINSON J, JEGELKA S, et al. Expressive Sign Equi-variant Networks for Spectral Geometric Learning // Proc of the 37th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2023: 16426-16455. [本文引用:1]
[23]	DENG C Y, LITANY O, DUAN Y Q, et al. Vector Neurons: A General Framework for SO(3)-Equivariant Networks // Proc of the IEEE/CVF International Conference on Computer Vision. Wa-shington, USA: IEEE, 2021: 12180-12189. [本文引用:4]
[24]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need // Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 6000-6010. [本文引用:1]
[25]	GUI J, CHEN T, ZHANG J, et al. A Survey on Self-Supervised Learning: Algorithms, Applications, and Future Trends. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(12): 9052-9071. [本文引用:1]
[26]	WU Y H, ZHANG T, KE W, et al. Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2024: 23052-23061. [本文引用:1]
[27]	YU H T, SONG M F. MM-Point: Multi-view Information-Enhan-ced Multi-modal Self-Supervised 3D Point Cloud Understand ing. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(7): 6773-6781. [本文引用:1]
[28]	WANG H C, LIU Q, YUE X Y, et al. Unsupervised Point Cloud Pre-training via Occlusion Completion // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 9762-9772. [本文引用:1]
[29]	YU X M, TANG L L, RAO Y M, et al. Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Washington, USA: IEEE, 2022: 19291-19300. [本文引用:1]
[30]	HE K M, CHEN X L, XIE S N, et al. Masked Autoencoders Are Scalable Vision Learners // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 15979-15988. [本文引用:2]
[31]	ZHAO H S, JIANG L, JIA J Y, et al. Point Transformer // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 16259-16268. [本文引用:1]
[32]	DHARIWAL P, NICHOL A. Diffusion Models Beat GANs on Ima-ge Synthesis // Proc of the 35th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2021: 8780-8794. [本文引用:1]
[33]	HO J, JAIN A, ABBEEL P. Denoising Diffusion Probabilistic Mo-dels // Proc of the 34th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2020: 6840-6851. [本文引用:1]
[34]	SONG Y, ERMON S. Generative Modeling by Estimating Gradients of the Data Distribution // Proc of the 33rd International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2019: 11918-11930. [本文引用:2]
[35]	HUANG S Y, WANG Z, LI P H, et al. Diffusion-Based Generation, Optimization, and Planning in 3D Scenes // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 16750-16761. [本文引用:1]
[36]	LUO S T, HU W. Diffusion Probabilistic Models for 3D Point Cloud Generation // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2021: 2836-2844. [本文引用:1]
[37]	GIULIARI F, SCARPELLINI G, JAMES S, et al. Positional Di-ffusion: Ordering Unordered Sets with Diffusion Probabilistic Mo-dels[C/OL]. [2024-12-26]. https://arxiv.org/pdf/2303.11120. [本文引用:1]
[38]	SCARPELLINI G, FIORINI S, GIULIARI F, et al. DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2024: 28098-28108. [本文引用:3]
[39]	EADE E. Lie Groups for 2D and 3D Transformations[C/OL]. [2024-12-26]. https://ethaneade.com/lie.pdf. [本文引用:1]
[40]	NIMIER-DAVID M, VICINI D, ZELTNER T, et al. Mitsuba 2: A Retargetable Forward and Inverse Renderer. ACM Transactions on Graphics, 2019, 38(6). DOI: 10.1145/3355089.3356498. [本文引用:1]
[41]	VAN DER MAATEN L, HINTON G. Visualizing Data Using t-SNE. Journal of Machine Learning Research, 2008, 9(86): 2579-2605. [本文引用:1]
[42]	QI C R, SU H, MO K, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2017: 77-85. [本文引用:1]
[43]	CHEN Y C, LI H D, TURPIN D, et al. Neural Shape Mating: Self-Supervised Object Assembly with Adversarial Shape Priors // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 12714-12723. [本文引用:1]
[44]	WU R H, TIE C R, DU Y S, et al. Leveraging SE(3) Equivariance for Learning 3D Geometric Shape Assembly // Proc of the IEEE/CVF International Conference on Computer Vision. Wa-shington, USA: IEEE, 2023: 14265-14374. [本文引用:1]

2025

0.0

... 三维点云作为一种简单高效的三维空间数据表示形式,在工业领域具有广泛应用^[1],如自动驾驶^[2]、机器人交互^[3]等,其蕴含的三维信息能辅助机器执行复杂任务,如辅助机械臂操作^[4] ...

2023

0.0

2024

0.0

2022

0.0

2020

0.0

... 传统的神经网络,如卷积神经网络(Convolu-tional Neural Network, CNN),只具有平移不变性^[5],只有标量信息的输出,难以处理空间中未知的旋转姿态信息^[6] ...

2023

0.0

... 传统的神经网络,如卷积神经网络(Convolu-tional Neural Network, CNN),只具有平移不变性^[5],只有标量信息的输出,难以处理空间中未知的旋转姿态信息^[6] ...

0.0

... 姿态信息是矢量信息,其隐特征随着输入的旋转变换而变换,即网络需要具有旋转等变性^[7] ...

... 在可控核方法中,Cohen等^[16]引入使用群等变卷积^[7]的网络,通过群卷积学习输入数据中的方向信息 ...

2023

0.0

... 然而在现阶段,旋转等变网络^[8]在等变任务领域的探索程度还较有限,对于姿态变化估计的结果仍存在一定偏差 ...

2023

0.0

... 同时在现阶段的网络训练过程中,通常需要大量的具有标签的训练数据集,使网络的适用范围受限^[9],也提高网络的训练成本,尤其是在数据形式更复杂的三维数据上进行训练 ...

2022

0.0

... 采用自监督学习方式,利用未标记的数据学习隐特征,在构建表示时无需人工定义的注释,降低训练网络时需要的标签成本^[10] ...

... 自监督学习在预训练期间不需要标签,减轻对手动标记数据的大量需求^[10] ...

... 在此基础上,Pang等^[10]提出Point-MAE,采用MAE(Masked Autoencoder)^[30],仅将未掩码的点云输入编码器,缓解位置泄漏的问题,并采用适合处理点云这类无序集合型数据^[31]的Transformer结构作为网络主体,构建掩码自编码器,在重建点云上取得不错效果 ...

... 本文采用FPS(Farthest Point Sampling)^[10]和K近邻(k-Nearest Neighbor, KNN)^[10]将输入的完整点云划分为点云块 ...

... 选择Point-MAE^[10]、VN-PointNet^[23]、PointNet^[42]与SEVN进行性能对比,相应指标包括CD-Loss(Cham-fer Distance Loss)和准确率 ...

0.0

... 在Shape-Net^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集上的实验表明,本文网络性能较优 ...

... 实验选用ShapeNet^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集 ...

2015

0.0

... 在Shape-Net^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集上的实验表明,本文网络性能较优 ...

... 实验选用ShapeNet^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集 ...

2017

0.0

... 在Shape-Net^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集上的实验表明,本文网络性能较优 ...

... 实验选用ShapeNet^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集 ...

2022

0.0

... 在Shape-Net^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集上的实验表明,本文网络性能较优 ...

... 实验选用ShapeNet^[11]、ModelNet40^[12]、Human Body^[13]、Breaking Bad^[14]数据集 ...

... 选择如下网络进行对比实验:Breaking Bad数据集上默认网络Global^[14]、DGL(Dynamic Graph Learning)^[14]和LSTM(Long Short-Term Memory)^[14]、神经配对网络NSM(Neural Shape Mating)^[43]、等变网络SE(3) Equivariance^[44]、最新效果较优的Diff-Assemble^[38],指标值结果如表2所示 ...

2018

0.0

... 1 等变网络等变网络研究主要集中在两类方法:构建群卷积的可控核方法^[15]和使用矢量表示的矢量网络方法 ...

2019

0.0

... 在可控核方法中,Cohen等^[16]引入使用群等变卷积^[7]的网络,通过群卷积学习输入数据中的方向信息 ...

2011

0.0

... 在矢量网络方法中,Hinton等^[17]针对CNN池化操作会破坏网络旋转等变性,设计胶囊网络,利用胶囊存储矢量信息,并设计动态路由机制^[18],可在网络中传递方向信息 ...

2017

0.0

2023

0.0

... Huang等^[19]构建图神经网络,将数据中的变换信息映射至图信号中,实现网络的等变性 ...

2020

0.0

... Fuchs等^[20]提出SE(3)-Transformers,在图结构上设计自注意力机制,更好地在层与层之间传递网络中的变换信息 ...

0.0

... Liu等^[21]在图神经网络中传递矢量消息,学习矢量特征 ...

2023

0.0

... Lim等^[22]构建符号等变网络,在网络中的各个学习节点构建特征向量,实现网络的等变性 ...

2021

0.0

... Deng等^[23]提出VN-PointNet,是一个简洁的SO(3)等变框架,具有良好的性能和通用性 ...

... 对于网络的旋转等变性,本文采用轻量级的等变网络框架^[23],使用矢量神经元实现等变特征的传输 ...

... 与Deng等^[23]仅将它们应用于多层感知机的方法不同,本文进一步将它们的使用扩展到基于注意力机制的Transformer架构,使矢量信息在整个SEVN中无缝传输,实现网络整体的等变性,同时提升性能 ...

... 选择Point-MAE^[10]、VN-PointNet^[23]、PointNet^[42]与SEVN进行性能对比,相应指标包括CD-Loss(Cham-fer Distance Loss)和准确率 ...

2017

0.0

... 虽然上述方法成功实现旋转等变性,但将网络的应用局限在一些旋转不变性的任务上^[24],如对旋转的输入进行分类,未最大程度利用网络中蕴含的等变信息,并且大部分网络的复杂结构难以适用不同的任务 ...

2024

0.0

... 它通常使用前置任务(如重建)在大型数据集上进行预训练,再进行微调,将其学习的表示推广到其它数据集以执行各种任务^[25] ...

2024

0.0

... 自监督学习在点云网络中也有广泛研究^[26] ...

2024

0.0

... Yu等^[27]提出MM-Point,运用二维视图的信息辅助网络对三维物体进行自监督学习 ...

2021

0.0

... Wang等^[28]提出OcCo(Occlusion Completion),尝试从摄像机视图上被遮挡的点云中恢复原始点云并进行训练 ...

2022

0.0

... Yu等^[29]提出Point-BERT,直接屏蔽点云数据的一部分,让网络在重建点云的过程中学习其中的信息 ...

2022

0.0

... 本文的等变自编码器骨干网络是基于Transformer结构的掩码自编码器^[30],同时采用非对称的编码器-解码器设计,即编码器的层数多于解码器的层数 ...

2021

0.0

2021

0.0

... 3 扩散模型Dhariwal等^[32]提出扩散模型,通过双向迭代的马尔科夫链完成目标对象的生成过程 ...

2020

0.0

... Ho等^[33]采用基于非平衡热力学的扩散概率模型,实现高质量的图像合成结果 ...

2019

0.0

... Song等^[34]采用分数匹配与郎之万动力学的方法,也实现不错的图像合成与修复结果 ...

... PoseDiff采用NCSN(Noise Conditional Score Network)^[34]作为骨干网络,去除点云局部姿态信息中的噪声 ...

2023

0.0

... Huang等^[35]提出SceneDiffuser,可生成三维场景 ...

2021

0.0

... Luo等^[36]提出用于点云生成的扩散模型 ...

0.0

... Giuliari等^[37]提出Positional Diffusion,运用扩散模型解决位置推理问题,将分散在二维空间中的元素恢复成原始位置 ...

2024

0.0

... Scarpellini等^[38]提出DiffAssemble,在三维空间中将分散的局部数据重组成完整数据 ...

... 同时,也将PoseDiff与重组方面性能最优的DiffAssemble^[38]进行定性对比 ...

0.0

... 3,可使用如下公式进行对数映射^[39],映射至李代数空间: ...

2019

0.0

... SEVN对ShapeNet数据集上图像的重建效果如图7所示,并采用Mitsuba^[40]对其进行渲染,后续的点云可视化图都采用该渲染器进行渲染 ...

2008

0.0

... 通过t-SNE(t-Dis-tributed Stochastic Neighbor Embedding)^[41]进行可视化 ...

2017

0.0

... 选择Point-MAE^[10]、VN-PointNet^[23]、PointNet^[42]与SEVN进行性能对比,相应指标包括CD-Loss(Cham-fer Distance Loss)和准确率 ...

2022

0.0

2023

0.0