多模态注意力感知与相邻尺度建模的Transformer网络
宋霄罡1,2, 张浩泽1, 张小龙1, 赵钦2,3, 黑新宏1,2, 何敏3

Transformer Network with Multimodal Attention Perception and Adjacent-Scale Modeling
SONG Xiaogang1,2, ZHANG Haoze1, ZHANG Xiaolong1, ZHAO Qin2,3, HEI Xinhong1,2, HE Min3
各网络在不同场景中的可视化结果对比