科技动态

学校计算机视觉团队研究成果在中科院一区Top期刊《Information Fusion》上发表

近日,我校电气学院计算机视觉团队科研成果“Towards Zero-shot Object Counting via Deep Spatial Prior Cross-modality Fusion”在人工智能领域国际顶级权威期刊Information Fusion上发表。

Information Fusion期刊为中科院一区Top期刊,五年影响因子16.1。期刊聚焦于信息融合、数据融合、知识融合等领域的研究,被录用的稿件反映了信息融合领域的前沿研究水平。根据最新的JCR统计,该期刊在“Computer Science: Hardware and Architecture”和“Computer Science: Signal Processing”学科等308个期刊中排名第1,在“Computer Science: Information System”学科394个期刊中排名第4,在“Computer Science: Software”学科407个期刊中排名第5

2022级检测技术与自动化装置硕士研究生陈金永为论文第一作者,高明亮老师为论文通讯作者。山东理工大学为成果的第一完成单位和通讯单位。

原文链接:

https://www.sciencedirect.com/science/article/pii/S1566253524003154

代码链接:

https://github.com/jinyongch/DSPI.

该研究提出了一种深度空间先验交互(DSPI)网络,解决零样本目标计数任务中由于冻结大模型的视觉编码器和文本编码器造成的假设空间潜在错位问题。该工作采用“多模态大语言模型+空间先验特征融合”的方法。首先,通过多模态大语言模型提取图像特征和文本提示特征,然后融合空间先验以优化图像视觉特征,并通过设计元适配器对文本特征进行蒸馏提纯。最终,构建一个统一的视觉特征空间,实现视觉特征与文本特征的对齐,实现对任意类别目标的准确计数。

在不同的计数数据集上进行了对比实验,其中包括1个零样本计数数据集、1个车辆计数数据集和5个人群计数数据集。对比结果表明,DSPI在各种场景下都具有较好的计数性能。

该研究将多模态大语言模型、空间先验特征融合等方法应用于目标计数研究之中,具有鲜明的跨学科特性,是我校师生在人工智能推动智慧城市建设方面的又一次成功探索。

作者简介

高明亮:IEEE高级会员,副教授,硕士生导师,发表学术期刊论文180余篇,兼任IEEE TIPIEEE TCSVTIEEE TIM40余个SCI期刊审稿人,研究方向为计算机视觉和深度学习。

陈金永:山东理工大学电气与电子工程学院2022级检测技术与自动化装置硕士研究生。研究方向为深度学习,目标计数。截至目前,以第一作者发表SCI论文3篇,曾获2022年研究生一等学业奖学金,2023年被评为电气先锋党员等。