Research

Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection

Jia-Xing Zhao*1 Yang Cao*1 Deng-Ping Fan*1 Ming-Ming Cheng1 Xuan-Yi Li Le Zhang2

1CS, Nankai University      2A*STAR

Samples from RGBD saliency datasets.

Abstract

The large availability of depth sensors provides valuable complementary information for salient object detection (SOD) in RGBD images. However, due to the inherent difference between RGB and depth information, extracting features from the depth channel using ImageNet pre-trained backbone models and fusing them with RGB features directly are suboptimal. In this paper, we utilize contrast prior, which used to be a dominant cue in none deep learning based SOD approaches, into CNNs-based architecture to enhance the depth information. The enhanced depth cues are further integrated with RGB features for SOD, using a novel fluid pyramid integration, which can make better use of multi-scale cross-modal features. Comprehensive experiments on 5 challenging benchmark datasets demonstrate the superiority of the architecture CPFP over 9 state-of-the-art alternative methods.

Paper

  • Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection, J Zhao*, Y Cao*, DP Fan*, XY Li, L Zhang, Ming-Ming Cheng, IEEE CVPR, 2019 (*Equal contribution). [bib | pdf | code | dataset  [xdvf]| evaluation results]

Most related projects on this website

Method

Overview

Architecture CPFP. The architecture contains two modules: feature-enhanced modules(FEM) and fluid pyramid integration module. FEM contains two submodules: Contrast-enhanced net and cross-modal fusion. In contrast-enhanced net, we utilize a novel contrast loss to leverage the contrast prior in the deep network to generate the enhanced map, and then get the enhanced features by the cross-modal fusion at all the 5 stages of VGG-16. The fluid pyramid integration method is designed to fuse the multi-scale cross-modal features. Architecture CPFP. The architecture contains two modules: feature-enhanced modules(FEM) and fluid pyramid integration module. FEM contains two submodules: Contrast-enhanced net and cross-modal fusion. In contrast-enhanced net, we utilize a novel contrast loss to leverage the contrast prior in the deep network to generate the enhanced map, and then get the enhanced features by the cross-modal fusion at all the 5 stages of VGG-16. The fluid pyramid integration method is designed to fuse the multi-scale cross-modal features.

Qualitative comparisons

The visualization results from SSB1000, NJU2000, LFSD, RGBD135 and NLPR.

Quantitative comparisons

Quantitative comparison results including S-measure, mean F-measure, maximum F-measure and MAE on 5 popular datasets.

We provide all the available datasets(NJU2K, DES, GIT, LFSD, NLPR, SIP, SSD, STERE) and the training set as well as list we used in the code page.

If you find our work is helpful, please cite

@inproceedings{zhao2019Contrast,

title={Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection},

author={Zhao, Jia-Xing and Cao, Yang and Fan, Deng-Ping and Cheng, Ming-Ming and Li, Xuan-Yi and Zhang, Le},

booktitle=CVPR,

year={2019}

}

@inproceedings{fan2017structure,

title={{Structure-measure: A New Way to Evaluate Foreground Maps}},

author={Fan, Deng-Ping and Cheng, Ming-Ming and Liu, Yun and Li, Tao and Borji, Ali},

booktitle={IEEE International Conference on Computer Vision (ICCV)},

pages = {4548-4557},

year={2017},

note={\url{http://dpfan.net/smeasure/}},

organization={IEEE}

}

Further Related Work

We provide a novel and simple state-of-the-art architecture for salient object detection in ICCV 2019, more details can be referred to

Contact

zhaojiaxing AT mail.nankai.edu.cn

yangcao.cs AT gmail DOT com

dengpingfan AT mail.nankai.edu.cn

(Visited 6,125 times, 1 visits today)
Subscribe
Notify of
guest

48 Comments
Inline Feedbacks
View all comments
张晓忠

您好,请问一下你最近给的评价算法和2011年程老师的评价算法有什么不同?为什么用这两种评价算法得到的指标差这么多?

Yang Cao

您好,建议您详细描述问题(比如点明算法,S-measure亦或是?)这样方便有类似问题的读者定位问题,也方便我们对应方法的作者来回答

张晓忠

F-measure谢谢!

Yang Cao

你说的两种是哪两种?具体上差多少?

张晓忠

就比如说 mean F-measure吧,程老师好像用的是0-255的阈值策略,你们最新的评价算法用的应该是自适应的阈值策略,我测我的结果是差了3%左右。

Yang Cao

我们写评测代码的同学写的应该是有算mean F-measure max-Feasure和fix-Feasure,你可以再review一下。

张晓忠

你可能没有理解我的意思。不管是mean还是max,同样测我的结果,你们现在的MATLAB版本的评价算法比2011年程老师C#的评价算法都低了3%左右,原因应该是两种评价算法取阈值的策略不一样,我就想问一下哪种取阈值的方式是更合理的?

zzZ

你好,我想问一下使用了数据增强能带来多少性能的提升?

Yang Cao

你好,因为前期的工作(譬如cvpr2018的PCF)采用了crop和flip等数据扩充方法,我们在实验中选用了flip,保证了对比的公平性,所以没有针对数据增强做更多的试验和探讨。根据经验,数据增强在不同数据集上的提升效果不同,如果你有需要可以在对应的数据集上试试。

王小明

你好,为什么我下载的数据集里面没有DES和LFSD这两个数据集啊?在您给的结果里包括这两个数据集

Deng-Ping Fan

您好,请您查看这个页面,有所有的结果,并且实时更新,http://dpfan.net/d3netbenchmark/

zhu

您好,我想问一下论文中其他人的visualization results能提供一下嘛?谢谢!

Jiaxing Zhao

这个你可以问我们的另外一个作者要,他那里有全部的结果,dpfan.net是他的主页

zhu

谢谢您

chen

您好,您给的数据集NLPR中的test.list为什么是1000张?能否提供一下训练验证测试集的list,谢谢。。。。

Jiaxing Zhao

我们在github上放了训练的List,是由NJU2LK和NLPR一起构成的,NLPR总共是由1000张,去掉我们训练使用的,剩下300张是测试集,您可以考虑把train.lst和NLPR的test.lst进行比对,也可以按照之前那个老哥回复的那样,从我们放出的evaluation result中读取文件名,很容易就生成了。

chen

您好,您给的数据集NLPR中的test.list为什么是1000张?能否提供一下训练验证测试集的list,谢谢~~

zhang

您好,我想问一下,你们用caffe训练出现过loss一直是几万的这种情况吗?我对彩色图进行了减均值处理,GT也除了255,最后num_output为1,loss用的SimoidCrossEntropyLoss,实在不知道哪里出问题了,能帮忙解答一下吗?

Jiaxing Zhao

这个我们是没有遇到的,请问是用我们github上的代码直接下载下来进行训练的么

Lee

您好,请问您有文章中其它对比方法的测试结果图吗?我想用来做对照实验,谢谢!

zhang

您好,我想问一下,你们用caffe训练出现过loss一直是几万的这种情况吗?我对彩色图进行了减均值处理,GT也除了255,最后num_output为1,loss用的SimoidCrossEntropyLoss,实在不知道哪里出问题了,能帮忙解答一下吗?

王雪豪

您好,请问论文结果中利用的数据集STERE的出处是哪里呢?文中没有介绍,可否告知~~另外SSB1000(STEREO)这个数据的数据集作者好像真的联系不上,可以发布一下这个数据集吗,包括RGB和Depth数据的。

zhang

您好,我想问一下,你们用caffe训练出现过loss一直是几万的这种情况吗?我对彩色图进行了减均值处理,GT也除了255,最后num_output为1,loss用的SimoidCrossEntropyLoss,实在不知道哪里出问题了,能帮忙解答一下吗?

王雪豪

交叉熵loss应该是和分辨率有关,没有一个统一的标准,但是你还是几万的话,我觉得有点大,没有拟合很好,可以采用不同超参数和优化方法试试,或者扩大训练集。或者你用你的模型测试看看结果,如果效果可以说明拟合情况还不错,效果差的话你可能需要继续优化。

chen

您好,您给的数据集NLPR中的test.list为什么是1000张?能否提供一下训练验证测试集的list,谢谢。

zzz

请问contrast loss 最后收敛到多少啊?我试了一下,为什么一直维持在9左右?

Jiaxing Zhao

这个loss在数值上是降的不明显的。不会像最后的saliencyloss那么明显,我印象中大概是个5-6左右吧

zzz

谢谢。不知道为什么,我训练就降到9.20134这个值不变了

XIAOYAO

想请问一下,您的深度图显著对象的值是小的,背景的值是大的,那么当注意力的时候,显著性对象的权重不就小了吗?不知道我理解的对不对,向您请教

Jiaxing Zhao

是这样的,首先,我们的深度图是通过了一些conv层之后,才作为注意力图乘上去的。其次,我们在意的是前景和背景的差异,我们希望通过学到的深度增强图来增大前景背景的特征差异。因此,这些值都是相互适应的,比如说,经过这些conv层之后,如果在深度图中依然是前景的值小,背景的值大,那么在rgb特征图上,也会呈现出前景值小,背景值大的趋势。因此,相乘之后,前景背景的特征差异还是被增强了,后边的卷积层只需要简单的学习到一个反转的参数就可以了。

XIAOYAO

也就是说,如果深度图不经过翻转,显著性对象值是大的,背景的值是小的也没关系?

Jiaxing Zhao

是的,只要保证测试的时候测试集的深度值分布和训练时候一样就可以了,大体的效果是差不多的。

MZZ

NLPR(RGND1000)数据集的深度图都是0-65535的值,您能否将处理后的深度图发一下?

Jiaxing Zhao

这两天会放出数据,请关注我们的项目主页或者我的个人主页。

MZZ

刚看到您放数据集和代码了,感谢!还没下数据集,想问一下,您给的数据集中的深度图是处理过的还是原数据集?

Jiaxing Zhao

都是简单处理过的,比如放缩以及深度图的深度的翻转(保证不同数据集深度图中深度值的含义相同)

Mrlong

请问您能提供你的实验结果压缩包吗?用于实验对比

Jiaxing Zhao

ok,就这几天我们会放出代码以及所有的实验结果,请关注我们的主页。

tjuz

请问CEN模块是怎么在caffe中实施的?

tjuz

enhanced map 和谁算的loss?

tjuz

看到了。。

Mrlong

请问您的代码什么时候更新?

yang

已更新

lart

对您的工作很感兴趣,您是否可以公开您使用的训练集,测试集图片数据,以及您测得的其他论文在您设定的测试集上的预测结果。
我见您论文里使用的数据集是随机抽取的,为了更好的比对,我想在您的划分上进行训练,而且另外,不同数据集的深度图的数据略有不同,不知您能否分享您实际使用的数据集呢?

而且那个SSB1000和LFSD数据集您是否可以分享下呢?前者邮件根本联系不上原作者(⊙o⊙)…。。。

非常感谢您的工作!

Jiaxing Zhao

过一段时间我们会把代码以及所有的训练数据,以及在测试集上得到的数据全部放出的。

lart

非常感谢您的回复,期待您后续的工作!