全球计算机视觉顶级会议IEEECVPR2018(ComputerVisionandPatternRecognition,即IEEE国际计算机视觉与模式识别会议)即将于六月在美国盐湖城召开,本届大会总共录取来自全球论文979篇。CVPR作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在2018年最新和最高的科技水平以及未来发展潮流。
CVPR官网显示,今年有超过3300篇的大会论文投稿,录取的979篇论文,比去年增长了25%(2016年论文录取783篇)。这些录取的最新科研成果,涵盖了计算机视觉领域各项前沿工作。CVPR2018包括21场tutorials、48场workshops,并且有来自全球各地超过115家企业将入驻今年CVPR工业展览。
商汤科技、香港中文大学-商汤科技联合实验室以及其他商汤科技联合实验室共有44篇论文被本届CVPR大会接收,其中包括口头报告论文3篇(录取率仅62/3300=1.88%),亮点报告论文13篇,论文录取数量相较于CVPR2017的23篇又有大幅度提高,成绩斐然。全球领先的科研成果展示了商汤科技智能视觉领域强大的人才储备、科研底蕴和创新能力。
大规模分布式训练代表性论文:Oral–深度增强学习自动网络结构设计
本文致力于解决深度神经网络结构的自动设计问题,与一般人工的结构设计不同,本文提出了一种高效算法,通过强化学习来自动设计最优的网络结构。传统的神经网络结构设计通常需要大量专家的知识和试错成本,并且甚至还需要一些灵感,每年仅有几个重要的网络结构被设计出来,因此,人工设计网络结构是一个难度极高的工作。近期的网络结构自动搜索的算法通常需要巨大的计算资源(数百块GPU,近一个月的训练),并且生产的模型可迁移性不强,难以做到真正的实用化。
本文提出了一种基于强化学习的网络结构自动设计算法,通过「网络块」的设计思想,让搜索空间大大降低,并且使设计的网络具有非常强的可迁移性。同时,本文使用「提前停止」和分布式架构来加速整个网络结构学习过程,达到了百倍于之前算法的速度(32块GPU,3天的训练)。实验表面,其生成的网络结构在CIFAR数据集上达到并且超越人类设计的网络结构的精度,并且其结构可以迁移到大规模的ImageNet数据上,取得良好的性能。
人体理解与行人再识别代表性论文:Oral–基于组一致性约束条件的行人再识别
行人再识别是新一代智能安防系统中的重要组件之一。给定一幅行人图像,行人再识别要求跨不同摄像头,对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习,因而不能精确的学习行人图像之间的视觉相似度。本文针对该问题提出一种新颖的组一致性约束条件,并通过连续条件随机场对该约束条件进行建模。将该连续条件随机场加入深度神经网络,从而实现该深度模型的端对端训练。实验结果表明该一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性,实现高精度的行人再识别。
自动驾驶场景理解Spotlight–基于单视图的立体匹配面向自动驾驶场景的单目深度估计方法,通常利用一个视角的图像数据作为输入,直接预测图片中每个像素对应的深度值,这就导致了现有方法通常需要大量的带深度信息标注的数据。近期的研究提出了在训练过程引入了几何约束的改进,但是在测试过程仍然缺乏显式的几何约束。本文提出把单目深度估计分解为两个子过程,即视图合成过程以及双目匹配过程,通过这样分解之后,使得所提出的模型既可以在测试阶段显式地引入几何约束又可以极大的减少对带深度标注数据的依赖。实验证明,本文提出的方法仅利用少量的深度数据就可以在KITTI数据集上超过之前的所有方法,并首次仅靠单目图像数据就超过了双目匹配算法BlockMatching,进一步推动了单目深度估计技术的落地。
底层视觉算法代表性论文:Spotlight–基于深度增强学习的普适图像复原本文提出了一种新颖的深度学习图像复原方法。大部分已有复原算法仅面向解决某类特定的图像复原问题,因而对各种不同类别的降质图像缺乏普适性。针对该问题,本文提出的RL-Restore算法先训练一系列针对不同降质图像的小型神经网络;同时设计一种评价图像复原质量的奖励函数,使用增强学习算法学习如何将这些小型神经网络进行合理组合。针对不同的降质图像,获得不同的复原算法组件的组合,实现对复杂降质图像的有效复原。
视觉与自然语言的综合理解代表性论文:Spotlight–面向视觉问题回答的对偶视觉问题生成针对开放式视觉问答(Open-edVisualQuestionAnswering)中训练数据过少的问题,本文提出了一种「可逆问答网络」。该模型可以通过重组不同模块,使一组模型同时完成「问题回答」和「问题生成」两种互逆的两个任务。该模型通过充分利用视觉问答和视觉问题生成的对偶性,提升模型对于有限训练数据的利用效率。该方法采用两个任务同时训练同一模型,使网络能够对问题和图片之间的联系有更深的理解,从而在问题生成和问题回答两个任务上都取得了更好的精度和效果。
人脸识别与人脸分析代表性论文:Poster–超越人脸识别的人脸解离特征空间学习本文同时解决人脸识别、属性分类和任意人脸生成这三个问题。大多数人脸特征学习的工作通常能够让网络学习得到一个具有极强身份或属性区分度的特征,以应用于人脸识别、属性分类等任务;或者学习一个具有全局信息的特征,以应用于人脸生成和编辑等应用。为什么不能学习到一个完备的特征空间并使得语义信息高度区分化,进而实现一个特征能够完成所有的任务呢?本文提出了一个信息蒸馏与驱逐网络的框架,只使用身份ID作为监督信息,学习到了一个同时具有极强信息区分度且包含全局信息的稠密凸特征空间。在LFW、LFWA和CelebA等数据集上的实验表明,人脸在该特征空间下的投影具有极高的身份、属性识别能力,且该空间内的任意一个点均具有较强的身份和属性语义,并可生成具有该语义的人脸图像。
Poster–基于边缘感知的人脸关键点定位本文提出一种基于边缘感知的人脸关键点检测算法,将人脸边缘线所描述的结构信息融入到关键点检测中,极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。文章主要解决了两大问题:1.人脸关键点在各个数据集间歧义性,定义不一致问题。文章通过捕捉对于人脸更通用的边缘线信息,将其作为人脸到关键点的中间媒介,使得不同数据集即使存在关键点差异,仍然可以相互辅助训练。2.复杂情况下关键点检测精度问题。本文首先通过消息传递结合对抗学习得到高精度的边缘线检测结果,再将边缘线信息多语义层次地融合到关键点检测中,使得算法在复杂情况下的鲁棒性大幅提升。
另外,文章还提出了一个新的人脸关键点检测数据集WiderFacialLandmarksin-the-wild(WFLW),包含10,000张带有98点和6属性标注的人脸数据,旨在帮助学界更有效的评估关键点算法在各种条件下的鲁棒性。
物体检测、识别与跟踪代表性论文:Spotlight–基于孪生候选区域网络的高性能视觉跟踪Poster–快速的端到端多角度文字检测与识别方法本文首次提出了端到端的多角度文字检测与识别方法。文字检测与识别(OCR)是计算机视觉领域的经典问题,过去的做法将文字检测与识别看做两个问题分别解决。本文提出了一个端到端的方法同时进行文字检测与识别,验证了这两个任务相辅相成,共同监督网络训练可以让这两个任务取得更好的精度。由于两个任务共用一个特征提取的网络,速度也是分别进行文字检测与识别的两倍左右。同时本文也提出了RoIRotate操作,其扩展了RoIAlign,可以应用于旋转物体的检测。本文在多个数据集上超过了现有方法。
深度生成式模型代表性论文:Poster–基于特征装饰的实时零点风格迁移附录:商汤科技及商汤科技联合实验室共有44篇论文被接收,具体如下:
1.3DHumanPoseEstimationintheWildbyAdversarialLearning
WeiYang,WanliOuyang,XiaolongWang,XiaogangWang
2.Attention-awareCompositionalNetworkforPersonRe-Identification
JingXu,RuiZhao,FengZhu,HuamingWang,WanliOuyang
3.Avatar-Net:Multi-scaleZero-shotStyleTransferbyFeatureDecoration
LuSheng*,JingShao*,ZiyiLinandXiaogangWang(*equalcontribution)
4.BeyondHolisticObjectRecognition:EnrichingImageUnderstandingwithPartStates
CewuLu,HaoSu,YongluLi,YongyiLu,LiYi,Chi-KeungTang,
5.CollaborativeandAdversarialNetworkforUnsuperviseddomainadaptation
WeichenZhang,WanliOuyang,DongXu,WenLi
6.ContextEncodingforSemanticSegmentation
HangZhang,KristinDana,JianpingShi,ZhongyueZhang,XiaogangWang,AmbrishTyagi,AmitAgrawal
7.DeepCocktailNetworks:Multi-sourceUnsupervisedDomainAdaptationwithCategoryShift
RuijiaXu,ZiliangChen,WangmengZuo,JunjieYan,LiangLin
8.DeepGroup-shufflingRandomWalkforPersonRe-identification
YantaoShen,HongshengLi,TongXiao,ShuaiYi,DapengChen,XiaogangWang
9.DynamicSceneDeblurringUsingSpatiallyVariantRecurrentNeuralNetworks
JiaweiZhang,JinshanPan,JimmyRen,YibingSong,LinchaoBao,RynsonLau,Ming-HsuanYang
10.EliminatingBackground-biasforRobustPersonRe-identification
MaoqingTian,HongshengLi,ShuaiYi,XuesenZhang,JianpingShi,JunjieYan,XiaogangWang
11.-to-DeepKronecker-ProductMatchingforPersonRe-identification
YantaoShen,TongXiao,HongshengLi,ShuaiYi,XiaogangWang
12.-to-FlowCorrelationTrackingwithSpatial-temporalAttention
ZhengZhu,WeiWu,WeiZou,JunjieYan
13.ExploringDisentangledFeatureRepresentationBeyondFaceIdentification
YuLiu*,FangyinWei*,JingShao*,LuSheng,JunjieYanandXiaogangWang(*equalcontribution)
14.EnvironmentUpgradeReinforcementLearningforNon-differentiableMulti-stagePipelines
ShuqinXie,ZitianChen,ChaoXu,CewuLu
15.FOTS:FastOrientedTextSpottingwithaUnifiedNetwork
XueboLiu,DingLiang,ShiYan,DaguiChen,YuQiao,JunjieYan
16.GeoNet:UnsupervisedLearningofDenseDepth,MotionFieldandCameraPose
ZhichaoYin,JianpingShi
17.GroupConsistentSimilarityLearningviaDeepCRFsforPersonRe-Identification
DapengChen,DanXu,HongshengLi,NicuSebe,XiaogangWang
18.HighPerformanceVisualTrackingwithSiameseRegionProposalNetwork
BoLi,WeiWu,ZhengZhu,JunjieYan
19.ID-GAN:LearningaSymmetryThree-PlayerGANforIdentity-PreservingFaceSynthesis
YujunShen,PingLuo,JunjieYan,XiaogangWang,XiaoouTang
20.LearningaToolchainforImageRestoration
KeYu,ChaoDong,LiangLin,ChenChangeLoy
21.LearningDualConvolutionalNeuralNetworksforLow-LevelVision
JinshanPan,SifeiLiu,DeqingSun,JiaweiZhang,YangLiu,JimmyRen,ZechaoLi,JinhuiTang,HuchuanLu,Yu-WingTai,Ming-HsuanYang
22.LearningGloballyOptimizedObjectDetectorviaPolicyGradient
YongmingRao,DahuaLin,JiwenLu
23.LiteFlowNet:ALightweightConvolutionalNeuralNetworkforOpticalFlowEstimation
TakWaiHui,XiaoouTang,ChenChangeLoy
24.Low-LatencyVideoSemanticSegmentation
YuleLi,JianpingShi,DahuaLin
25.LookatBoundary:ABoundary-AwareFaceAlignmentAlgorithm
WayneWu,ChenQian,ShuoYang,WangQuan
26.LSTMPoseMachines
YueLuo,JimmyRen,ZhouxiaWang,WenxiuSun,JinshanPan,JianboLiu,JiahaoPang,LiangLin
27.Mask-guidedContrastiveAttentionModelforPersonRe-Identification
ChunfengSong,YanHuang,WanliOuyang,LiangWang
28.OpticalFlowGuidedFeature:AFastandRobustMotionRepresentationforVideoActionRecognition
ShuyangSun,ZhanghuiKuang,LuSheng,WanliOuyang,WeiZhang
29.OptimizingVideoObjectDetectionviaaScale-TimeLattice
KaiChen,JiaqiWang,ShuoYang,XingchengZhang,YuanjunXiong,ChenChangeLoy,DahuaLin
30.PAD-Net:Multi-TasksGuidedPrediciton-and-DistillationNetworkforSimultaneousDepthEstimationandSceneParsing
DanXu,WanliOuyang,XiaogangWang,NicuSebe
31.PathAggregationNetworkforInstanceSegmentation
ShuLiu,LuQi,HaifangQin,JianpingShi,JiayaJia
32.Pose-RobustFaceRecognitionviaDeepResidualEquivariantMapping
KaidiCao,YuRong,ChengLi,XiaoouTang,ChenChangeLoy
33.PracticalBlock-wiseNeuralNetworkArchitectureGeneration
ZhaoZhong,JunjieYan,WeiWu,JingShao,Cheng-linLiu
34.RecognizeActionsbyDisentanglingComponentsofDynamics
YueZhao,YuanjunXiong,DahuaLin
35.RecoveringRealisticTextureinImageSuper-resolutionbySpatialFeatureModulation
XintaoWang,KeYu,ChaoDong,ChenChangeLoy
36.SingleViewStereoMatching
YueLuo,JimmyRen,MudeLin,JiahaoPang,WenxiuSun,HongshengLi,LiangLin
37.TemporalHallucinatingforActionRecognitionwithFewStillImages
LeiZhou,YaliWang,YuQiao
38.TowardsHuman-MachineCooperation:EvolvingActiveLearningwithSelf-supervisedProcessforObjectDetection
KezeWang,XiaopengYan,LeiZhang,LiangLin
39.UnifyingIdentificationandContextLearningforPersonRecognition
QingqiuHuang,YuXiong,DahuaLin
40.UnsupervisedFeatureLearningviaNon-ParametricInstance-levelDiscrimination
ZhirongWu,YuanjunXiong,StellaYu,DahuaLin
41.VideoPersonRe-identificationwithCompetitiveSnippet-similarityAggregationandCo-attentiveSnippetEmbedding
DapengChen,HongshengLi,TongXiao,ShuaiYi,XiaogangWang
42.VisualQuestionGenerationasDualTaskofVisualQuestionAnswering
YikangLi,NanDuan,BoleiZhou,XiaoChu,WanliOuyang,XiaogangWang
43.WeaklySupervisedHumanBodyPartParsingviaPose-GuidedKnowledgeTransfer
Hao-ShuFang,GuansongLu,XiaolinFang,JianwenXie,Yu-WingTai,CewuLu
44.ZoomandLearn:GeneralizingDeepStereoMatchingtoNovelDomains
JiahaoPang,WenxiuSun,ChengxiYang,JimmyRen,RuichaoXiao,JinZeng,LiangLin