谷歌预测景深研究:即使相机人物都在动,单一视点也能合成深度图

谷歌预测景深研究:即使相机人物都在动,单一视点也能合成深度图
铜灵 发自 凹非寺量子位 出品 | 大众号 QbitAI一个你边走边拍得到的一般视频,现在也能重建出精准的3D国际了。这一次,谷歌用深度学习的办法,不仅从视频中重建了移动目标的景深图,并且作用精准冷艳。即便拍照相机和人物一起在运动,也能很好重建景深图。输入这样的视频:就能输出这样的3D景深版:谷歌在博客中表明,这是国际首个在摄像机和人体一起运动情况下的深度学习景深猜测算法,优于制造深度图的最先进东西。半响时刻,推特有近千次的点赞,网友表明:“超级酷”。研讨论文也被CVPR 2019 接纳,锋芒毕露成为一篇Oral论文。学习先验让网友high起来的点在于,传统的创立景深图的办法,需求至少两个角度一起捕捉印象。通过两个不同的视角在同一时刻段的改动轨道,才干拼接重建出3D的印象。就像下面这样:而谷歌的这项研讨,只需求用一个角度的印象即可猜测方位联系进行重建,比传统办法简化了不是一星半点,变成了下面这样:在论文Learning the Depths of Moving People by Watching Frozen People中,研讨人员介绍了详细的规划细节。和传统办法最大的改善在于,谷歌的新办法能够用深度学习,从数据中学习人体姿势和形状的先验常识,避开了直接的3D三角测量(3D triangulation)。这个模型应该怎么去构建?怎么获取练习数据是摆在前面的第一个问题,在这个数据会集,需求移动的摄像机拍照的天然场景视频,以及准确的深度图。这样的数据集,好像在谷歌宗族产品中就能找到。研讨人员选取了YouTube上关于#假人应战#(Mannequin Challenge)论题的数据,在这种类型的视频中,被拍照者需做出一个定格动作,且要体现与人体模型相同停止不动,并由摄影师透过移动镜头的技巧进行拍照:有了这些数据,再利用多视角立体( Multi-View Stereo,MVS)算法,就能够获取到包含其间人物在内整个场景的深度图了。△ 组成景深图流程搞定数据集后,第二个问题来了,怎么能在人物和摄像机一起移动的情况下构建景深图呢?此前,谷歌在展现过在Pixel 3手机中,通过单目摄像头确认景深图的研讨。但在这个项目中,只要手机镜头在动,被拍照的人停止。但这个研讨的难度明显晋级了。研讨人员针对视频中的单个帧,独自进行深度揣度。他们计算了视频中每一帧和其他帧之间的2D光流(2D optical flow),用来表明两帧之间的像素位移。为了在测验时处理移动的人物,他们采用了人像切割网络( human-segmentation network)来掩盖初始深度图中的人类区域。整个网路的完好输入包含:RGB图画人物mask来自视差的mask深度图此外,通过学习人类姿势和人体形状的先验,研讨人员细化了景深图中各种细节。通过很多练习后,这个模型能够处理恣意相机方位和人体运动的天然视频。研讨人员将这个新模型与此前DORN DeMoN等相似算法进行了测评比照,成果如下:此外,除了组成景深图,这个新模型还能应用到将组成的CG目标刺进到视频场景中。成果显现,即便晃动摄像机改动其方位,也能用视频其他帧的像素填充人物后边的布景区域。传送门谷歌官方博客:https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html论文地址:https://arxiv.org/abs/1904.11111