您的位置:首页 >评论 >

YouTube如何做到即时影像置换背景Google不藏私开源给你用

时间:2022-11-29 21:07:08 来源:

原标题:YouTube如何做到即时影像置换背景Google不藏私开源给你用

Google研究团队开源在Tensorflow中实作的语意影像切割(Semantic Image Segmentation)模型DeepLab-v3+,包括Google Pixel 2和Pixel 2XL手机上的肖像模式(Portrait Mode),以及YouTube为影片即时去背换背景功能,都是这项技术的应用。

Google研究软体工程师Liang-Chieh Chen以及Yukun Zhu表示,语意影像切割的主要目的,就是为每个画素指定语意标籤,诸如路、天空、人或是狗等物体,不少的程式需要这样的功能,像是合成景深(Synthetic Shallow Depth-of-field)效果,应用在手机Pixel 2和Pixel 2XL上提供的肖像模式(Portrait Mode),能自动模糊人物的背景,作出类似单眼相机的景深效果。

另外,在多数摄影App都会提供的即时影像切割(Video Segmentation),例如最近在YouTube发表的新功能,为影片即时去背换背景的功能,也是语意影像切割的应用。

DeepLab-v3+在Tensorflow上实作,使用部署于伺服器端的卷积神经网路(CNN)骨干架构,以获取最佳的结果。除了程式码之外,研究团队也同时公开了Tensorflow模型训练以及评估程式,以及使用Pascal VOC 2012与Cityscapes资料集训练的模型。

DeepLab-v3+技术是基于三年前的DeepLab模型,期间改进了卷积神经网路特徵萃取器、物体比例塑模以及同化前后内容的技术,再加上进步的模型训练过程,还有软硬体的升级,从DeepLab-v2到DeepLab-v3,直到现在发表的DeepLab-v3+,让效果一代比一代好。

DeepLab-v3+是由DeepLab-v3扩充而来,研究团队增加了解码器模组,能够细化分割结果,能够更精準的处理物体的边缘,并进一步将深度卷积神经网路应用在空间金字塔池化(Spatial Pyramid Pooling,SPP)和解码器上,大幅提升处理物体大小以及不同长宽比例的能力,最后得到强而有力的语意分割编码解码器网路。

Liang-Chieh Chen以及Yukun Zhu特别提到,随着软硬体的升级,建构在卷积神经网路上的现代语意图像分割功能,可以达到的水準已经远远超过5年前的想像。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。