您的位置：首页 >评论 >

YouTube如何做到即时影像置换背景Google不藏私开源给你用

时间：2022-11-29 21:07:08 来源：

原标题：YouTube如何做到即时影像置换背景Google不藏私开源给你用

Google研究团队开源在Tensorflow中实作的语意影像切割（Semantic Image Segmentation）模型DeepLab-v3+，包括Google Pixel 2和Pixel 2XL手机上的肖像模式（Portrait Mode），以及YouTube为影片即时去背换背景功能，都是这项技术的应用。

Google研究软体工程师Liang-Chieh Chen以及Yukun Zhu表示，语意影像切割的主要目的，就是为每个画素指定语意标籤，诸如路、天空、人或是狗等物体，不少的程式需要这样的功能，像是合成景深（Synthetic Shallow Depth-of-field）效果，应用在手机Pixel 2和Pixel 2XL上提供的肖像模式（Portrait Mode），能自动模糊人物的背景，作出类似单眼相机的景深效果。

另外，在多数摄影App都会提供的即时影像切割（Video Segmentation），例如最近在YouTube发表的新功能，为影片即时去背换背景的功能，也是语意影像切割的应用。

DeepLab-v3+在Tensorflow上实作，使用部署于伺服器端的卷积神经网路（CNN）骨干架构，以获取最佳的结果。除了程式码之外，研究团队也同时公开了Tensorflow模型训练以及评估程式，以及使用Pascal VOC 2012与Cityscapes资料集训练的模型。

DeepLab-v3+技术是基于三年前的DeepLab模型，期间改进了卷积神经网路特徵萃取器、物体比例塑模以及同化前后内容的技术，再加上进步的模型训练过程，还有软硬体的升级，从DeepLab-v2到DeepLab-v3，直到现在发表的DeepLab-v3+，让效果一代比一代好。

DeepLab-v3+是由DeepLab-v3扩充而来，研究团队增加了解码器模组，能够细化分割结果，能够更精準的处理物体的边缘，并进一步将深度卷积神经网路应用在空间金字塔池化（Spatial Pyramid Pooling，SPP）和解码器上，大幅提升处理物体大小以及不同长宽比例的能力，最后得到强而有力的语意分割编码解码器网路。

Liang-Chieh Chen以及Yukun Zhu特别提到，随着软硬体的升级，建构在卷积神经网路上的现代语意图像分割功能，可以达到的水準已经远远超过5年前的想像。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。