完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明

小半 • 2022年11月3日下午8:02 • 开源速递 • 阅读 427

微信公众号:[开源日记],分享10k+Start的优质开源项目。

鱼羊明敏发自凹非寺

量子位报道 | 公众号 QbitAI

看这一头蓬松的秀发，加上帅气的动作，你以为是在绿幕前拍大片？

No、No、No

这其实是AI拿来视频实时抠图后的效果。

没想到吧，实时视频抠图，现在能精细到每一根发丝。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

换到alpha通道再看一眼，不用多说，德芙打钱吧（手动狗头）。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

这就是来自字节跳动实习生小哥的最新研究：实时高分辨率视频抠图大法。

无需任何辅助输入，把视频丢给这个名为RVM的AI，它分分钟就能帮你把人像高精度抠出，将背景替换成可以任意二次加工的绿幕。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

不信有这么丝滑？我们用线上Demo亲自尝试了一波。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

相比之下，现在在线会议软件里的抠图，一旦头发遮住脸，人就会消失……

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

头发丝更是明显糊了。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

难怪看得网友直言：

不敢想象你们把这只AI塞进手机里的样子。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

目前，这篇论文已经入选WACV 2022。

你也可以上手一试

目前，RVM已经在GitHub上开源，并给出了两种试玩途径：

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

于是我们也赶紧上手试了试。

先来看看效果：

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

首先来点难度低的。

对于这种人物在画面中基本不移动的情况，RVM可以说是表现的非常好，和人工抠图几乎无差别。

现在，王冰冰进入动森都毫不违和了。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

于是开脑洞，也变得简单了许多……

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

咳咳，言归正传。人物动作幅度加大会怎样呢？

对于多人舞蹈视频而言，RVM的表现也很nice。

即便动来动去、头发乱甩，也没有影响它的抠图效果。

只有在人物出现遮挡的情况下，才会出现瑕疵。

对比前辈方法MODNet，确实有不小的进步。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

不过我们也发现，如果视频的背景较暗，就会影响RVM的发挥。

比如在这种背景光线昏暗的情况下，抠图的效果就非常不尽人意了。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

可以看到，博主老哥的头发完全糊了。

而且身体的边界线也不够清晰。

所以，如果你想自己拍视频试玩，就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法”，具体又是如何实现的？

照例，我们先来扒一扒论文~

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

实际上，有关视频抠图的算法如今已不鲜见，其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此，在这篇论文中，研究人员构建了一个循环架构，利用上了视频的时间信息，在时间一致性和抠图质量上取得了明显改进。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

从上图中可以看出，RVM的网络架构包括3个部分：

特征提取编码器，用来提取单帧特征；

循环解码器，用于汇总时间信息；

深度引导滤波（DGF）模块，用于高分辨率上采样。

其中，循环机制的引入使得AI能够在连续的视频流中自我学习，从而了解到哪些信息需要保留，哪些信息可以遗忘掉。

具体而言，循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下：

在这个编码器-解码器网络中，AI会完成对高分辨率视频的下采样，然后再使用DGF对结果进行上采样。

除此之外，研究人员还提出了一种新的训练策略：同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于：

首先，人像抠图与人像分割任务密切相关，AI必须学会从语义上理解场景，才能在定位人物主体方面具备鲁棒性。

其次，现有的大部分抠图数据集只提供真实的alpha通道和前景信息，所以必须对背景图像进行合成。但前景和背景的光照往往不同，这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。

最后，语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后，RVM和前辈们比起来，有怎样的改进？

从效果对比中就可以明显感受到了：

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

另外，与MODNet相比，RVM更轻更快。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

从下面这张表格中可以看出，在1080p视频上RVM的处理速度是最快的，在512×288上比BGMv2略慢，在4K视频上则比带FGF的MODNet慢一点。研究人员分析，这是因为RVM除了alpha通道外还预判了前景。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

更直观的数据是，在英伟达GTX 1080Ti上，RVM能以76FPS的速度处理4K视频，以104FPS的速度处理HD视频。

一作字节跳动实习生

这篇论文是一作林山川在字节跳动实习期间完成的。

他本科、硕士均毕业于华盛顿大学，曾先后在Adobe、Facebook等大厂实习。

2021年3月-6月，林山川在字节跳动实习。8月刚刚入职微软。

事实上，林山川此前就曾凭借AI抠图大法拿下CVPR 2021最佳学生论文荣誉奖。

他以一作身份发表论文《Real-Time High-Resolution Background Matting》，提出了Background Matting V2方法。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

这一方法能够以30FPS的速度处理4K视频，以60FPS的速度处理HD视频。

值得一提的是，Background Matting这一系列方法不止一次中了CVPR。此前，第一代Background Matting就被CVPR 2020收录。

两次论文的通讯作者都是华盛顿大学副教授Ira Kemelmacher-Shlizerman，她的研究方向为计算机视觉、计算机图形、AR/VR等。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

此外，本次论文的二作为Linjie Yang，他是字节跳动的研究科学家。本科毕业于清华大学，在香港中文大学获得博士学位。

完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明 — 图片

对了，除了能在Colab上试用之外，你也可以在网页版上实时感受一下这只AI的效果，地址拿好：

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub地址：
https://github.com/PeterL1n/RobustVideoMatting
论文地址：
https://arxiv.org/abs/2108.11515
参考链接：
https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

微信公众号:[开源日记],分享10k+Start的优质开源项目。

原文始发于微信公众号（开源日记）：完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之家整理，本文链接：https://www.bmabk.com/index.php/post/49389.html

Git 开源项目架构项目

赞 (0)

0 0

微信精选

如何简单方便地Hook Gradle插件?

000404

小半
2023年1月18日
玩机教程

Kali Linux安装中国蚁剑

000835

小半
2023年7月24日
后端开发

Python爬虫：什么是Python爬虫？怎么样玩爬虫

000557

小半
2022年10月10日
Vue

Vue 官方周报 #121 – 自动导入组件

000249

小半
2023年12月9日
微信精选

通过源码分析告诉你：当访问K8S API的代码运行在POD里的容器时，在集群内是如何进行身份验证的

000286

小半
2023年7月13日
开源速递

用好腾讯开源的这两个前端框架，后端仔也能开发出好看的应用！

000610

小半
2023年6月18日
Windows

了解GPU和CPU的区别

000257

电脑万事屋
2024年4月16日
开源速递

Apache开源！现代数据探索和数据可视化的平台

000374

小半
2023年8月3日
面试题

【311期】面试官：谈谈消息队列（MessageQueue）

000219

小半
2022年5月17日
微信精选

3分钟为女同事解决Maven依赖冲突，不香吗？

000283

小半
2023年2月16日
微信精选

SQL Server 简介与 Docker Compose 部署

000465

小半
2023年10月27日
前端开发

前端自动化工程化–webpack 热更新原理、Loader、Plugin

000339

小半
2024年3月22日

发表回复

登录后才能评论

极客之家——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！