谷歌的AutoFlip使用人工智能为你裁剪视频


为电视拍摄和编辑的视频通常是在景观中创建和观看的,但问题是,像16:9和4:3这样的纵横比并不总是适合用于观看的显示器 。幸运的是,谷歌正在处理这件事 。它今天详细介绍了自动翻转,一个开源工具的智能视频重构 。给定一个视频和一个目标维度,它分析视频内容,并制定最优的跟踪和裁剪策略,然后在期望的纵横比中产生相同持续时间的输出视频 。
正如Google Research高级软件工程师Nathan Frey和高级软件工程师郑孙在一篇博客文章中指出的那样,传统的视频重构方法通常涉及静态裁剪,这往往导致不满意的结果 。更多的定制方法是优越的,但它们通常需要视频策划者手动识别每个帧中的突出内容,跟踪它们从帧到帧的转换,并在整个视频中相应地调整作物区域 。
相比之下,由于AI对象检测和跟踪技术智能地理解视频内容,自动翻转是完全自动的 。该系统检测表示场景变化的构图的变化,以便隔离场景进行处理 。在每个镜头中,它使用视频分析来识别突出的内容,然后再重新绘制场景,主要是通过选择一个优化的相机模式和路径 。
为了检测视频中的镜头何时发生变化,自动翻转计算每个帧的颜色直方图,并将其与先前的帧进行比较 。如果帧颜色的分布以与滑动历史窗口不同的速度变化,则发出镜头变化信号 。自动翻转缓冲视频,直到场景完成,然后再进行重构决策,以优化整个场景的重构 。
自动翻转还点击基于AI的对象检测模型,在框架中找到有趣的内容,比如人、动物、文本覆盖、标识和运动 。人脸和对象检测模型与通过媒体管道的自动翻转集成在一起,这是一个框架,可以开发用于处理多模态数据的管道,该框架使用Google的处理器上的TensorFlowLite机器学习框架 。根据谷歌的说法,这种结构允许Auto Flip是可扩展的,因此开发人员可以为不同的用例和视频内容添加检测算法 。
【谷歌的AutoFlip使用人工智能为你裁剪视频】自动翻转自动选择一个重构策略-静止的,恐慌的,或跟踪-取决于对象在场景中的行为方式 。在静止模式下,重构的摄像机视口固定在一个位置(就像一个固定的三脚架),在那里可以在整个场景中查看重要内容 。另一方面,恐慌模式以恒定的速度移动视口,而跟踪模式则提供连续和稳定的跟踪对象,因为它们在帧内移动 。
在选择重构策略的基础上,自动翻转为每个帧确定一个裁剪窗口,同时保留感兴趣的内容 。配置图提供了重新绘制的设置,以便如果不可能覆盖所有所需区域,系统将自动切换到一个不那么激进的策略,通过应用字母框效果,填充图像来填充框架 。自动翻转将绘制背景颜色(如果是纯色),以确保填充混合,或以其他方式使用模糊版本的原始框架 。
研究人员留给未来的工作,以提高自动翻转的能力,以检测“与视频意图相关的对象”,如扬声器检测采访或动画人脸检测卡通,并确保输入视频与覆盖在屏幕边缘(如文本或徽标)是不从视图裁剪 。但他们断言,即使以目前的形式,自动翻转也将“减少设计创造力的障碍” 。
“通过结合文本/徽标检测和图像修复技术,我们希望未来版本的自动翻转能够重新定位前景对象,以更好地适应新的纵横比 。[而且]在需要填充的情况下,深度非裁剪技术可以提供更好的扩展能力,超越原来的可视区域,“弗雷和Sun写道 。“我们很高兴能将这个工具直接发布给开发人员和电影制作人,减少他们设计创造力的障碍,并通过视频编辑的自动化来实现 。随着视频内容消费设备的多样性继续迅速增加,使任何视频格式适应各种纵横比的能力越来越重要 。

    推荐阅读