微软的人工智能会自动对视频剪辑进行评论


用人工智能生成实时视频字幕可以提高社交媒体的参与度,或作为视频文本翻译任务的基准 。为此,前期工作使用了编码器-解码器模型来生成注释,但是他们没有明确地对视频和注释之间的交互进行建模,因此他们倾向于生成不相关的注释 。
【微软的人工智能会自动对视频剪辑进行评论】这就是为什么微软亚洲研究院(Microsoft Research Asia)和哈尔滨工业大学(Harbin Institute of Technology)的一组研究人员在Arxiv.org上发表的一篇预印本论文中提出了一种新技术 。他们的模型不断地学习捕获评论、视频和音频之间的表示,并且他们说,在实验中,它比最先进的方法表现得更好 。
该系统的代码可以在Github上找到,它将最相关的评论与来自候选集的视频进行匹配,这样它就可以联合学习跨模态表示 。它基于谷歌的转换器架构,就像所有的神经网络一样,它包含的功能(神经元)按层排列,从数据中传输信号,并缓慢地调整连接的强度(权重) 。惟一的是,转换器具有注意力,这意味着每个输出元素都连接到每个输入元素,并且动态计算它们之间的权重 。
具体来说,自动实时评论系统由三个部分组成:将视频的不同模式和候选评论转换成矢量的编码器层 。、数学表征);一个匹配层,它学习每个模态的表示;和预测层,输出用于测量视频剪辑和评论之间的匹配程度的分数 。给定一个视频和一个时间戳,该模型的目标是从一个候选集合中选择一个注释,该集合基于周围的注释、可视部分和音频部分,与时间戳附近的视频剪辑最相关 。在时间戳附近提取注释,对于视觉位,系统在时间戳附近采样视频帧 。
研究人员在一个包含2361个视频和895929条评论的视频评论数据集上对该系统进行了评估,该数据集来自视频流平台Bilibili 。他们构建了一个候选评论集,其中每个视频剪辑包含100条评论,包括基本事实评论、前20条流行评论和随机选择的评论 。
根据团队的说法,该模型在几个度量方面优于几个基线,包括相关性和正确性 。例如,在一段以汤团为特色的视频剪辑中,它准确地在视频剪辑的关键点上对汤团进行了评论 。研究人员写道:“我们相信多模态预训练将是一个有前途的探索方向,其中图像字幕和视频字幕等任务将受益于预训练的模型 。”“在未来的研究中,我们将进一步研究视觉、音频和文本在现实世界中的多模态交互 。”

    推荐阅读