谷歌测试手语检测器以切换视频通话中的主讲人


由于大流行 , 我们大多数人都忙于在家中进行视频通话协调工作 , 因此您可能已经熟悉各种视频会议软件 。这些视频通话应用程序的一个重要功能是自动在实时交谈的人的视频源之间进行切换 。但是 , 这不适用于手语用户 , 他们可能会觉得自己被排除在对话之外 。
谷歌研究人员决定解决这个问题的无障碍建设一个实时手语检测引擎 。它可以检测视频通话中的某人何时尝试使用手语进行通信并将聚光灯放在他们身上 。引擎将能够告知某人何时开始签名并使他们成为活动发言人 。
该模型是由Google研究人员在ECCV 2020上提出的 。该研究论文的标题为“使用人类姿势估计进行实时手语检测” , 讨论了如何为视频会议应用创建“即插即用”检测引擎 。视频馈送的效率和延迟是至关重要的方面 , 新模型可以很好地处理这两个方面 。我的意思是 , 延迟且断断续续的视频馈送有什么好处?
快速浏览一下手语引擎的实时效果:
【谷歌测试手语检测器以切换视频通话中的主讲人】现在 , 如果您想知道此手语检测引擎的工作方式 , 那么Google已对其进行了详细说明 。首先 , 视频通过PoseNet传输 , PoseNet估计人体的关键点 , 例如眼睛 , 鼻子 , 肩膀等 。它可以帮助引擎创建人物的简笔画 , 然后将其动作与经过德国手语语料库训练的模型进行比较 。
这就是研究人员检测到该人已开始或停止签名的方式 。但是 , 当基本上没有音频时 , 如何为他们分配主动的发言人角色?这是最大的障碍 , 而Google通过构建一个网络演示克服了这一障碍 , 该演示将20kHz的高频音频信号传输到与其连接的视频会议应用程序 。这将使视频会议应用程序愚蠢到认为使用手语的人正在讲话 , 从而使他们成为活跃的演讲者 。
Google研究人员已经成功地预测了何时开始签名的准确性达到了80% 。可以轻松对其进行优化 , 以达到90%以上的精度 , 这真是太了不起了 。目前 , 这种信号检测引擎只是一个演示(和研究论文) , 但是直到我们看到一种流行的视频会议应用程序(Meet或Zoom)后 , 它才会用很长时间 , 采用它可以使静音的人生活变得更轻松 。

    推荐阅读