我看到你听起来像什么:从视觉信息中提取音频

MIT,Microsoft和Adobe的研究人员开发了一种算法,可以通过分析视频中描绘的物体的微小振动来重建音频信号。在一组实验中,它们能够从拍摄从15英尺远离隔音玻璃的土豆片袋的振动中恢复可理解的演讲。

在其他实验中,它们从铝箔的视频,一杯水的表面提取了有用的音频信号,甚至盆栽植物的叶子。研究人员将在今年提出他们的研究结果’Siggraph,Premier Computer Graphics会议。

“当声音命中对象时,它会导致对象振动,”Abe Davis表示,MIT电气工程和计算机科学研究生和第一作者在新论文中。“这种振动的运动产生了非常细微的视觉信号’通常对肉眼看不见。人们没有’t意识到这些信息在那里。 ”

加入戴维斯在Siggraph纸上是FrédoDurand和Bill Freeman,都是计算机科学和工程的麻省理工学院教授;尼尔·瓦德瓦,弗里曼的研究生’S集团; Micros Microsoft Rabinstein的Michael Rubinstein,他与弗里曼的博士学位;和Gautham Mysore的Adobe Research。

从视频重建音频要求视频样本的频率 - 每秒捕获的视频帧的数量高于音频信号的频率。在他们的一些实验中,研究人员使用了一个高速相机,每秒捕获了2,000到6,000帧的高速相机。那’S智能手机的每秒60帧,但远低于最佳商业高速摄像机的帧速率快,速度远低于每秒,这可以是每秒100,000帧。

商品硬件

然而,在其他实验中,他们使用了普通的数码相机。因为大多数相机的设计中的怪癖’传感器,研究人员能够推断出关于高频振动的信息,即使从每秒标准60帧录制的视频。虽然这个音频重建不是’尽管忠实于高速相机,但它仍然足以识别房间里的扬声器的性别;发言者的数量;甚至给定准确的关于扬声器声学特性的足够信息’声音,他们的身份。

研究人员’技术在执法和取证中具有明显的应用,但戴维斯更热情地对他描述的东西的可能性更热烈“new kind of imaging.”

“We’从对象恢复声音,” he says. “这为我们提供了有关声音的很多信息’s绕过该对象,但它也给我们有很多关于对象本身的信息,因为不同的对象将以不同的方式响应声音。”在持续的工作中,研究人员已经开始尝试从他们的可见响应对短爆发的可见反应来确定物体的材料和结构性。

在SigGraph纸上报道的实验中,研究人员还测量了它们拍摄的物体的机械性能,并确定它们测量的运动是大约十分之一的微米。这对应于特写图像中的五个像素,但是从单个像素的变化’它随着时间的推移,它’可以推断小于像素的运动。

例如,假设图像在两个区域之间具有清晰的边界:边界一侧上的所有内容为蓝色;另一方面的一切都是红色的。但在边界本身,相机’S传感器接收红色和蓝光,因此它平均出来产生紫色。如果在连续的视频框架上,则蓝色区域侵入红色区域 - 甚至小于像素的宽度 - 紫色将略微生长。颜色移位包含有关侵占程度的信息。

把它放在一起

然而,图像中的一些边界比宽度的单个像素模糊。因此,研究人员从早期的工作中借用了一种技术,在算法上放大了视频中的微量变化,使得可见的先前无法检测的动作:婴儿在医院的新生儿病房中的呼吸,或受试者中的脉搏’s wrist.

该技术通过电池通过电池通过图像过滤器的连续帧,用于测量波动,例如边界处的变化颜色值,在几个不同的方向上 - 例如,水平,垂直和对角线和几个不同的尺度。

研究人员开发了一种算法,将滤波器的输出结合在一起以推断物体的动作’s被声波击中。对象的不同边缘可以在不同的方向上移动,因此算法首先对准所有测量以使它们赢得’T互相消失。它可以更大的重量在非常明显的边缘 - 在不同颜色值之间的透明边界进行测量。

研究人员还产生了对分析常规视频的算法的变化。数码相机的传感器包括一系列光电探测器 - 即使在商品设备中也是数百万的。事实证明,它’更便宜地设计传感器硬件,使其一次读取一行光电探测器的测量值。通常,那个’没有问题,但有了快速移动的物体,它可以导致奇数视觉伪影。一个对象 - 例如,直升机的转子 - 实际上可以可检测地在一行的读取和接下来的读取之间移动。

对于戴维斯和他的同事,这个错误是一个功能。传统视频中对象边缘的轻微扭曲,虽然肉眼是不可见的,但是包含有关对象的信息’高频振动。并且该信息足以产生模糊但潜在有用的音频信号。

由Larry Hospesty,MIT News Office撰写

相关链接

‘研究人员放大了视频的变化,使看不见的可见’ http://newsoffice.mit.edu/2012/amplifying-invisible-video-0622

‘看到人类脉搏’ http://newsoffice.mit.edu/2013/seeing-the-human-pulse-0620



本新闻稿中的材料来自于始发的研究组织。可以为样式和长度编辑内容。有一个问题? 让我们知道 .

订阅

每天早上有一封电子邮件,我们的最新帖子。从医学研究到空间新闻。环境的环境。技术物理学。

感谢您的订阅。

出问题了。