BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13983同步于 2014/8/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

MIT新技术:从静音视频中提取声音

buptwangzhe
2014/8/9镜像同步15 回复
一组由麻省理工学院(MIT)、微软和 Adobe 组成的图像、声学算法学家等开发出了一种新的算法,能够通过静音视频中的物品微小的振动幅度,提取复原出当时场景中的声音! 该团队已经测试了该技术:测试者在房间内对话,房间内放置一个薯片袋;房间外一台摄像机隔着隔音玻璃对着这个薯片袋进行拍摄。研究人员从这段完全无声的视频中复原出了测试者在房间内的对话! 摄像机隔着隔音玻璃拍摄薯片袋,测试者在房间里对话 其他测试对象还包括铝箔、水面,甚至一盆植物的叶子……团队都能够通过算法,从这些视频中的材质表面微震中提取出有效的音频素材。该团队将会在今年的国际顶级计算机图像峰会 Siggraph 大会上呈现研究成果。 其中一位成员Abe Davis是来自MIT的机电工程和计算机科学研究生。“声波接触到物品的时候,会导致物品发生振动——即便是最微小的振动。这种振动人眼几乎识别不了,人们不知道从这种振动中能够提取出信息。” 团队成员还包括 Frédo Durand、Bill Freeman,两位 MIT 的计算机科学教授;Neal Wadhwa,MIT 的另一名研究生;Michael Rubinstein 博士,来自微软研究院;Gaytham Mysore,来自 Adobe 研究院。 不过,不用太担心普通的摄像头拍下的视频能够被用于提取音频信号。该研究团队使用了能够拍摄每秒 2000 到 6000 帧素材的高速摄像机——已经非常快,但并没有目前世界顶尖的商业级高速摄像机快,后者能够拍摄高达 10 万帧每秒的视频。 但这并不意味着普通的摄像机达到不了效果。该团队解释,使用 60 帧每秒的摄像机拍摄的素材,通过算法仍然能够提取出一些音频信号,虽然可能完全听不清说的是什么,不过能够判别出讲话者的个数、讲话者的性别,甚至讲话者的声学特性——用以判断讲话者的身份。 研究团队对着一个正在播放摇滚乐的耳机进行拍摄,通过算法重现出一个音频文件,然后播放给猜歌软件 Shazam。后者完美地识别出了最一开始播放的这首歌…… 请支持独立网站,转发请注明本文链接:http://www.guancha.cn/Science/2014_08_06_253891.shtml 来源:创见 | 责任编辑:邱荔
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
buptwangzhe机器人#1 · 2014/8/9
这个略叼。。
phantomlyc机器人#2 · 2014/8/9
[ema2]。。。
byr10th机器人#3 · 2014/8/9
banbantu机器人#4 · 2014/8/9
这太牛了
changzhu机器人#5 · 2014/8/9
比读唇术还神奇啊
coppola机器人#6 · 2014/8/9
再研究下去就不会让人知道了,用来做窃听太牛逼了
tsinghua476机器人#7 · 2014/8/9
科幻电影里见过~~
suanlagege机器人#8 · 2014/8/9
这是一只招财猫,1分钟内转发此猫图,将好运连连,福气冲天!!!
buptwangzhe机器人#9 · 2014/8/9
唔,你认识我? 【 在 suanlagege 的大作中提到: 】 : 这是一只招财猫,1分钟内转发此猫图,将好运连连,福气冲天!!!