机器人首次能同时听懂3个人不同的声音
2008-06-13 01:17:13 来源: 网易探索http://cimg20.163.com/cnews/2008/6/13/200806130113265dc30.jpg
8个麦克风放在“阿西莫”面部和体内,让它同时能准确识别不同声音。
学生欢迎机器人“阿西莫”
学生欢迎机器人“阿西莫”
“阿西莫”为客人服务
“阿西莫”为客人服务
网易探索6月13日讯,据英国《新科学家》杂志报道,日本本田公司的高级机器人“阿西莫”(ASIMO) 经改进后又获得了一种新的超级能力:它能同时理解3个人的说话声。如今,“阿西莫”的这一新本领正在应用到评判石头-剪子-布的比赛中。在此比赛中,3人同时喊出他们的选择,由“阿西莫”来裁决胜负,准确率达到70-80%。
专家认为,软件处理这种声音数量和句子的复杂性将来会得到进一步的提高。东京大学的欧库若和本田研究院的仲代达共同开发了这种新软件,他们给它取名为“HARK”。
质量控制
HARK软件采用了一批8个麦克风来共同工作,识别来自每一个麦克风的每一个声音,并将它与其它声音隔离开来。之后,此软件评判它提取的单个声音的可靠性,评判之后再将此声音送到语音识别软件进行解码。
这种质量控制的步骤很重要。其它的声音可能会弄得语音识别软件糊涂起来,因为此声音文件包含有许多不同频率的背景噪音。因此当每种修补过的声音录音经过语音识别系统时,此声音文件的背景噪音都会被自动忽略。欧库若说:“HARK确实超出了正常人类的听觉能力,它能同时听到几种声音,而不是集中听取单个独特的声音。”
众所周知,集中听取单个声音的现象就是所谓的“鸡尾酒会效应”,欧库若称此软件能力集中在同时识别多个声音上,这就是日本的圣德太子效应(Prince Shotoku Effect)。据日本的传说,圣德太子能同时听10个人请示。
8只耳朵
虽然HARK还不能同时领会10个声音,但研究人员表示当“阿西莫”机器人装上这个软件之后,它同时领会3位玩家的喊叫声的准确率达到了70-80%。
此一批8个麦克风安置在“阿西莫”的面部和体内,能帮助它在同一时刻准确探测和隔离不同的声音。仲代达说:“此系统预先没有设定声音源的数量和它们的方向。”
英国雪菲尔德大学的盖伊·布朗对此工作留下深刻印象,他指出这是由大多数现有处理声音的元件制造的,但效果相当出色。其主要成就是将此技术置入此机器人中,让它能实时交互式地进行工作。不过,石头-剪子-布使用的词汇量很少,从而使任务相对容易完成。他说:“显然,要让机器人达到和我们人类在鸡尾酒会情况下的听力水平还有很长的路要走。”事实上,当研究人员让“阿西莫”来同时评判几个复杂的声音――即3人定餐时,其准确识别率只有30-40%。
“阿西莫”的其它本领
人形机器人“阿西莫”还能认识面孔,能像见到熟人一样打招呼,并能完成秘书的各种职能。阿西莫还会迎候和陪同来访者,回答客人提出的各种问题,它甚至会“想起一些忘记的事”,同时还能上网聊天和预告天气。如果有人问它:“明天的天气怎样”,它就会通过内置无线模块访问因特网,为发问的人找出所需要的天气信息。这款机器人身上装有智能软件,使它能够借助头部的摄影机看到各种场景,并辨认出大小在40厘米以上、移动速度不超过4公里/小时的物体。(尼特) 语音识别,感觉区分3个人的声音应该不难。使用麦克风序列的确比单个麦克风要好很多。 我估计是3个人同时说话,然后机器人将3个人的声音分离并且同时进行语音识别 光把三个人的语音分离就够复杂了
因为语音是频率和强度的二维函数阿 所以要麦克风序列。
主要问题在于除了3个主要的声源以外,还有环境噪音需要过滤。 要分析不同的声音,还要根据不同的语意给出判定,确实不容易。
如果能让电脑听懂笑话,或者反过来,让电脑可以应景讲段幽默,那就不得了了。 就难度来讲,语音识别与图像识别技术哪个更高? 初期的图像识别难
后期语音识别难 语音识别好像更加难一些。现在的语音识别技术基本上已经走入死胡同,没有技术上更本的变革,语音识别技术已经无法继续发展了(而现在的水平识别率还很低很低) :)
光听懂特定人的话语都难阿
页:
[1]
2