找回密码
 欢迎注册
查看: 11613|回复: 9

[求助] 语音识别算法请教。

[复制链接]
发表于 2008-1-23 17:31:27 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?欢迎注册

×
小弟要做个语音识别系统,只是识别一百多个的单词,请教各位高手,语音识别是从哪些地方入手的啊??
大家能指点些方向吗??我完全没有头绪。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2008-1-23 20:14:06 | 显示全部楼层
建议看一下IEEE PAMI (Pattern Analysis and Machine Intelligence)方面的论文
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2008-1-24 09:45:01 | 显示全部楼层
在哪里能下载啊??都打不开啊。。大家再帮帮吧。。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2008-1-24 11:28:53 | 显示全部楼层
你在学校里吗?通常在学校图书管里面里面会有。不过通常不能外借,只能在期刊室里面阅读
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2008-1-24 17:08:12 | 显示全部楼层
其实我觉得语音识别主要涉及一下几方面:
i)特征提取,就是对一个输入的声波,要如何提取出一些比较有效的特征数。这个应该需要比较专业的知识,前人应该已经积累了不少经验,到底怎样的特征数据是比较有效的。
ii)模式匹配问题,模式识别方面的教材应该介绍了很多比较简单的方法,由于你这里使用的单词数目不多,也应该不需要使用特别复杂的方法。我觉得基本上基于线性的统计模型就可以了,就假设每个单词对应的特征都是符合多维正态分布的。对于一个输入数据,最后发现跟某个单词特征的均值最接近,就认为是那个单词就可用了。
iii)语言模型。在实际使用过程中,我们还可以通过使用语言模型,通过分析语法信息和上下文信息来得到更加准确的结果。如果要将语音识别实用,是无法离开语言模型的。其实人类自身的识别过程就用了语言模型,比如我们听到“你好”,是不会听错成“泥好”的,虽然它们发音相同。当然你这里由于识别要求比较简单,所以也不需要考虑。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2008-1-24 17:16:26 | 显示全部楼层
通过google找到一篇清华的论文,应该对你有帮助:
http://cst.cs.tsinghua.edu.cn/~fzheng/THESES/200204-D-WF.pdf
其中介绍到的MFCC应该是现在比较实用的特征提取方法。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2008-1-25 11:36:58 | 显示全部楼层
谢谢大家的热心帮助,我已经不在学校里了,很多东西想查资料也没得查啊。。只能靠各位热心帮助了。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2008-1-25 11:49:26 | 显示全部楼层
那有必要开发一个这样的语音识别系统吗?为什么不使用现成的呢?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2008-1-28 09:45:07 | 显示全部楼层
现成??有吗??哪里有啊??
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2008-1-28 11:26:50 | 显示全部楼层
比如微软的MAPI就支持语音识别。
比较有名的是IBM的viaVoice
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

小黑屋|手机版|数学研发网 ( 苏ICP备07505100号 )

GMT+8, 2024-5-13 20:55 , Processed in 0.046756 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表