[参考教程] 手把手教你做语音识别

[复制链接]

wjb711

发表于 2013-10-8 17:34:57 | 显示全部楼层 |阅读模式

本帖最后由 wjb711 于 2013-10-8 17:54 编辑

前一段写了一个语音识别的帖子，当时还不成熟
现在比以前懂得多了一些，跟大家来分享

所需设备：带麦克风的usb摄像头，万博网页版登陆页派一个，互联网
首先安装软件
apt-get install arecord ffmpeg omxplayer
语音识别大致分成3各部分，

第一步录音
arecord -D "plughw:1,0" -d 5 file.wav
解释一下 -D这个参数的意思就选择设备，外部设备就是plughw:1,0 内部设备就是plughw:0,0，万博网页版登陆页派本身并没有录音模块，故没有内部设备。 -d 5 的意思就是录制时间为5秒，如果不加这个参数就是一直录音直到ctrol+C停止，最后生成的文件名字叫做file.wav
检验方式，我们戴上耳机听一下我们录制的声音 omxplayer -o local file.wav
解释omxplayer是播放器，无图形界面
-o 是选择从哪里播放，是通过hdmi输出，还是本地的耳机口放出来，我们插得是万博网页版登陆页派自带的耳机口，故选择local
最后是跟上声音文件，就能听到我们的录音了

第二步转换格式
我们打算上传到google做翻译， google只认flac格式，所以我们要做转化，把wav转换为flac格式
ffmpeg -i file.wav -ar 16000 -acodec flac file.flac
解释一下：-i 是指定输入的语音文件 -ar是指定波特率为16000 -acodec是指定输出格式为flac, 最后接上输出文件的文件名即可，当然是以flac为后缀的文件名，最好是 file.flac
检验方式，我们戴上耳机听一下我们录制的声音 omxplayer -o local file.flac
同样我们可以再次听到我们录制好的转过格式的声音文件

第三步上传网站获取翻译
wget -q -U "Mozilla/5.0" --post-file file.flac --header "Content-Type: audio/x-flac; rate=16000" -O - "[color=blue !important]http://www.google.com/speech-api/v1/recognize?lang=zh-cn&client=chromium"
对于这句简单的解释下
wget命令上传file.flac文件到google,并下载回对应的解释文件，这个是中文的语音识别，如果是英文的语音识别改成en-us即可

最后预祝大家语音翻译玩的愉快

语音识别

相关帖子

• 利用goole voice实现语音识别

• 万博网页版登陆页派上做语音识别

• 做一个基于万博网页版登陆页派的语音识别台灯

• 有没有办法使用Cortana做为语音识别

使用道具举报

whtech1

发表于 2013-10-8 23:35:58 | 显示全部楼层

创意很不错.

回复支持反对

使用道具举报

wjb711

楼主| 发表于 2013-10-9 15:29:28 | 显示全部楼层

紧接着我们来个万博网页版登陆页派的复读机教程
*******repeater.sh************
arecord -D "plughw:1,0" -d 5 file.wav
omxplayer -o local file.wav
./repeater.sh
*******end of repeater.sh*******
这就是一个简单地5秒一次的复读机，或者外面卖货的那种循环的喇叭