语音识别 – 树莓酱

7月 21, 2021

树莓派语音识别-物联网实验

    前几篇文章介绍了，如何利用Respeaker读取语音，然后又如何通过BaiduApi获取语音文字，以及长文本如何切词获取所需的命令关键字；接下来这篇文章将做个简单的实验，实现如果通过语音控制电灯的开关（其他的实验后续会继续探索）。
    首先来看一下实验效果，如下效果：

    由上可看到，我们对着Respeaker说“天太热了开灯”（突然想起来天热貌似和开灯没啥关系），可见发送baidu分析，然后获得长文本“天太热了开灯”；接着分词切出"开灯"命令；由于这个命令是可执行命令，所以提示写入命令；然后可见另一个树莓派控制的led灯开始闪烁。当然这个时候我们可以控制很多东西，比如天热了开风扇等。
    见下图，第一行为识别文本，第三行是切词效果，由于开灯是关键词，所以命中了可执行命令，触发命令写入。具体的命令写入可参考：mongo操作。


{ "_id" : 8, "status" : 1, "subject" : "电灯", "act_dely" : 0, "act" : "开灯", "add_time" : "2021-07-21 08:52:58" }

其中status标示是否已执行，subject为执行主体，act_dely是否延迟执行，act是执行动作，add_time是命令写入时间。

#接下来我们阐述一下具体的实验过程，需要用到的材料以及接线如下图：

具体的接线可参考文章：继电器实验；

接线完成后，如何获取的命令如何传递的可以参考文章：多个树莓派之间通信；

实验的具体思路和流程如下：

语音通过传感器捕获；
发送语音流然后Api解析；
长文本获取；
文本筛选切词；
切词后获取关键命令；
命令捕获格式化存储；
执行端远程通信并捕获命令；
命令校验报错或执行；
命令执行后销毁；
完成。

具体实现代码，先看语音命令识别写入部分：

写入程序完整代码下载

接下来是执行端代码：

执行端完整代码下载

其中命令获取采用的是crontab，每5秒检测一次，因此最大会出现5秒的延迟。


#check led task

* * * * * cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 5;  cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 10; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 15; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 20; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 25; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 30; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 35; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 40; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 45; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 50; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

* * * * * sleep 55; cd /home/pi/shumeijiang/act/led &amp;&amp; /usr/bin/python led.py

7月 17, 2021

树莓派语音识别-样例分析

作者 jiujiang 在动手就动手标签 ReSpeaker, 切词, 语音识别

    上一篇文章我们看到了语音识别的效果图，同时获得了如何在百度申请语音识别的AppID以及APIKey；如果一切没有问题，我们在上篇文章下载Demo示例，并按图组装ReSpeaker 4-Mic麦克风扩展板以及替换已申请的ID和Key后执行可以得到语音识别的初步效果；接下来这篇文章主要讲解一些在开发和实验过程中需要注意的点以及Demo代码的部分含义。

如果没有下载到Demo，可以点击按钮继续获取 Demo下载

 #先看baidu_analysis.py文件，这个文件主要是用来跟百度的语音识别交互的文件；从第一行往下看：

import为引入模块，如果代码执行的时候报 ModuleNotFoundError: No module named 'XXX'，说明你的环境缺少这个模块；需要执行安装，以代码中用到的requests模块为例（如果环境是Python3 则pip替换为pip3）：


pip install requests

    其实requests这个模块在百度的官方demo里面是没有的；这次添加主要是看到官方demo每次都要判断Python版本，请求的过程有点繁琐添加的。

    紧接着后面是CUID、RATE等常量的定义；其中CUID官方的解释是“用户的唯一标示，用来区分用户，可以用本机的MAC地址”，实际请求中代码用的是shumeijiang，这个可以自定义就好；其他参数Demo都有中文注释就不再重复；

    后面是定义了一个BaiduAnalysis类，不同官方Demo，此处将AppID和ApiKey作为参数传过来，然后定义在调用文件内；方法fetch_token是用来获取token的，含义就是请求前先要做身份验证，这个函数验证后会得到一个短期有效的token；紧接着后面的方法是speech_analysis，这个方法在拿到token后将获得语音文件或者读取的语音流传给百度的Api分析；参数不复杂，不同的地方在于官方的Demo是采用的json格式发送，我们采用的是raw格式发送，两者的效果是一样的；需要注意的是header部分信息，内容类型格式要统一。

接下来是run.py这个文件是程序的入口，Demo要执行起来也需要执行Python run.py；从上往下看可以看到需要用到 pyaudio，它是主要用来做语音捕获，后面定义一些常量定义捕获的参数；pyaudio这部分可以参考网上有很多资料，此处不再详述；接着是GPIO的设置，主要是ReSpeaker 4-Mic所需的，见下图：

再往后是函数listen()，作用是获取捕获的语音流，然后发送给百度api进行翻译识别，其中需要注意的是返回的数据结构如下图（官方示例）：


{"corpus_no":"6433214037620997779","err_msg":"success.","err_no":0,"result":["北京科技馆，"],"sn":"371191073711497849365"}

listen函数定义好后，需要调用执行才能获取数据，while (analysis==True):定义了一个可中断的循环策略，当我们语言“停止识别”时，程序匹配然后会自动终止识别，这个终止条件可以自己设定。

7月 16, 2021

树莓派语音识别-初探

作者 jiujiang 在动手就动手标签 ReSpeaker, 切词, 语音识别

    从今天开始我们将通过几篇文章来讲述，如何通过树莓派+ReSpeaker 4-Mic麦克风扩展板捕获声音然后通过BaiduApi的声音识别调用，实现语音到文字的转换；最后我们会尝试通过转换后的命令去控制其他传感器或者电器机构，从而初步实现智能家居在树莓派上的雏形；通过这一些列的铺垫后续会发现更多好玩的方向与尝试。

    从上图可见ReSpeaker 4-Mic麦克风扩展板可完美的安装在树莓派上（此处为3B+），但是有个弊端就是会全部占用树莓派的GPIO口，导致其他传感器无法使用（不过不用担心后续我们会通过别的方式去实现）。

    安装好后，接下来我们来实现语音捕获和识别，首先我们先来看一下效果：

    由上可见，程序会将语音转换为文字并输出；由于没有其他设置，所以语音识别有会有一些误差，比如我说 “就酱”但是程序返回的是 “九江”；这部分调准我们会在下一篇文章详细讲解。

    接下来开始做语音识别的前期准备，由于我们调用的是百度的语音识别Api，因此需要在百度控制台建立我们自己的应用，并获取接口调用权限；

登录百度控制台，如果没有账号需要先申请；地址https://login.bce.baidu.com/
登录进来后我们选择右侧栏的语音技术，然后在概览处创建我们自己的应用；如下图：

应用创建好后，则会得到一个AppID和一个API Key 这个两个是声音识别api调用的钥匙要谨记保管好；

AppID和API Key申请好后，这个时候还需要领取api调用的额度；此处我们领取的是短语音识别-中文普通话的15W的额度；这个足够自己做测试用了；但是记得6个月有效，因此需要注意过期时间；
接下来我们就可以去实地的去调用接口了，此处demo我们用的是百度的Api实时调用（文档地址 https://ai.baidu.com/ai-doc/SPEECH/Vk38lxily），其中文档内有可直接测试的demo，可以拿来直接用；我们这次实验也是基于这个demo改造而来；
其中在请求方式这一块，有json格式和raw格式，我们采用的是raw格式，两种格式都可以，都可以尝试；

    代码部分，我们写了两个文件；其中run.py是语音采集以及api调用转换文件；baidu_analysis.py是改造的百度的官方demo；这个文件主要是登录验证获取token，然后用token去识别获取的二进制语音流；

    后面按钮是测试demo的代码样例，可下载更换自己申请的appid以及appkey后直接应用；代码的具体含义会放在下一篇文章进行讲解；此处可以先用demo代码进行实验。执行命令：


python run.py

Demo下载

标签语音识别