本帖最后由 小恩GG 于 2021-12-7 14:43 编辑
好玩不腻的NXP客户自定义语音识别来了!!!
【经验分享】基于RT106L/S语音识别的百度云控制系统 一 文档简介 NXP RT106L和RT106S是一款用于本地语音识别的芯片,SLN-LOCAL-IOT基于RT106L, SLN-LOCAL2-IOT是基于RT106S的新款本地语音识别开发板。开发板包含murata 1DX wifi/BLE模块,AFE语音模拟前端,ASR识别系统,外部flash, 2个麦克风,以及模拟语音放大器与扬声器。SLN-LOCAL-IOT 和SLN-LOCAL2-IOT的语音识别过程有区别,建议使用新款SLN-LOCAL2-IOT。 本文基于语音识别板SLN-LOCAL/2-IOT实现如下框图功能: 图1 使用PC端speechmodel工具(Cyberon DSMT)生成WW(wakeupword)和VC(Voice command) 的voiceengine binary 文件供IDE demo使用,当用户说中文:“小恩小恩”,语音唤醒SLN-LOCAL/2-IOT,板子给出反馈“小恩来了,请吩咐”。然后进入语音识别阶段,用户可以说语音识别命令:“开红灯”,“关红灯”,“开绿灯”,“关绿灯”,“开远程灯”,“关远程灯”,识别之后,板子给出反馈“好的“。其中“开红灯”,“关红灯”,“开绿灯”,“关绿灯”四个命令是用于本地红绿灯的开关, 而“开远程灯”,“关远程灯”两个命令可以通过网络通信实现百度云端控制另外的MIMXRT1060-EVK开发板灯的开关。SLN-LOCAL/2-IOT通过WIFI模块接入互联网通过MQTT协议实现与百度云端的通信,当接到远程控制命令,发布json数据包到百度云端,同时MIMRT1060-EVK订阅百度云端数据,会收到IOT板子发过来的数据并予以解析实现EVK板子灯的控制。PC端可以使用MQTT.fx软件订阅百度云数据,也可以直接下发数据给设备达到远程控制的目的。 下面讲解如何基于SLN-LOCAL/2-IOT的SDK代码实现客户自定义中文(Mandarin)唤醒识别并且远程百度云控制MIMXRT1060-EVK的应用。 二 平台构建 2.1 使用平台 MIMXRT1060-EVK MCUXPresso IDE Segger JLINK WAVToCode:wav转换成C数组数据,用于主题音频播放 Cyberon DSMT: 唤醒词和识别词的PC代码生成软件 这里最关键的软件是用于唤醒词识别词生成代码的软件,申请渠道如下: 图2 2.2 百度智能云 2.2.1 物联网核心套件 参考之前的文档: 2.2.2 在线语音合成 SLN-LOCAL/2-IOT板子识别到唤醒词,识别词,或者开机的时候,需要添加对应的反馈音频,比如:“百度云端语音测试demo”, "小恩来啦!请吩咐",“好的”。这些词汇需要做一个文字到wav音频文件的合成,这里使用的是百度智能云的在线语音合成功能,具体操作可以参考如下文档: 开通基础音库之后,使用上面链接中提供的main.py并修改,在文件“TEXT =“中添加自己要转换的中文字段,”save_file =“中添加要转换的音频文件,比如xxx.wav,使用命令:python main.py 即可完成转换,并且生成文字对应的音频格式,比如.mp3,.wav. 图7 得到wav之后,也不是立马可以使用,我们需要注意,对于SLN-LOCAL/2-IOT需要识别48K采样率16bit的音源,所以还需要进一步使用Audacity音频工具转换音频文件格式为48K16bit 的wav。导入百度语音合成生成的16K16bit wav文件到Audacity工具中, 选择projectrate为48Khz,file->export->exportas WAV, 选择encoding为signed 16bitPCM,重新生成48Khz16bit的wav供后续使用。 图8 “百度云端语音测试demo”:用于开机播报,存放在工程代码里,所以需要进一步转换为16bit的C代码数组,并且添加到工程中去。 "小恩来啦!请吩咐",“好的”:作为回馈音,存放在filesystem ZH01,ZH02区域。 2.3 playback语音数据准备与烧录 涉及到的中文playback语音有两个:"小恩来啦!请吩咐",“好的”,存放在filesystem ZH01,ZH02区域。Filesystem区域情况如下: 图9 chapter 10.1 Generating filesystem-compatiblefiles 使用bash输入如下命令: 图10 使用转换命令得到需要的playback bin文件: python file_format.py -ifxiaoencoming_48k16bit.wav -of xiaoencoming_48k16bit.bin -ft H 最终生成文件: "小恩来啦!请吩咐"->xiaoencoming_48k16bit.bin烧录到芯片地址 0x6184_0000 “好的”->OK_48k16bit.bin烧录到芯片地址0x6180_0000 使用MCUBootUtility工具将两个反馈文件烧录到对应的image中。 这里以OK_48k16bit.bin为例,demo板进入serial download mode(J27-0),断电,上电。 Flash芯片选择hyper flash IS26KSXXS,使用boot device memory界面的write直接烧录对应bin文件到具体的地址,长度为0X40000。 图11 图12 xiaoencoming_48k16bit.bin 使用同样的方法烧录到地址0x6184_0000,长度0X40000. 2.4 开机语音准备与添加 之前准备好的baiduclouddemo_48K16bit.wav(“百度云端语音测试demo”),需要转换成可用的16bit C数组文件,放到工程代码中,供代码调用,用于语言模式demo语音播报。转换需要用到WAVToCode软件,转换如下: 图13 生成好的代码baiducloulddemo_48K16bit.c,添加到工程demo主题C文件中:sln_local_iot_local_demo->audio->demos->smart_home.c。 2.5 唤醒词识别词命令准备与添加 唤醒词识别词是通过cyberon DSMT工具生成,该工具支持多种丰富的语言转换,客户可以通过图2申请该软件。本文的中文唤醒词以及识别词也是通过DSMT生成。 DSMT可以有多个group,group1作为唤醒词配置,CmdMapID=1. 其他group作为识别词,比如本文的CMD-IOT,cmdMapID=2,作为识别词。 图14
图15 Wake word会连续检测输入的音频数据流,使用group1,如果成功唤醒之后,进行具体的识别词识别,使用group2,或者其他的识别group以及自定义group. 使用DSMT配置唤醒词如下: 图16 唤醒词可以支持多个,需要的唤醒词均配置在goup1中即可。使用DSMT配置识别词如下: 图17 然后保存生成文件,代码使用的主要相关文件有:_witMapID.bin, CMD_IOT.xml,WW.xml. 生成的文件中,CYBase.mod是基础模型,WW.mod是唤醒词模型,CMD_IOT.mod是识别词模型。 经过图16,17已经完成了唤醒词与识别词的准备,并且把生成的DSMT工程直接放到工程文件夹下:sln_local2_iot_local_demo\local_voice\oob_demo_zh 三 代码准备 本文代码基于官方SDK local_demo的基础上修改中文唤醒词和识别词(也可以直接构建新的客户自定义group),添加本地识别后灯状态操作,反馈中文音频,主题中文音频,wifi网络通信MQTT协议代码以及百度云物影子连接发布等操作。 源参考代码SDK路径: SDK_2_8_0_SLN-LOCAL2-IOT\boards\sln_local2_iot\sln_voice_examples\local_demo SDK_2_8_0_SLN-LOCAL2-IOT\boards\sln_local2_iot\sln_boot_apps SLN-LOCAL2-IOT以及SLN-LOCAL-IOT代码一致,唯一区别使用的ASR库文件不一样,对于RT106S(SLN-LOCAL2-IOT)使用SDK自带libsln_asr.a库即可,对于RT106L(SLN-LOCAL-IOT)需要使用对应的libsln_asr_eval.a库。 导入代码需要三个工程:local_demo,bootloader, bootstrap. 三个工程存放的image空间不一样。具体查看SLN-LOCAL2-IOT-DG.pdf,chapter 3.3 Devicememory map 关于三个工程在启动中的情况如下: 图18 本文用于demo测试,并且需要debug,所以本文将加密机制关闭,配置bootloader, bootstrap工程宏定义:DISABLE_IMAGE_VERIFICATION=1,并且使用JLINK连接SLN-LOCAL/2-IOT 的SWD接口烧录代码。 下面主要针对APP local_demo工程添加修改代码。 3.1 sln-local/2-iot 代码 Sln-local-iot,sln-local2-iot 平台,下面的修改代码一致。 3.1.1 语音相关代码 1)主题播报代码 播报内容:“百度云端语音测试demo” sln_local2_iot_local_demo_xe_ledwifi\audio\demos\ smart_home.c 内容替换为前面生成的baiducloulddemo_48K16bit.C audio_samples.h,修改: #define SMART_HOME_DEMO_CLIP_SIZE 110733 本代码是供main.c 中的announce_demo 播报使用: caseASR_CMD_IOT: ret =demo_play_clip((uint8_t *)smart_home_demo_clip, sizeof(smart_home_demo_clip)); 2)command 打印信息 #define NUMBER_OF_IOT_CMDS 7 IndexCommands.h static char *cmd_iot_en[] = {"Red led on", "Redled off", "Green led on", "Green led off", "cycle led", "remote led on", "remote led off"}; static char *cmd_iot_zh[] = {"开红灯","关红灯", "开绿灯","关绿灯", "灯闪烁","开远程灯", "关远程灯"}; 这里是使用IOT的源代码修改,实际也可以直接添加自己的语音识别group,并且添加相关的命令标识。 3)sln_local_voice.c Line757, 在ASR_CMD_IOT模式下,添加led相关通知信息。 oob_demo_control.ledCmd = g_asrControl.result.keywordID[1]; 该代码用于获取识别的VC命令数据,keywordID[1]的值代表语音识别的标号No,用来判断具体语音识别是哪个,从而可以在app中根据ledcmd的值做具体的操作。keywordID[1]的值和图17,Command list的No.一一对应。 比如“开远程灯”,如果唤醒后,并且识别到”开远程灯”,则这里的keywordID[1]为5并且可以传输给oob_demo_control.ledCmd,用于后续appTask中做具体控制动作。 4) main.c void appTask(void *arg) 在case kCommandGeneric:下,如果语言是中文,然后添加对应的识别后控制代码,首先先播放feedback响应,中文“好的“。 然后根据具体的音频识别键值,给与开关本地灯操作。 - else if (oob_demo_control.language == ASR_CHINESE)
- {
- // play audio "OK" in Chinese
- #if defined(SLN_LOCAL2_RD)
- ret = audio_play_clip((uint8_t *)AUDIO_ZH_01_FILE_ADDR, AUDIO_ZH_01_FILE_SIZE);
- #elif defined(SLN_LOCAL2_IOT)
- ret = audio_play_clip(AUDIO_ZH_01_FILE);
- #endif
- //kerry add operation code==================================================begin
- RGB_LED_SetColor(LED_COLOR_OFF);
- if (oob_demo_control.ledCmd == LED_RED_ON)
- {
- RGB_LED_SetColor(LED_COLOR_RED);
- vTaskDelay(5000);
- }
- else if (oob_demo_control.ledCmd == LED_RED_OFF)
- {
- RGB_LED_SetColor(LED_COLOR_OFF);
- vTaskDelay(5000);
- }
- else if (oob_demo_control.ledCmd == LED_BLUE_ON)
- {
- RGB_LED_SetColor(LED_COLOR_BLUE);
- vTaskDelay(5000);
- }
- else if (oob_demo_control.ledCmd == LED_BLUE_OFF)
- {
- RGB_LED_SetColor(LED_COLOR_OFF);
- vTaskDelay(5000);
- }
- else if (oob_demo_control.ledCmd == CYCLE_SLOW)
- {
- for (int i = 0; i < 3; i++)
- {
- RGB_LED_SetColor(LED_COLOR_RED);
- vTaskDelay(400);
- RGB_LED_SetColor(LED_COLOR_OFF);
- RGB_LED_SetColor(LED_COLOR_GREEN);
- vTaskDelay(400);
- RGB_LED_SetColor(LED_COLOR_OFF);
- RGB_LED_SetColor(LED_COLOR_BLUE);
- vTaskDelay(400);
- }
- }
- …
- }
复制代码
3.3.3 网络连接代码 除了本地语音识别控制外,本文还添加了语音识别后远程控制功能,主要通过wifi连接以太网,通过mqtt协议连接到百度云服务器,当本地语音识别到要完成远程控制的命令后,发布对应的控制消息到百度云端,再由云端发给订阅消息的其他客户端,然后其他客户端收到消息后,可以通过解析订阅收到的json数据,解析数据并且予以控制。 1)sln_local2_iot_local_demo_xe_ledwifi\lwip\src\apps\mqtt 添加mqtt.c 2)sln_local2_iot_local_demo_xe_ledwifi\lwip\src\include\lwip\apps 添加mqtt.h,mqtt_opts.h,mqtt_prv.h 相关的mqtt驱动均来自RT1060 SDK驱动,已经添加到附件中。 3)sln_tcp_server.c 添加MQTT应用层API函数代码,客户端ID, 服务器主机, MQTT服务器端口号,用户名,密码,订阅主题,发布主题与数据等,具体查看附件代码,由于代码量较多,这里不一一说明。 MQTT应用层代码是从RT1060 SDK的mqtt工程移植过来,添加到sln_tcp_server.c中。TCP_OTA_Server函数用于初始化wifi网络,实现wifi连接,连接到网络之后,解析百度云服务器网址得到IP,然后通过mqtt连接百度云服务器,连接成功之后,先做一个启动数据发布,这样可以在上电之后通过mqttfx去查看启动网络发布消息是否成功。 TCP_OTA_Server函数代码如下: - static void TCP_OTA_Server(void *param) //kerry consider add mqtt related code
- {
- err_t err = ERR_OK;
- uint8_t status = kCommon_Failed;
- #if USE_WIFI_CONNECTION
- /* Start the WiFi and connect to the network */
- APP_NETWORK_Init();
- while (status != kCommon_Success)
- {
- status_t statusConnect;
- statusConnect = APP_NETWORK_Wifi_Connect(true, true);
- if (WIFI_CONNECT_SUCCESS == statusConnect)
- {
- status = kCommon_Success;
- }
- else if (WIFI_CONNECT_NO_CRED == statusConnect)
- {
- APP_NETWORK_Uninit();
- /* If there are no credential in flash delete the TPC server task */
- vTaskDelete(NULL);
- }
- else
- {
- status = kCommon_Failed;
- }
- }
- #endif
- #if USE_ETHERNET_CONNECTION
- APP_NETWORK_Init(true);
- #endif
- /* Wait for wifi/eth to connect */
- while (0 == get_connect_state())
- {
- /* Give time to the network task to connect */
- vTaskDelay(1000);
- }
- configPRINTF(("TCP server start\r\n"));
- configPRINTF(("MQTT connection start\r\n"));
- mqtt_client = mqtt_client_new();
- if (mqtt_client == NULL)
- {
- configPRINTF(("mqtt_client_new() failed.\r\n");)
- while (1)
- {
- }
- }
- if (ipaddr_aton(EXAMPLE_MQTT_SERVER_HOST, &mqtt_addr) && IP_IS_V4(&mqtt_addr))
- {
- /* Already an IP address */
- err = ERR_OK;
- }
- else
- {
- /* Resolve MQTT broker's host name to an IP address */
- configPRINTF(("Resolving "%s"...\r\n", EXAMPLE_MQTT_SERVER_HOST));
- err = netconn_gethostbyname(EXAMPLE_MQTT_SERVER_HOST, &mqtt_addr);
- configPRINTF(("Resolving status: %d.\r\n", err));
- }
- if (err == ERR_OK)
- {
- configPRINTF(("connect to mqtt\r\n"));
- /* Start connecting to MQTT broker from tcpip_thread */
- err = tcpip_callback(connect_to_mqtt, NULL);
- configPRINTF(("connect status: %d.\r\n", err));
- if (err != ERR_OK)
- {
- configPRINTF(("Failed to invoke broker connection on the tcpip_thread: %d.\r\n", err));
- }
- }
- else
- {
- configPRINTF(("Failed to obtain IP address: %d.\r\n", err));
- }
- int i=0;
- /* Publish some messages */
- for (i = 0; i < 5;)
- {
- configPRINTF(("connect status enter: %d.\r\n", connected));
- if (connected)
- {
- err = tcpip_callback(publish_message_start, NULL);
- if (err != ERR_OK)
- {
- configPRINTF(("Failed to invoke publishing of a message on the tcpip_thread: %d.\r\n", err));
- }
- i++;
- }
- sys_msleep(1000U);
- }
- vTaskDelete(NULL);
- }
复制代码
这里需要注意下代码的发布消息,发布内容不能直接给成json格式,比如: { "reported": { "LEDstatus":false, "humid":88, "temp":22 } } {\"reported\" : { \"LEDstatus\" : true, \"humid\" : 88, \"temp\" : 11 } }
4)main函数appTask 在 case kCommandGeneric:下,如果语言是中文,然后添加对应的语音远程识别后控制代码。 “开远程灯“:点本地黄灯,发布远程开灯mqtt消息到百度云端,控制远程1060EVK板上灯开。 “关远程灯“:点本地白灯,发布远程开灯mqtt消息到百度云端,控制远程1060EVK板上灯关。 相关处理代码: - else if (oob_demo_control.ledCmd == LED_REMOTE_ON)
- {
- RGB_LED_SetColor(LED_COLOR_YELLOW);
- vTaskDelay(5000);
- err_t err = ERR_OK;
- err = tcpip_callback(publish_message_on, NULL);
- if (err != ERR_OK)
- {
- configPRINTF(("Failed to invoke publishing of a message on the tcpip_thread: %d.\r\n", err));
- }
- }
- else if (oob_demo_control.ledCmd == LED_REMOTE_OFF)
- {
- RGB_LED_SetColor(LED_COLOR_WHITE);
- vTaskDelay(5000);
- err_t err = ERR_OK;
- err = tcpip_callback(publish_message_off, NULL);
- if (err != ERR_OK)
- {
- configPRINTF(("Failed to invoke publishing of a message on the tcpip_thread: %d.\r\n", err));
- }
- }
复制代码
3.2 MIMXRT1060-EVK 代码 MIMXRT1060-EVK代码主要功能是配置为云端的另外一个客户端,订阅SLN-LOCAL/2-IOT的远程命令发布的消息,然后控制板上LED,用于测试LOCAL2板子的语音识别后远程控制功能,本代码基于以太网,通过板上以太网口,实现网络通信,然后使用mqtt连接百度云,并且订阅local2的消息,从而实现对Local2命令的接收与执行。 对于网络代码部分和SLN-LOCAL2-IOT板子的网络代码类似,使用的服务器,云端账号密码等都是一样,主要功能是订阅服务器的消息。具体查看附件RT1060的代码,lwip_mqtt_freertos.c文件。 这里需要注意的是,当订阅接收到服务器发布过来的数据时,需要做一个数据解析,从而获得led灯的状态,然后予以控制。 正常从百度云端物影子发过来的数据如下: Received 253 bytes from the topic"$baidu/iot/shadow/RT1060BTCDShadow/update/accepted":"{"requestId":"2fc0ca29-63c0-4200-843f-e279e0f019d3","reported":{"LEDstatus":false,"humid":44,"temp":33},"desired":{},"lastUpdatedTime":{"reported":{"LEDstatus":1635240225296,"humid":1635240225296,"temp":1635240225296},"desired":{}},"profileVersion":159}" 那么就需要从收到的数据中,解析出LEDstatus的数据是false还是true。 由于数据量不大,这里就没有采用json驱动去解析,而是纯数据方式解析,在mqtt_incoming_data_cb函数中添加如下解析代码: - mqtt_rec_data.mqttindex = mqtt_rec_data.mqttindex + len;
- if(mqtt_rec_data.mqttindex >= 250)
- {
- PRINTF("kerry test \r\n");
- PRINTF("idex= %d", mqtt_rec_data.mqttindex);
- datap = strstr((char*)mqtt_rec_data.mqttrecdata,"LEDstatus");
- if(datap != NULL)
- {
- if(!strncmp(datap+11,strtrue,4))//char strtrue[]="true";
- {
- GPIO_PinWrite(GPIO1, 3, 1U); //pull high
- PRINTF("\r\ntrue");
- }
- else if(!strncmp(datap+11,strfalse,5))//char strfalse[]="false";
- {
- GPIO_PinWrite(GPIO1, 3, 0U); //pull low
- PRINTF("\r\nfalse");
- }
- }
- mqtt_rec_data.mqttindex =0;
复制代码
使用strstr在接收的订阅消息中寻找“LEDstatus“,然后获取位置指针并且偏移固定长度后,去查询LED状态值是true还是false, 如果是true,则开灯;如果是false,则关灯。 四 测试结果 本节给出本系统的测试结果以及视频。在测试语音功能之前,首先使用MQTTfx测试一下百度云的连接,发布,订阅都没有问题,然后再测试sln-local2-iot结合mimxrt1060-evk语音唤醒识别与远程控制的功能。 对于SLN-LOCAL2-IOT的wifi热点加入,在打印终端中输入命令: setup AWS kerry123456 4.1 MQTT.fx 测试百度云连接 参考之前的文档: 4.2 语音识别唤醒并远程控制测试 实物连接照片: 图29 4.2.1 语音唤醒识别实现本地控制 图30 这是SLN-LOCAL2-IOT识别WW和VC之后打印的信息。 4.2.2 语音唤醒识别实现远程控制 下面测试唤醒+远程开,唤醒+远程关,然后给出打印信息。 图 31 |