嵌入式端音频开发(基础篇)之2021 您所在的位置:网站首页 音频输出端 嵌入式端音频开发(基础篇)之2021

嵌入式端音频开发(基础篇)之2021

2024-06-26 20:44| 来源: 网络整理| 查看: 265

前言

为什么写这边文章?作为开发过不少语音在线识别和离线识别不少产品的嵌入式软件工程师来说,有不少同事和粉丝对于嵌入式端语音开发,经常问我:怎么做?怎么选芯片?有哪些厂家有芯片可以选择?

所以决定写下这边科普文章。

在知乎上看到一位很牛的销售龙洋,很早之前就写了国产离线语音芯片的对比,真的是一位很称职的销售。

本文重点只是介绍下芯片和厂家,不做开发方面的描述。

博主在专栏【音频(语音)开发】中在不断更新嵌入式语音开发工作的文章,目前还在更新中。

以下排名不分先后,文章内容没有褒谁贬谁,客观描述。

1.云知声蜂鸟

具体资料可以去云知声UniOS平台查看。

芯片简介

        蜂鸟芯片(US526U5/US527U5 )(是云知声最新一代专门为离在线远场语音交互场景设计的高性能,高集成度, 低成本的智能语音芯片,可广泛且快速应用于智能家居,智能家电,86 盒,灯具等产品。

        蜂鸟L(US513U6) 是一颗亚毫瓦级超低功耗面向带电池和便携式产品以及对功耗有严苛要求的 各类产品推出的智能纯离线语音识别芯片,依托于云知声在语音识别技术上的积累和算法的 不断优化和创新,将离线识别算法与芯片架构深度融合,为客户提供 Turnkey 语音识别方案, 可广泛且快速应用于各类带电池的小家电,可穿戴,玩具以及单火线供电 86 盒等需要语音 操控的产品。

        蜂鸟M(US516P6) 是云知声针对大量纯离线控制场景和产品最新推出的低成本纯离线语音识别 芯片,依托于云知声在语音识别技术上的积累和算法的不断优化和创新,离线识别算法与芯 片架构深度融合,为客户提供超低成本的离线语音识别方案,可广泛且快速应用于智能家居, 各类智能小家电,86 盒,玩具,灯具等需要语音操控的产品。

系列芯片对比

 截止目前时间,总共五个系列芯片,针对不同产品形态。即使各种参数最低的蜂鸟L,单Mic语音识别也非常优秀。

优势         高性能

        AI加速架构,以及硬件与算法的深度耦合联合确保芯片远超通用芯片的性能。

       功耗低

专用ASI以及面向AI的设计使得功耗大幅降低。

        可定制

根据产品类型,设定离线命令词,云端服务可定制。

        代码开源

支持批量导入更快捷,方案代码开源。

         快速落地

使用参考方案,适度定制,一个月内软件达到量产标准。

开发者

        如果你是开发者,可以去找云知声公司申请开发板来进行体验和项目开发。离线语音可以支持中文版和英文版。

2.百度鸿鹄

 芯片简介

百度鸿鹄语音芯片(DU1906)是专门为智能家居语音交互、智能车载语音交互、以及智能物联等场景设计的超低功耗远场语音交互芯片,具有远场阵列信号实时处理、高精度超低误报语音唤醒、离线语音识别等核心能力。

芯片规格参数

应用场景

百度鸿鹄语音芯片提供基础的信号处理和唤醒能力,提供完整的语音处理硬件模组方案或参考设计输出,通过SDK输出包括远场信号处理、语音唤醒、语音识别、语义理解和语音合成等完整的智能家居语音解决方案,支持RTOS、Linux和Android等主流操作系统,支持音箱、电视、空调等多种家居场景需求。

优势 低功耗

平均功耗低于100mW,可支持远场语音交互必须的实时信号处理和唤醒能力,满足国家绿色家电3C认证标准。

 高精度

支持百度领先的Deep Peak和Deep CNN语音唤醒技术,实现复杂内外噪场景下的高精度唤醒,单日误报次数不大于1次。

开发板

        暂时无。

 编者语

百度这颗芯片,能拿到的资料不多,很多信息都不详。仅从官方描述的支持Linux,Andriod操作系统来看,芯片针对的市场比较单一。目前市场上有小度智能音箱2红外版搭载了这颗芯片,C12量子点Mini LED智屏首次搭载百度鸿鹄语音芯片。

从19年发布到目前未知,百度对外发布的信息并不多。作为开发者的我们,想体验这颗芯片,还需要些时间。

3.九芯电子语音识别芯片 3.1 NRK330x语音识别芯片

芯片手册可以去其官方下载。

芯片简介

NRK330X 系列语音识别芯片是广州市九芯电子有限公司推出的一款32位高性能、低成本语音识别IC,其具有具有识别精准、远场降噪等优势,最多可支持不超过100条离线指令,现已广泛用于智能家电、智能卫浴、智能照明、智能机电、智能家居、 智能玩具 等领域。

芯片参数

        内核和存储

高性能 32 位 RISC 内核,主频 240MHz,支持硬件浮点运算 内置 1MB SPI FLASH         AI算法 离线语音识别,采用最新的神经网络(TDNN)算法,具有识别精准,误判率低等优势,5 米远场可靠识别语音降噪算法:过滤掉稳态噪声、对动态噪声也有很好的抑制作用,噪音下也可准确识别音频解码:  支持 MP3,WAV,WMA,APE,FLAC, AAC,MP4,M4A,AIF,AIFC 音频解码 BT 支持 SBC,AAC 音频解码音频 BT 电话支持 mSBC 语音编解码器

         电源

VBAT 为 2.2V 至 5.5VVDDIO 为 2.2V 至 3.6V

        蓝牙

符合蓝牙 V5.1 + BR + EDR + BLE 规范满足 Class1 class2 和 class3 传输功耗需求支持 GFSK 和 π/ 4 DQPSK 所有包装类型提供+ 6dbm 发射功率具有-90dBm 灵敏度的接收器快速 AGC 可增强动态范围支持a2dp \ avctp \ avdtp \ avrcp \ hfp \ spp \ smp \ att \ gap \ gatt \ rfcomm \ sdp \ l2ca 配置文件

         外设

一个全速 USB 2.0 OTG 控制器一个 I2S 数字音频接口,支持主机和从机模式  四个多功能 16 位定时器,支持捕获和 PWM 模式三个用于电机的 16 位 PWM 驱动发生器三个全双工基本 UART,UART0 和 UART1 支持 DMA 模式两个 SPI 接口支持主机和设备模式  一个 SD 卡主机控制器一个硬件 IIC 接口支持主机和从机模式内置 Cap Sense Key 控制器10 位 ADC 用于模拟采样 所有GPIO上的外部唤醒/中断 3.2 NRK11系列语音识别芯片 芯片简介

NRK10 为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片,具有语音识别及播 报功能,需要外挂 SPI-Flash,存储词条或者语音播内容。他具有识别率高,工业级性能、简单易用, 更新词条方便等优势。广泛应用在智能家居、AI 人工智能、玩具等多种领域。

具体资料可以去官网查看。

3.3 编者语

从芯片的介绍和开发方式,九芯的语音识别芯片属于传统型厂商研发生成。

4.科大讯飞CSK400X系列智能离线语音模块

        注意,这里不是芯片是模块。

CKS4002+ES7210

        

 科大讯飞的CSK4002组合顺芯的ES7210音频ADC芯片的模组,支持200条语音识别指令,语音识别支持红外插座、风扇、云台、音响、扫描笔、取暖桌、集成灶、会议宝、空调、投影仪等设备。

 CSK芯片的主要作用

为端侧提供前端声学能力。

 

 关于iFLYOS

 编者语

讯飞的芯片更多的不是一个单芯片呈现,它是通过一个降噪芯片搭载一个其他主芯片来完成方案。优点:识别率高,性能好;缺点:成本高。

5.太行系列芯片

芯片简介

太行TH1520是思必驰旗下芯片公司深聪智能 的AI芯片,搭载思必驰全链路人工智能语音技术,低功耗算法的优势使其广泛地应用于智能家居、智能车载领域。

太行TH2608配置了一个Cortex-M CPU子系统,一个信号处理器DSP子系统,一个高效的NPU子系统,一个语音音频编码子系统,支持六路模拟麦克风与六路数字麦克风和外设单元,使得新一代太行芯片具备快速赋予各类产品语音交互和设备控制能力的同时,升级了对智能产品显示部分控制的支持,持续拓展智能产品支持类型和应用场景。TH2608还集成了指令识别能力,情绪识别能力,声纹识别能力以及语音合成能力,在用户体验方面得到了进一步的优化。同时,也增加了多场景的适应能力,如多路语音采集能力,丰富灵活的接口配置,显示能力,超低功耗唤醒能力等。

TH1520规格参数

高达400+MHZ的双Tensilica DSP核具体说明。设置音频算法3. 3/ 1.8v可选输入输出电压多音频配置最多支持6通道DMICS/AMICS大容量内存2xI2S2xi2c2xUART1XSPI1XUSB1.1PWM 芯片优势

芯片离线方案

芯片在线方案 

TH2608

资料暂无

6.阿里|平头哥语音识别芯片 6.1 SC5654芯片简介

异构双核AI语音芯片 SC5654是一颗高度集成的音频SoC,集成了低功耗高性能的玄铁803作为系统主控,配以高性能音频专用DSP处理音频编解码和音效处理,同时还集成了SAR-ADC,USB、SDIO等控制器,以及音频Codec和I2S音频接口。

SC5654支持AliOS-Things操作系统、YOC语音应用框架,提供MP3、AAC、OPUS等音频编解码组件,集成了语音唤醒、降噪芯片、识别等算法。

芯片规格参数

 应用场景

智能音箱、故事机、智能家电等领域。

6.2 WN8032F芯片简介

低功耗高性能音频SOC芯片 基于阿里平头哥嵌入式CPU设计的低功耗高性能智能人机交互/音频处理SoC芯片,芯片集成带DSP增强功能及浮点加速的CK804内核,内置128KB的SRAM;芯片集成高性能Audio CODEC、USB、ADC、QSPI、PMU等模块/设备及SPI、IIS、IIC、UART等外设I/O接口。采用SMIC 55nm工艺制程,并支持多种低功耗模式。

开发板

 应用领域

电竞耳麦、TYPE-C转接器、K歌麦克风、语音车载支架。

7.互问LS416、W02X、W03 7.1 LS416芯片简介

LS416 是一颗高度集成化的语音处理芯片,内置互问离线语音识别引 擎,支持多命令词本地语音控制应用。 内置spi flash 和高性能codec,使用 低成本轻量化神经网络语音处理单元,以及低功耗MCU,支持多种逻辑应用开发。

芯片框图

LS416芯片参数

DSP 

5 级流水线,最高工作频率 160MHz; 32bit/16bit 乘法:MAC16,MUL16,MUL32; 32bit 整数除法;单精度浮点运算;专用硬件音频加速引擎;32KB 指令 Cache,32KB 数据 Cache,支持 WB/WT;集成 Local SRAM

MCU

高性能 Cortex-M0,最高工作频率 80MHz;内建 8KB Cache,分四个地址区域,独立配置是否 Cache;支持降频工作,最高总线频率四分之一

SPI Flash 控制器

支持 SPI Flash 1/2/4 线模式;支持核心直接在 SPI Flash 上运行;内部叠封 16Mbit SPI NorFlash;

SRAM

内置 240K SRAM,系统 32KB+16KB,DSP 192KB; 支持 Byte,Half-word,Word 读写;

封装

QFN-48 LS416应用领域

可用于玩具、家电等领域

7.2 W02X芯片简介

互问W02x芯片 是一款高度集成的本地语音系统级芯片(SoC),自研基于神经网络深度学习的本地唤醒和前端降噪算法,无需额外license。支持多级唤醒和多个本地固定词命令词,支持多通道/多麦克回声消除功能,可作为AEC前端处理+本地唤醒,支持I2S作为super codec使用。内置深度定制的神经网络处理单元、逻辑控制单元,无需MCU处理简单逻辑。

 7.3 W03芯片简介

W03内置深度定制的神经网络处理单元、逻辑控制单元、RSIC和大容量内存。内置互问远场拾音降噪、本地语音识别和唤醒打断技术,只需外接WiFi收发单元,即可实现IOT和云端交互功能。可用于智能音箱、智能机器人、智能家电等领域。

8.华振电子语音识别芯片

语音识别芯片/语音大脑/ 麦克阵列声学算法-华镇电子http://www.wanson.cn/ 截止目前,华振的语音识别芯片主要6个系列:

 8.1 A550芯片简介

A550芯片是华振公司第三代语音识别芯片,支持MP3音频文件的解码播放。可用于智能识别等诸多领域。A550芯片可以通过多个接口与其它MCU进行通信。 

A550支持非特定人中文、英文语音的识别,通过双麦克风降噪收音,并允许用户通过USB接口对关键词和关键句的更新。 

A550可以支持多达1000词条的语音识别,对于非易混词表,系统给出的识别率达到97%以上,系统支持在噪音环境下的语音识别,芯片中加入了专门的滤波模块。

芯片架构

A550芯片作为一颗主控处理器,内含8052核和DSP核,可以外扩SD卡或者TF卡。 

 开发环境

        windows下keil c5。

开发板

 8.2 语音大脑DM6921平台简介

6291平台基于MIPS芯片,运行Linux系统,支持单麦/双麦远讲识别。运行算法有:基于深度神经网络算法的本地语音识别、语音增强、语音降噪、声源定位、波束成型、本地语音合成。 

6291平台单麦版本采用高灵敏度数字麦克风录音,利用稳态、动态噪音过滤算法,动态调整录音音量,录音降噪后通过语音增强,将高信噪比的语料数据送到识别引擎去做识别,保证了不同距离(远讲)识别的高精准度和抗噪能力。 

6291平台双麦版本在单麦版本的基础上,增加了双麦声源定位(180度)、波束成型,利用麦克风的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量,再将录音数据做本地识别,最适合真实复杂场景下的语音控制。

6291平台支持中文普通话识别,同时也支持方言识别,用户可以自定义学习训练唤醒词、控制指令,学习训练的内容不限制语种,不限制说话内容。学习训练成功后,语音大脑既支持已有的普通话识别,也支持学习训练的方言识别。

更多资料可以直接去这里语音大脑DM6291平台。

8.3 语音大脑DM6292平台简介

语音大脑DM 6292平台基于MI PS芯片,运行Linu x系统 ,支持四麦克风阵列,支持远讲识别。运行算法有:基于深度神经网络算法的本地语音识别、云端识别,语音增强、回声抑制,波束成型、声源定位、本地语音合成。

DM6292平台前端采用四麦克风阵列,利用四麦克风阵列的空域滤波特性通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量,再将录音数据做本地识别或者云端识别,在嘈杂环境下同样可以识别。

 8.4 语音大脑VB580平台简介

语音大脑平台VB580是华镇电子推出的一款语音识别软硬件一体解决方案,具有低成本、高可靠性、通用性强的特点。在语音技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更丰富的语音控制指令条数、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。

VB580平台采用了高性能 32位音频处理器,软件采用了华镇第五代的语音识别算法、降噪算法、麦克阵列等前端处理算法,能够为智能设备提供远场环境下语音控制、语音交互能力,使硬件能听懂用户的说话内容、语音指令来完成设备控制操作等功能,并通过语音播报,完成与操作人员的全语音交互,带来简单快捷的使用体验。

8.5 语音大脑VB590平台简介

VB590平台是华镇推出的一款离线语音识别AI软硬件一体解决方案,具有超低成本、高可靠性、通用性强的特点。在语音识别技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。

VB590平台采用了高性能32位处理器,芯片内置语音识别神经网络计算所需要的DSP指令增强单元以及MCA算法硬件加速器,AI算法与芯片架构深度融合,搭载公司第五代AI算法(语音识别算法,语音增强、降噪等声学前端处理算法),为智能设备提供良好的远场环境下语音控制、语音交互能力。

VB590芯片在AI计算能力、存储性能、集成度做了全方面深度优化,为开发者提供了真正低成本的完整语音AI解决方案,提高差异化竞争力。 VB590平台具有丰富的外围接口,包括 UART/I2C/PWM,以及简单、友好的二次开发工具, 方便客户实现单芯片的语音控制应用场景方案。

 应用领域

智能家电、智能卫浴、智能照明、智能机电、智能玩具、智能家居等。

8.6 语音大脑VB6824平台简介

VB6824平台是华镇电子推出的一款AI离线语音识别+双模蓝牙的解决方案,具有超低成本、高可靠性、通用性强的特点。在语音技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更丰富的语音控制指令条数、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。  

VB6824平台采用了高性能 32位音频处理器,软件采用了华镇第五代的语音识别算法、语音降噪算法,能够为智能设备提供远场环境下、稳态噪音环境下语音控制、语音交互能力,使硬件能听懂用户的说话内容、语音指令来完成设备控制操作等功能,并通过语音播报,完成与操作人员的全语音交互,带来简单快捷的使用体验。

VB6824平台集成了双模蓝牙,符合蓝牙V5.1 + BR + EDR + BLE规范。支持BLE接入手机蓝牙app或小程序,支持BR/EDR连接手机做蓝牙音乐播放。

9.清微智能系列芯片

 9.1 TX1智能麦克风简介

注意:这里的TX1不是芯片,是麦克风的形式存在。

功能  支持常用麦克风的使用支持语音唤醒和命令词识别持声纹识别 功耗 工作功耗低,实时唤醒,识别率高睡眠模式功耗:50 uWVAD模式功耗:0.1mW唤醒模式(工作模式):2mW 9.2 TX210智能语音芯片简介

超低功耗

高度集成的SOC,包含音频ADC和AI语音识别功能

远距离语音唤醒和命令词识别

规格参数

音频

支持模拟麦克风支持数字麦克风

电源、时钟和复位

DC 3.3V,1.8V和1.1V/0.9V电源供电

支持32KHz时钟输入,内置 PLL 时钟源内置Watchdog多种低功耗模式VAD低功耗模式

性能参数

低功耗VAD功耗: 95%误识率:


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有