离线语音识别芯片对比

admin 2025-02-16 186人围观 ,发现152个评论
1.语音识别技术原理

语音识别技术(ASR自动语音识别),使智能设备能够理解人类的声音。语音识别的工作流程可以分为三个步骤。分别是前端语音处理、模型训练和后端识别处理。

前端处理

前端处理转换成机器可以读取的数字信号,并对信号进行优化。与前端处理相关的硬件:麦克风、PDM\I2S、音频处理能力(NPU或DSP)下面是前端处理流程的简化。该模型可以理解为一本字典。机器收到语音消息后,将其与模型进行比较,以找到相似的声音和单词。那么,模板是怎么来的呢?这需要提前收集大量的语音和语言信息(通常称为语料库收集),通过特定的算法跳出最典型的语音特征。这称为“模板训练”。编辑字典。语音识别系统的模型训练通常分为两套:

语言模型训练

语言模型是用于计算句子出现概率的概率模型。它是语音识别方面的字典。它需要整合三个层次的知识。它们是字典、语法、句法,让机器更好地理解人类的自然语言。

声学模型训练

声学模型是识别系统的底层模型,也是语音识别系统最关键的部分。该算法主要是通过大量的语音采集来优化这部分声学模型,并根据特定的算法规则得到特征值,以供后期识别和比较。互联网巨头拥有庞大的用户基础和语音采集渠道,比传统企业具有优势。

2.后端识别处理(语音解码)

是指利用训练好的“声学模型”和“语言模型”对提取的特征向量进行识别,并输出识别结果。这一步与建模密切相关。有时,建模被归入后端识别过程,与前端处理相对应。识别精度和响应速度通常取决于主控的运算速度,以及前端处理和模型的综合性能。以下是详细的语音识别技术的原理和分支:

3.语音识别技术的发展历史

循环神经网络与上下文建模相结合。计算复杂度高于DNN。下一个是卷积神经网络CNN。图像识别的主流模型,优化了语音的多样性,减少了硬件资源的浪费。不再需要HMM来描述音素内部状态的变化。但语音识别的所有模块都被统一到一个神经网络模型中。国内大厂商的技术选择:科大讯飞-深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN。

4、语音识别芯片对比

识别距离——识别率是芯片的两个重要的主导指标,直接关系到消费者的使用体验,但由于每个厂商测试的前提条件不同,且与芯片的市场定位有关,所以并不是一个绝对的指标。处理器可分为MCU和AudioCore。前者偏重于芯片与周界配合的控制器,而后者则比前者更重要的是处理音频信号和运行识别算法。后者是直接决定芯片语音识别的响应速度和准确性的重要因素。下一个是存储。硬件存储决定了处理器可以调用的资源的大小,以及识别的条目的数量。语音算法有前端信号处理算法(降噪、波束成形、响应消除、VAD静音抑制、麦克风矩阵、远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这是一个软参数。音频通道-外设接口是芯片与周边设备之间的通信桥梁。对于语音识别来说,音频的输入和输出比较重要,单独列出。音频输入分为模拟输入(ADC)和数字输入(PDM),音频输出通常为DAC。功耗不能直接比较,而是能耗比,即相同性能下的功耗比较。还有其他因素,如工作温度、封装等。以上参数,除了一般的硬件参数外,其他定义也略有不同,不能单独比较。算法模型主流是GMM+HMM,或者说模型匹配(语音标签)。而且,由于芯片配置简单,不具备降噪等功能,识别距离为25m,识别率通常在90%左右。条目数为510。

猜你喜欢
不容错过