💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
# 语音识别效果不好 ### 语音识别效果不好 如果每次 用户说话的前 2个字识别不到 可以关闭 静音抑制。 具体到语音网关 找到相关配置。 1 为什么 科大输入法识别效果很好,我们的系统识别效果却不好 科大输入发是 16000hz采样的声音 电话是 8000hz采样的声音。不具有可比性 2 能不能把声音也转换成 16000hz的然后再识别呢 100万像素的图片,你转成 1000万像素保存,图片会变清晰吗, 声音也是一个道理,声音的采样率和图片像素是一个概念。所以 8000转到16000完全没用。 3 到底怎么样可以提高识别率 1) 想办法提高声音质量,比如用数字线路,如果无线网关放信号好的位置,用g711编码。 2) 可以换一个语音识别引擎,比如科大SDK试试。 多个识别引擎对比一下,找一个合适你的。 3) 把关键词上传到识别引擎后台,科大语音听写SDK接口的上传关键词地方是 (服务管理->个性化听写) 4) GOIP设备 设备放到信号好的地方 (信号不好会丢包) 关闭设备的静音抑制功能 (开了静音抑制,容易出现前1-2个字 没识别到) 设备后台把用户说话(输入)音量调大 (如果用户说话音量不够大容易出现,机器人在说话时,用户说话识别不到,也就是不能打断,很多设备对双方同时说话支持不好) 4 线路声音编码和识别率有影响吗 有的,各种声音编码都是有损压缩,识别率最好的情况是 e1或者IMS (G711编码)。g729,编码后的声音会更不清晰。 5 什么线路音质最好 e1 > ims > sim E1 就是数字中继 IMS 就是数字中继IP化 SIM 就是手机卡 5 SIM卡音质怎么样 现在SIM还是用 GSM网络,或者3G网络或者CDMA网络 我网上找了一个资料,大家可以自己看看 (总之现在 4G只用数据功能语音还是 2G或者3G声音都不如E1或者IMS) 一 音频采样 GSM作为一个全数字的系统,对于语音数据首先进行数字化的量化。也就是模拟的音频信号转化成数字信号,再进行数字化的传输。声音的数字化就包括采样和量化。 GSM主要是传输人的声音,因此人发出的声音的频率也就影响了系统的采样频率。通常人发出的声音频率在85~1100HZ,其中人耳敏感的频率范围是1~4KHZ。声波的主要频率分布20~3400HZ。 1. `<span class="pun">奈奎特定律证明:只要取样的频率大于原始信号的频率两倍之上,信号可以完全有采样样本来恢复。因此</span><span class="pln">GSM</span><span class="pun">规范采用</span><span class="lit">8KHZ</span><span class="pun">的采样频率,完全满足人耳分辨声音的需要。</span>` 二 语音编码 对于麦克风里面的声音,以8KHZ采样率13位精度进行采样,得到的速率就是104kbps的源数据流。这样的码率对于GSM来说比较大,因此要对语音进行压缩编码,以便于传输。 GSM系统通常采用四种编解码器: 1) 半速率 位速率5.6Kbps 压缩比18.4 编解码类型VSELP 最早的GSM网络使用GSM-HR(Half Rate)标准,编码速率低,感觉普遍不佳。 2)EFR 位速率12.2Kbps 压缩比8.5 编解码类型ACELP 1. `<span class="pln">EFR</span><span class="pun">声码器是一种代数码激励线性预测(</span><span class="pln">ACELP</span><span class="pun">)编码器</span>` 3)全速率 位速率13Kbps 压缩比8 编解码类型RTE-LTP LPC 长期预测(LTP)与规则脉冲激励(RPE),而全速率编解码器就被称为RPE-LTP线性预测编码器。 4)AMR 位速率12.2-4.75 压缩比8.5-21.9 编解码类型ACELP 1. `<span class="pln">WCDMA</span><span class="pun">网络主要是采用</span><span class="pln">AMR</span><span class="pun">编码方案。</span><span class="pln">GSM</span><span class="pun">主要还是</span><span class="pln">EFR</span><span class="pun">或者是全速率,属于窄带技术。</span>` 三 AMR-NB与AMR-WB AMR-WB+ AMR NB的语音带宽范围:300-3400Hz,8KHz采样 AMR WB的语音带宽范围: 50-7000Hz,16KHz采样 AMR-WB+的采样速率是在16~48 kHz之间。这使得它的语音带宽更宽(24 kHz) 在4G时代,LTE网络采用AMR-WB 和AMR-WB+,来传输高清语音数据。 总结: 当前的语音网络中,GSM普遍采用全速率或者EFR。3G通信普遍使用AMR-NB。AMR-WB或者AMR-WB+目前在国内的运营商还没有采用。编码器对每20ms采用的语音信号封装成块,经过编码处理,最后形成数据帧。发送到网络上。