录播声学回声降噪算法

来源：发布时间：2022年03月31日

深入浅出WebRTCAEC（声学回声消除）,前言：近年来，音视频会议产品提升着工作协同的效率，在线教育产品突破着传统教育形式的种种限制，娱乐互动直播产品丰富着生活社交的多样性，背后都离不开音视频通信技术的优化与创新，其中音频信息内容传递的流畅性、完整性、可懂度直接决定着用户之间的沟通质量。自2011年WebRTC开源以来，无论是其技术架构，还是其中丰富的算法模块都是值得我们细细品味，音频方面熟知的3A算法（AGC:Automaticgaincontrol;ANS:Adaptivenoisesuppression;AEC:Acousticechocancellation）就是其中闪闪发光的明珠。本文章将结合实例解析WebRTCAEC的基本框架和基本原理，一起探索回声消除的基本原理，技术难点以及优化方向。回声的形成WebRTC架构中上下行音频信号处理流程，音频3A主要集中在上行的发送端对发送信号依次进行回声消除、降噪以及音量均衡（这里只讨论AEC的处理流程，如果是AECM的处理流程ANS会前置），AGC会作为压限器作用在接收端对即将播放的音频信号进行限幅。那么回声是怎么形成的呢？如图2所示，A、B两人在通信的过程中，我们有如下定义：x(n):远端参考信号，即A端订阅的B端音频流，通常作为参考信号；y(n):回声信号，即扬声器播放信号x。

什么是非线性声学回声。录播声学回声降噪算法

一是恼人的异常音往往是比较轻微的，由于人工听音存在主观辨识性的问题，对于这类轻微的异常音疏于判断，但是终端客户可能不接受；二是在于产线测试环境嘈杂，普通的测试设备易受干扰，人耳对低阶次谐波的失真不敏感，所以在低阶的谐波失真导致的异音可能无法听出，但仪器有可能测出，从而导致误测，生产效率降低。要想准确检测出异常音，高性能的硬件采集和的软件算法缺一不可。指南测控的标准声学测试系统，通过规范的配备自研的高精度的测试传感器、高隔离度的环境环境、高灵敏度的GT-BT216C音频分析仪，辅以良好的减振结构设计，基于异常音包含大量的高次谐波失真成分这一基本原理，结合大量的生产测试经验和实验研究，形成了优于普通Rub&Buzz的独特的多达4种异常音检测指标，来检测异常音。下图TWS耳机中的右耳在播放低频成分较为明显的音乐或者声源时，人耳可以听出略微的异音感；左耳表现正常。通过指南测控的标准声学测试系统实际测试的结果，右耳喇叭播放时有略微异音，左耳喇叭听感正常。左右耳TWS组队声学测试，可以在喇叭播放特性的喇叭异常音测试步骤中看到，有异音的右耳的低频分量强度会变高，通过在指南GirantAudistic声学测试软件上测试异（常）音。

江苏智能音响声学回声抑制算法介绍非线性声学回声消除的公开文献也少之又少。

反映到听感上就是回声（远端判断成近端）或丢字（近端判断为远端）。（2）计算近端信号d(n)与估计的回声信号e(n)的相干性，如图5(b)，第二行为估计的回声信号e(n)，第三行为二者相干性cohde，很明显近端的部分几乎全部逼近，WebRTC用比较严格的门限（>=）即可将区分绝大部分近端帧，且误判的概率比较小，WebRTC工程师设置如此严格的门限想必是宁可一部分双讲效果，也不愿意接受回声残留。从图5可以体会到，线性滤波之后可以进一步凸显远端参考信号x(n)与估计的回声信号e(n)的差异，从而提高远近端帧状态的判决的可靠性。存在的问题与改进理想情况下，远端信号从扬声器播放出来没有非线性失真，那么e(n)=s(n)+v(n)，但实际情况下e(n)与d(n)很像，只是远端区域有一些幅度上的变化，说明WebRTCAEC线性部分在这个case中表现不佳，如图6(a)从频谱看低频段明显削弱，但中高频部分几乎没变。而利用变步长的双滤波器结构的结果会非常明显，如图6(b)所示无论是时域波形和频谱与近端信号x(n)都有很大差异，目前aec3和speex中都采用这种结构，可见WebRTCAEC中线性部分还有很大的优化空间。如何衡量改进的线性部分效果？这里我们对比了现有的固定步长的NLMS和变步长的NLMS。近端信号d。

首先这里的A和D比较好判断，他们都属于线性时不变系统。比较难判断的是C，因为在一些比较复杂的场景下，声学回声往往会经过多个不同路径的多次反射之后到达接收端，同时会带有很强的混响，甚至在更极端情况下，喇叭与麦克风之间还会产生相对位移变化，导致回声路径也会随时间快速变化。这么多因素叠加在一起，往往会导致回声消除算法的性能急剧退化，甚至完全失效。有同学可能会问，难道这么复杂的情况，不是非线性的吗？我认为C应该是一个线性时变的声学系统，因为我们区分线性跟非线性的主要依据是叠加原理，前面提到的这些复杂场景，它们依然是满足叠加原理的，所以C是线性系统。这里还要再补充一点，细心的朋友会发现B里面有一个功率放大器，同时在C里面也有一个功率放大器，为什么经B的功率放大器放大之后，可能带来非线性失真，而C的功率放大器不会产生非线性失真呢？二者的主要区别在于B放大之后输出是一个大信号，用来驱动喇叭。而C放大之后输出依然是小信号，通常不会产生非线性的失真。2.非线性声学回声产生的原因.非线性声学回声产生的原因，我一共列了两条原因。原因之一，声学器件的小型化与廉价化，这里所指的声学器件就是前面B里面提到的功率放大器和喇叭。

在构建滤波器模型的过程中结合了非线性声学回声的一些特性。

WebRTCAEC算法中开辟了可存储250个block大缓冲区，每个block的长度PART_LEN=64个样本点，能够保存的1s的数据，这也是理论上的大延时能够估计的范围，够用了。我们用610ms延时的数据测试(启用大延时调整需要设置delay_agnostic_enabled=1)：我们还是设置默认延时为240ms，刚开始还是调整了-60个block，随后大延时调整接入之后有调整了-88个block，一共调整(60+88)*4=592ms，之后线性滤波器固定index=4，表示剩余延时剩余16ms，符合预期。③线性滤波器延时估计是固定延时调整和大延时调整之后，滤波器对当前远近端延时的直接反馈。前两者调整不当会造成延时过小甚至非因果，或延时过大超出滤波器覆盖能力，导致无法收敛的回声。因此前两者在调整的过程中需要结合滤波器的能力，确保剩余延时在滤波器能够覆盖的范围之内，即使延时小范围抖动，线性部分也能自适应调整。总结与优化方向WebRTCAEC存在的问题：（1）线性部分收敛时间较慢，固定步长的NLMS算法对线性部分回声的估计欠佳；（2）线性部分滤波器阶数默认为32阶，默认覆盖延时132ms，对移动端延时较大设备支持不是很好，大延时检测部分介入较慢。声学回声是由于麦克风和扬声器的声学泄露耦合而成。江苏智能音响声学回声抑制算法

声学回声的作用有哪些？录播声学回声降噪算法

AEC定义声学回声（AcousticEcho）电话的扬声器的声音(包括反射声)，被麦克风拾取传送给远端，使得远端说话人又听到自己的声音，广义回声指的是设备喇叭和自身麦克风的耦合现象都称为回声。回声消除AEC（AcousticEchoCancellation）一般指的是声学回声消除，其主要用于抑制产品本身发出的声音，使得产品在播放音频时依然可以进行语音交互；随着秒新月异的科技发展，各项技术成果不断地应用在我们日益拓展的各领域需求当中，刷新着我们的生活和工作。地球村的崛起，不断以互联网、物联网等方式揭示着万物相连的关系。无论是飞机、高铁还是电话、网络，都成为托起地球新村时空纵横的重要载体。怎样拉近人与人之间的关系，如何建立起更行之有效的联络方式，提高远程协同工作、信息传达效率成为了一个重要命题。远程会议的出现在很大程度上为这种多极化办公互动提供了质量的平台保障，在借助互联网便捷的远程通信架构下，通讯数据安全，稳定可靠，很长一段时间广受用户青睐。然而美中不足的是，这样的（声音）系统仍逃不出的还是自然声学上的问题。有和业内朋友聊天中谈到，今后的扩声系统也许只保留两级传统装置了，那就是声电转换和电声转换的拾音和还原。

录播声学回声降噪算法

标签：降噪声学回声语音关键事件检测 ENC降噪麦克风阵列

上一篇： 手机降噪供应商

下一篇： 投影仪USB声卡语音控制

商机详情 -

录播声学回声降噪算法

扩展资料

声学回声热门关键词

声学回声企业商机

声学回声行业新闻