大型網路語音會談中回音消除方法


Echo Cancellation In Large-Scale VoIP Conference


祁立誠

 隨著網路技術的發展,目前網路電話(VoIP)已有逐漸取代傳統電話的趨 勢。尤其能夠允許多人同時在線上進行會談是其最大的優勢之一。但在多人 參與網路會談時,因為聲音在空間中傳遞或反射等因素,使得由喇叭發出的 聲音再次被麥克風收回,造成回音的產生。會談中只要有一位使用者的裝置 發生回音時,回音訊號就會在與會者之間擴散,使得所有使用者均會受到影 響,進而嚴重影響網路通話的進行。此狀況在參與會談人數越多時,發生機 率越高,且對通話品質影響越嚴重。`

 傳統電話在一對一通話時,通常使用遠端回音消除機制(Near End Echo Canceller),由接收端在接收聲音後先暫存在記憶體中再播放,再將麥克風 擷取的聲音與事先暫存的訊號反向後混合,以抵銷回音。網路會談的環境 下,由於沒有標準的聽筒設備,使得回音發生的時間難以預估。且多人參與 的網路會談中,由於收聽者所聽到的聲音可能混合多個使用者說話的聲音與 回音,使得回音訊號難以偵測。另外,由於網路傳輸的特性,回音訊號到達 的時間與順序都難以預估,這使得回音消除機制在多人網路回談中經常失 效。

 本研究提出藉由語音動態偵測(Voice Activity Detection-VAD)的方式分 辨回音訊號,藉由本研究所提出的語音能量VAD判定機制,能夠有效區別 正常語音與回音的差異,即可有效的消除回音,同時發揮靜音抑制(Slience Suppression)的效果,阻擋不含語音內容的封包,降低網路頻寬耗用。本研 究以自行開發的VoIP軟體進行實地測試實驗,實驗中顯示,我們的方法能 消除85%以上的回音。

With the prosperous development of Internet technology, traditional phone service is being replaced gradually byVoice-over-IP (VoIP) technology. One of the critical problem that is yet to be improved is the echo problem. Due to the difference in working environment, conventional echo cancellation technology may not work well on VoIP system. The echo problem is becoming more critical as the number of participants in a talk session increases. As long as one user fails to depress echos, every other participant in the conference will be infected. The more participant, the higher probability of echo infection.

We propose an energy based Voice Activity Detection (VAD) mechnism that effectively differentiate echo from speech signal. Our VAD algrouthm records a user’s speech volume, and based on this information to determine whether the frame is echo or not. By applying this mechnism to network conference, we can filter out echo frames and suppress slience at same time to save bandwidth consumption. We experimented on a self-developed VoIP software platform, the experiment result shows that our method can eliminate more than 85% of the echo.