フロントエンド処理 mimi®︎ XFE

EC概要

ECは、XFEモジュールの名称で、Echo Canceller(エコーキャンセラ―)の略語です。エコーキャンセラ―とは、スピーカーから出力される音声がマイクに回り込むことを防止する機能です。

例えば、ウェブ会議中にハウリングが起こって困ったことは一度はあるのではないでしょうか。スピーカーから「キーン」といった大きな音が鳴って慌ててマイクやスピーカーを切ったというような状況です。ハウリングの原因は、スピーカーから再生された音がマイクに回り込み、ループされてしまうためです。エコーキャンセラーはこのような回り込みを防止することができます。

技術的イラスト 技術的イラスト

他の例では、音声対話ロボットが発話中に、ユーザーの音声命令を受け付けない仕組みになっていることがあります。ロボットが長セリフを発話しているときに途中でカットすることができないのは不便です。この原因は、ロボットのスピーカーから再生された音がロボットのマイクに回り込み、ユーザーの発話とロボットから再生された音声の区別がつかなくなるためです。例えば「おはよう」というユーザー発話に、ロボットが「おはよう」と返す、というシナリオがあるとき、ロボットは無限に「おはよう」と言い続けてしまうという滑稽な状況になります。このため、ロボットが発話中にはマイクをオフにするという動作になっているのです。エコーキャンセラーを使うことで、スピーカーの音声がマイクに回り込むことを防ぐことができるため、このような自己発話キャンセルにも利用することができます。

エコーキャンセラーの2つの方式

エコーサプレッサー方式

スピーカーから音声が再生中にはマイクをオフにするシンプルな仕組みです。完全にオフにするのではなく、マイクの音量を下げることで、マイクから取得される音声を弱めるように作られている場合もあります。この方式では、ウェブ会議の場合は、同時に一人しか発話できなかったり、複数人が発話すると聞こえにくくなったります。音声認識ロボットの場合は、ロボットが発話中に、ユーザーからの音声命令を受け付けることができなくなり、ロボットの発話が終わるまでユーザーは待たなければならなくなります。どちらの場合も好ましい UX ではないため、当社ではこの方式単独で採用することはほぼありません。

技術的イラスト 技術的イラスト

適応エコーキャンセラー方式

スピーカーから再生された音声を参照音声として使い、マイクに回り込んできた参照音声成分を推定し、マイクの入力信号から除去する方式です。部屋の形や、スピーカーとマイクの位置関係などによってマイクに回り込んでくるスピーカーの音声成分は変わってきます。お風呂場で自分の声が反響(エコー)することを想像してください。スピーカーから再生された音声と、マイクに回り込んできた音声が変わることが分かると思います。 このため、参照音声をヒントとして使いながらも、マイクに回り込んできた参照音声「成分」を推定する必要があるのです。

この方式を用いることで、ウェブ会議では参加者全員が自由に発話することができますし、音声認識ロボットの場合は、ロボットが長セリフを喋っている途中に、ユーザーが音声指示を出すことが可能になります。ロボットとの対話で、このようにロボットの発話を遮って音声認識させることを「バージイン(barge-in)」と呼びます。最近の音声認識対応ロボットなどの多くはバージインに対応したものとなっています。

当社の XFE EC はこの適応エコーキャンセラー方式を採用しています。

技術的イラスト 技術的イラスト

エコーキャンセル技術が使われる場面

音声対話ロボット、サイネージ、スマートスピーカー

バージイン対応のために利用されます。例えば、スマートスピーカーがネットニュースを読み上げている場面を想像してみてください。長いネットニュースの読み上げを途中で停止することができなけばとても不便です。システムが発話中であっても、ユーザーが任意のタイミングで話しかけることができる、というのは自然な音声対話UXを実現するために必須機能であると言えます。

駅案内ロボットでもバージイン対応は行われています。高残響・騒音環境で安定的なバージイン対応が実現されています。

Tumblerでもバージインは実現されています。Tumblerは16個のマイクがあり、それぞれに適応エコーキャンセル処理を行う必要があるため、かなり大きな計算量となりますが、様々な実装上の工夫や最適化を行うことで、組込CPUでのリアルタイム動作を実現しています。

ウェブ会議システム

ウェブ会議システムにおいてハウリングを防止するために利用されます。専用ハードウェアとして提供される場合と、XFE EC のようにソフトウェアとして提供される場合があります。
当社では、EC ライブラリ単体での提供に加えて、[仮想音声ドライバ](あれば)に組み込まれたより利用しやすい形で提供することもできます。

ウェアラブルデバイス・スマートフォン

ウェブ会議システムと同様に、ウェアラブルデバイスやスマートフォンにおいてもスピーカーが搭載されている場合、ハウリング防止のためにエコーキャンセラーが利用されます。特にウェアラブルデバイスではバッテリー消費を抑えるために、アルゴリズムの軽量化の工夫や、DSPへのオフロードが行われる場合があります。

XFE EC の特徴

環境変化への高速収束

会議室の配置変化、会議テーブル上の配置変化、マイク・スピーカー位置関係の変化など、エコーが発生する室内環境は私たちの想像以上に変化しています。これらの変化に対して、XFE EC は高速に追従し、エコーキャンセル性能の劣化を生じさせません。

リアルタイム動作、計算力に応じた調整

高速収束性能を持つエコーキャンセル処理は比較的計算量の大きい処理です。特に多チャンネル信号に対してエコーキャンセル処理を行わなければならないとき大きな計算力が必要となります。組込環境などで計算力が限られるとき、XFE EC の設定を調整することで、性能劣化を最小限にして、計算量を大きく削減することができます。この他、バッテリー動作が必要となる環境では、収束速度を調整することで、さらに大きく計算量を削減することが有効である場合があります。

高い残響耐性

お風呂場や大きなホールのように、室内残響が大きい(残響時間が長い)場合、エコーキャンセル性能が劣化する場合があります。XFE EC では、設定に応じて、計算資源が許す限り後期残響に対してもエコーキャンセルを試みることができます。

非線形後処理対応

XFE EC は線形処理であり、参照信号が正確である限り出力信号を劣化させません。利用環境に依存して、聴感上エコー成分が残っているとき、後段処理として、非線形処理を任意の強さで加えることができます。後段処理は出力信号を劣化させますが、聴感上の残留エコーを強く抑制することができます。

mimi®︎ の
全体像を知りたい

mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎クラウドAIについて知りたい方はこちら。