フロントエンド処理 mimi®︎ XFE

LOC概要

LOC は、XFE モジュールの名称で、Localizer(ローカライザー;音源定位器) の略語です。複数マイクを利用して、音声が到来した方向を推定することができる機能です。

1つの音源を複数のマイクで観測すると、それぞれのマイクと音源との距離が異なるため、それぞれのマイクで観測される音声には時間差が生じます。この時間差を使って、音源の方向を推定することができます。

技術的イラスト 技術的イラスト

音源定位技術の利用シーン

対話ロボット・サイネージ

音声対話ができる固定型のロボットやサイネージでは、そのロボットやサイネージに対して、正面方向から到来した人間の声にのみ反応したい場合があります。
例えば、駅案内ロボットでは、駅の天井に設置されたスピーカーや、ロボットの横・真後ろなどから聞こえてくる音声には反応するべきではありません。ロボットの正面に立って、ロボットに話しかけている人の声にだけ反応するべきです。音声対応のサイネージも同様です。

これは、本質的には自分に話しかけられている場合にのみ反応するべきであるということです。ロボットが自分に話しかけられているか否か?を判定するために、もっともシンプルには、自分の真正面から音声が到来したかという基準で判定することができます。それに加えて実際のロボットでは、カメラを援用することで正確性を高めています。

技術的イラスト 技術的イラスト

移動式ロボット

移動式ロボットの場合、どの方向から声を掛けられたかという情報に基づいて、その方向に移動したり、その方向にロボットの身体を回転させることができます。
家庭内等の静かな環境であれば、LOCのみでも十分な精度を出すことができますが、ショッピングモール等の雑音の多い環境では、LOCに加えて、360度カメラを援用することで正確性を高めています。

人間が呼んだ方向に来る、回転するなどの動作は、ロボットと人間の愛着を深める上で有効な手段であることが分かっており、自然なUXを実現する上で大切な機能のひとつです。

技術的イラスト 技術的イラスト

会議システム・対面カウンター集音システム

会議システムでは、会議テーブルの真ん中等に設置されたマイクによって、どの方向から発言がなされたかを解析することができます。席が固定されている場合は、方向のみで誰が発言したのかを特定することができますし、話者識別と組み合わせ事前に学習された音声と比較することで、誰の発言であったかを確実に識別することも可能です。

銀行の窓口などの対面カウンターでは、窓口担当者とお客様が向き合って着席しています。LOCを使うことで、どちらの人が発話したのかを分けて記録することができます。また、発言がなされた方向にビームフォーミングを行うことで、その方向の音声を強調して集音することができます。これにより、銀行の窓口などの高騒音環境下においても、正確な集音と音声認識を実現することができます。

XFE LOCの特徴

任意のマイク数とマイク配列への対応

デバイスへの組込を考慮した設計であり、任意のマイク個数や配置に対応しています。ただし、マイク数が少ない場合は、音源定位の解像度は低くなります。

100ms ごとの判定

連続的なストリーム音声に対して、100msごとに音源定位結果を返します。組込環境でも高速に動作するリアルタイム性があります。

高い耐ノイズ性

周辺ノイズに対して高い耐性があります。また、人間の声に特化した音源定位を行うことでさらに騒音耐性を高めることができます。

同時複数音源定位・立体定位への対応

複数の音源が同時に発生する場合、それぞれの方向を同時に特定することができます。ただし、音源数に対して十分なマイク数が必要となるため、マイク数が少ない場合には安定した結果が得られない場合があります。また、マイク配置を工夫することで、音源の到来方向を平面角ではなく立体角として推定することもできます。これは、ロボットの顔の向きを決定する場合などに特に有効です。

技術的イラスト 技術的イラスト

mimi®︎ の
全体像を知りたい

mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎クラウドAIについて知りたい方はこちら。