BF は、XFE のモジュール名で、Beamformer(ビームフォーマー)の略語です。複数マイクを利用して、特定の方向(目的方向)から到来した音声のみを強調し、その方向以外(非目的方向)から到来した音声を弱めます。これにより、騒音環境下などで、狙った音声だけを集音することができるようになります。
ビームフォーマーは、前段処理と後段処理に分かれます。前段処理は線形フィルタ処理と呼ばれる処理で、複数マイクの入力信号から、狙った方向の音声のみを強調した音声信号を算出する処理です。この処理には副作用がないため、処理済み音声に変な歪みや独特の人工的なノイズが乗ることはありません。その反面、線形フィルタ処理だけでは非目的方向の音声を抑圧する性能は一定に留まります。
後段処理は、非線形処理と呼ばれる処理で、線形フィルタ処理の結果を受けて、非目的方向の音声をさらに強く抑圧するための処理です。非線形処理は副作用のある処理で、強く抑圧しすぎると、処理済み音声に歪みが導入されてしまいます。後段処理は、非目的方向の音声をできるだけ強く抑圧し、目的方向の音声信号にはできるだけ歪みを導入しないように進化し続けており、XFE ではニューラルネットワークを使うことで副作用を最小化し、抑圧性能を最大化するように工夫されています。
音声対話ができる固定型のロボットやサイネージは、屋外の道路端や、ショッピングモール、駅構内など高い騒音環境下に設置されることが多くあり、単一マイクからの集音ではノイズが大きすぎて正確な音声認識を行うことが困難です。
このようなとき、ロボットやサイネージの正面方向を目的方向として、正面方向から到来した音声のみを強調して集音し、正面方向以外の方向から到来した音声を抑圧することが有効です。実環境でのノイズは、全方向から到来している場合が多くあり、目的方向以外の音声を抑圧することで大きな効果を得ることができます。
LOCや、カメラを援用した顔領域検出機能と組み合わせることで、漠然と正面方向ではなく、実際の音源の方向に目的方向を調整し、より高い集音性能を達成することもできます。ただし、集音範囲を厳しく制限しすぎると、その方向からズレたときに集音できなくなるため、集音範囲と音源追跡範囲の設定には注意が必要です。
当社では、ハードウェアや周辺環境に合わせたマイク配置の方法や、集音範囲の設定などのご相談から承ることができます。
銀行の窓口などの対面カウンターでは、窓口担当者とお客様が向き合って着席しています。それぞれの方向を目的方向として集音することで、隣の窓口の会話などを抑制して集音することができます。
LOCと組み合わせることで、窓口担当者とお客様のどちらが発話したかを判定することができるので、対面カウンターの音声記録・会話ログを作成する場合に特に有効です。Tumblerでは、LOCとBFを組み合わせた利用が可能です。
ウェアラブルデバイスやワイヤレスイヤホンでは、装着者の声のみを集音したい場合があります。
ワイヤレスイヤホンのように小さなデバイスでは、マイク同士の間隔を大きく取ることができないため十分な音声強調性能を出すことはできませんが、装着者の方向におおまかな指向性を出すことはできます。そのようなおおまかな指向性であっても、例えば新幹線の中のように、ほぼ全方位からノイズが到来するような環境ではかなりの有効性があります。
THINKLET®︎のように、マイク性能に特化して開発されたウェアラブルデバイスでは、工事現場や工場など極めて高い騒音環境においても、周辺ノイズを抑制し、装着者の声だけをクリアに集音することができます。これは、音声通話の快適性の工場や、音声認識性能の向上を実現する上でのキーテクノロジーとなります。
当社では、指向性を出したい方向とデバイスの筐体設計に合わせて、最適なマイク配置のコンサルティングとシミュレーションから承ることができます。
デバイスへの組込を考慮した設計であり、任意のマイク個数や配置に対応しています。ただし、マイク数が少ない場合やマイク間隔が小さい場合などは、BFの効果は限られる場合があります。
組込環境においても、高速かつリアルタイムに動作することができます。一般的な組込環境であればフルスペックで動作させることができますが、特に計算資源が限られた状況のときにも、軽量版の提供を行うことができます。
既に設計済みの筐体に後からマイクを埋め込むことは困難です。マイクを設置するには、可能な限り筐体表面にマイク部品を近づけ、マイク穴の長さを短くすることが重要です。既に設計されてしまった筐体では、そのような位置にマイクを配置することができず、筐体内部にマイクがもぐることによって、マイク穴が長くなってしまうことが多くなります。
極端な事例では、マイクを配置できる場所が、内蔵コンピューター基板の冷却ファンの隣しか残っていないことがありました。冷却ファンの風切りノイズがマイクに直撃してしまうため、どれだけ音声信号処理を頑張ってもノイズを取り切ることはできませんでした。
他の事例では、背の高い大型筐体だったのですが、ただ1つのマイクを配置できる場所が、人間の身長を大きく超えた高さの箇所しかなく、ユーザーの目の前に筐体があるにも関わらず、かなり上を向いて話さないと性能が出ないといったことがありました。
これらの事例はどちらも先に全体設計が完成しており、後から音声認識対応したいという案件として持ち込まれた事例です。
シングルマイクであっても前述したマイク穴の問題や、筐体自身が発するノイズをどのように防ぐかといった課題があります。さらに BFやLOCを利用したいときには、複数のマイクを配置する必要がありますし、指向性を出したい方向によっては、マイク配置に幾何的制約が与えられる場合もあります。これらの課題をクリアして、性能の高い音声認識対応ハードウェアを実現するために、マイク配置の設計は全体設計の前半で行うことをおすすめします。
mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎クラウドAIについて知りたい方はこちら。