当社 T シリーズマイクアレイの代表製品
「周辺雑音が大きい環境で、狙った音だけをクリアに集音したい」「音声が到来した方向を知りたい」「デジタルサイネージの音声認識性能を向上したい」など実製品で求められる要望を実現するために、複数のマイクを利用することが有効です。複数のマイクが並んで配置され、同時に複数マイクの信号を取得できる装置のことを「マイクアレイ」といいます。「アレイ(Array)」とは、同種の物が複数個整然と並んでいる様子を表す英単語で、「マイクアレイ」の場合、複数のマイク素子が並んでいるということを意味しています。
1個のマイクからの入力信号は1ch(チャンネル)信号、もしくはモノラル信号と呼ばれます。ステレオ音声という言葉は有名ですが、ステレオ信号は左と右の音声ですので2ch信号です。3ch以上の信号は多チャンネル信号と呼ばれ、マイクアレイの出力も多チャンネル信号です。4個のマイク素子を装備したマイクアレイであれば、出力信号は4chとなりますし、16個のマイク素子を装備したマイクアレイであれば、出力信号は同様に16chとなります。
マイクアレイの性能は、マイク素子数とマイクの配置によって決まります。マイク素子数が多ければ多いほど性能は高くなりますし、マイク配置によって集音方向の特性をコントロールすることができます。
当社では T-03 と T-03C という2種類の組込用マイクアレイ製品を提供しています。どちらのマイクアレイもレイアウトフリーのマイクアレイであり、自由なマイク配置を実現することができます。このため、搭載する機器の大きさや、形成したい集音方向の特性に応じた最適配置を実現することができます。どちらのマイクアレイ製品も音声エッジAIの XFE と連動することで最大の性能を発揮することができます。
T-03 は、車載レベルの高い信頼性や耐ノイズ性を備えたレイアウトフリーのマイクアレイであり、マイク素子数は 8ch~64ch 以上まで対応し、アレイの大きさは数センチメートルから数十メートル以上まで拡張することができます。車載機器、航空機器、工場設備機器や、無人の遠隔地等に設置され長期間の無停止が求められる場合など、ミッションクリティカルな用途に向いています。
T-03C は T-03 の耐ノイズ性能や拡張性に一定の制約を設けることで、同等の機能を持ちつつもコストを下げた普及帯の製品です。4ch~64ch まで対応し、アレイの大きさは数センチメートルから数メートルまで対応します。音声対応デジタルサイネージ、電子黒板、音声対話ロボットなどの一般用途に向いています。
従来販売していた T-02 マイクアレイは販売を終了いたしました。T-02 に対しては T-03C が上位互換品となり、従来のソフトウェアをそのままご利用いただくことが可能です。
USB 接続のレイアウトフリーマイクアレイです。48k/16bit での録音に対応します。マイク素子数は 4ch ~ 36ch まで対応しています。マイク基板は小型で組込用途に適しています。各マイクと本体とは一般の LAN ケーブルで接続します。最大で 10m の LAN ケーブルまで対応していますので、大きなアレイを作ることができます。
1つの本体にはマイクを最大 9 個まで接続することができます。本体同士は 4 台まで同期連結することができるため、最大で本体 4 台(マイク合計 36 個)までの拡張が可能です。
マイク入力は、別基板を利用することで、アナログ信号入力に置き換えることができます。つまりマイクの代わりにアナログ音声信号の入力を与えることができます。これはループバック信号として利用することができます。スピーカーから出力される信号をループバック信号として本体に戻すことで、エコーキャンセル( [XFE EC] )機能を利用して、マイク入力に回り込むスピーカーの再生信号をキャンセルすることができます。
パソコン側は仮想ドライバ(Windows 対応)を利用することで、マイクアレイの入力を ZOOM 等の一般のアプリケーションにも与えることができるようになります。このため、マイクアレイとしての利用だけでなく、各チャネルを独立したチャネルとして取り扱った上、会議卓に設置するような複数の個別マイクとしても利用することができます。
音声対応デジタルサイネージ、電子黒板、音声対話ロボット、音声対応家電、会議システムなど、あらゆる一般応用向けに最適です。
USB 接続のレイアウトフリーマイクアレイの上位機種です。48k/16bit での録音に対応します。マイク素子数は 4ch~64ch 以上まで対応しています。マイクユニットは 4ch が 1 つのユニットにまとめられており、各マイクユニットと本体とはツイストペアケーブル(RJ11)で接続します。最大で 30m 程度のツイストペアケーブルまで対応していますので、さらに大きなアレイを作ることができます。主要回路に EMC を考慮した車載部品を利用しており、高い信頼性を持っています。
マイク入力は、別基板を利用することで、アナログ信号入力に置き換えることができます。つまりマイクの代わりにアナログ音声信号の入力を与えることができます。これはループバック信号として利用することができます。スピーカーから出力される信号をループバック信号として本体に戻すことで、エコーキャンセル( [XFE EC] )機能を利用して、マイク入力に回り込むスピーカーの再生信号をキャンセルすることができます。
T-03 は、ツイストペアケーブルを介して音声出力を行うことにも対応しています。音声再生系も T-03 のみで準備できます。
パソコン側は仮想ドライバ(Windows 対応)を利用することで、マイクアレイの入力を ZOOM 等の一般のアプリケーションにも与えることができるようになります。T-03 内蔵の音声出力機能を利用する場合、ループバック信号は内部的に取得されるので外部入力を利用する必要はありません。
車載機器、航空機器、工場設備機器や、無人の遠隔地等に設置され長期間の無停止が求められる場合など、高信頼性が求められる用途に最適です。
T-03C | T-03 | |
---|---|---|
外部インターフェース | USB 2.0 (USB CDC) | USB 2.0 (USB Audio Class 2) |
最小マイク数 | 4 | 8 |
最大マイク数 | 36 | 64 以上 |
入力音声形式 | 48k/16bit PCM | 48k/16bit PCM |
アレイ最大開口 | ~10m | ~50m |
音声出力 | - | 48k/16bit PCM 1ch |
外部入力 | 任意個 | 1 |
電源 | 5V/1A | 5V/1A |
XFE 対応 | 〇 | 〇 |
仮想ドライバ対応 | 〇 | 〇 |
EMC 対応 | - | 〇 |
マイクの指向性とは、ある特定の方向の音を強く、別の方向の音を弱く録音するというような、録音されやすい方向を表す指標です。カラオケマイクなどのハンドマイクは「単一指向性」マイクに分類され、マイクの正面方向に緩い指向性があります。テレビ放送などで見られるような大きなマイクは「鋭指向性(超指向性)マイク」(ガンマイクやズームマイクと呼ばれています)に分類され、正面方向により鋭い指向性があり、正面以外の音声は弱まります。
これらは指向性のあるマイクですが、ノートパソコンに内蔵されているマイクや、イヤホンに内蔵されているマイクなどの小型マイクは「無指向性マイク」に分類され、全方位の音声を同じように集音します。
マイクアレイに利用するマイクは「無指向性マイク」を利用します。複数マイクの信号を利用してソフトウェア処理で指向性を形成するため、マイク自体に物理的な指向性を持たせる必要はありません。
そもそも、マイクに物理的な指向性を持たせるためには、マイク素子の周辺に音響的に特別な構造を持たせる必要があり、物理的にある程度の大きさ(カラオケマイクのような大きさ)が必要になります。MEMS マイクに代表される小型マイク素子では、そのような物理構造を持たせることができないため、物理的指向性を形成させることはできません。
では、音声対話ロボットなどに単一指向性マイクやガンマイクを搭載することで周辺雑音を抑制するということは現実的でしょうか?これは、多くの場合では現実的ではありません。単一指向性マイクでは、指向性が十分ではなく周辺雑音を十分抑制できませんし、ガンマイクやズームマイクについては、そもそもマイク自体が大きすぎる場合があることや、指向性がソフトウェア的に制御できないため、ユーザーの発話している場所が指向角の向きを外してしまった場合に、むしろ逆に集音性能が悪化するなどの問題があります。
パソコンの世界では、マイクなどの周辺機器は「ドライバ」というソフトウェアによってコントロールされています。ドライバというソフトウェアは、パソコンの中で普通のプログラムが動作する領域である「ユーザー領域」ではなく、Windows などの OS が動作する領域である「カーネル領域」で動作しています。カーネル領域で動作するプログラムは、OS と一体なって動作しており、一部でも不具合が発生すると OS ごとクラッシュしてパソコン全体が強制終了してしまうというクリティカルなプログラムです。OS のセキュリティ保護機能を回避することもできてしまうため、ドライバの開発と提供には複雑な開発工程と手順が必要で、最終的には Microsoft 等の OS ベンダーの明示的な承認が必要です。
ユーザー領域で動作する一般のプログラムは、周辺機器を利用するときに、このドライバを介して周辺機器にアクセスしています。つまり、マイクから音声を収録したいときには、一般のプログラムは、OS に対して「音声を録音せよ」という命令を発行し、OS がマイクドライバに対して「音声を録音せよ」という命令をさらに伝えて、マイクドライバが物理マイクから音声を録音して OS に渡し、最終的にユーザープログラムに渡されます。
一般的な USB マイクであれば、「USBオーディオドライバ」という OS に標準搭載されているドライバが利用されるため、ドライバを別途インストールする必要はありませんが、新しい周辺機器を購入したときに、専用のドライバソフトウェアをインストールしなければならなかったという経験のある方も多いでしょう。
ここで、ドライバには必ずしも物理デバイスが接続されている必要がないということが重要な点となります。つまり、ドライバは、OS からの要求に従って何らかのデータを返せばよく、物理デバイスの有無は OS にとっては関係のないことです。マイクの例でいえば、OS から録音命令を受け取ったときに、音声データを返せば十分であり、その音声データは物理マイクから集音された音声でなくても、自分で生成したデータでも良いのです。
仮想マイクドライバ「Fairy Virtual Mic」は、まさにこのような物理デバイスに紐づかないマイクドライバです。物理に紐づかないことから「仮想」ドライバと呼ばれます。仮想マイクドライバの入力となる音声は物理マイクによって収録された音声ではなく、ユーザー領域で動作する別の一般のプログラムから与えられる音声です。言い換えれば、入力は音声データであり、出力も音声データであるようなマイクドライバです。
仮想マイクドライバにとって入力側となる一般プログラムは、用途に合わせて新たに開発するべきもので、物理マイクドライバを掴んで音声を録音する一般的な実装を行い、そのアプリケーション内で、録音した音声を、OS を介して仮想マイクドライバに与えることができます。このアプリケーションは自由に実装することができるため、mimi® クラウドと接続して音声認識を実行したり、結果を保存・表示したりすることができます。
T-03 や T-03C は、パソコンと USB ケーブルで接続します。それぞれ USB ドライバによって制御されますが、パソコン側では多チャンネル信号を受信します。多チャンネル信号そのままでは、一般のアプリケーションに渡しても有効活用することはできません。このため、多チャンネル信号を一旦仮想マイクドライバで受け、仮想マイクドライバ内で XFE による適切な信号処理を行い、その結果を改めて仮想マイクドライバの出力として、一般のアプリケーションに受け渡します。複雑な仕組みにも見えますが、一度勘所を掴んでしまえばむしろシンプルな枠組みです。このような仕組みを持つことで、パソコン上で任意の [XFE] 処理を行うことができるため、応用用途に合わせて高度な処理を簡単に実現できるようになります。
仮想マイクドライバにとって出力側となる一般のプログラムは、既製プログラムです。ZOOM や Microsoft Teams 等のビデオ会議アプリケーションを利用した場合、それらのアプリケーションの設定で、マイクを選択することができますので、「Fairy Virtual Mic」を選択するだけです。
物理マイクの入力側と、ZOOM 等の最終利用アプリケーションとの間に仮想マイクドライバを挟みこむことで、音声を途中経路からキャプチャーしているということになります。
Fairy Virtual Mic はユーザー領域で利用できる SDK を提供しており、SDK を使うことで入力側となるプログラムを簡単に開発することができるようになります。また、SDK には XFE EC 機能が組み込まれているため、ビデオ会議等で厄介な問題となるハウリングを回避することができます※
ユニークな利用方法として、出力音声自体を加工することも可能です。入力側プログラムが、仮想マイクドライバにどのような音声を与えるかは自由であるということを思い出してください。つまり、ボイスチェンジャーのようにリアルタイム加工した音声を与えることもできますし、クラウド音声翻訳機能を組み込むことで、日本語で話された内容を認識翻訳合成して、外国語の音声として仮想マイクドライバに与えることも可能です。速度面や性能面で十分に実用的であるとは言えないかもしれませんが、ユニークな利用方法のひとつです。
※利用環境によっては完全に回避することができない場合もあります
対応OS:Windows 10, Windows 11
出力形式:16kHz(16bit), 48kHz(16bit) PCM 1ch
制御可能項目:ミュート、ボリューム
開発SDK:仮想マイクドライバへの音声データ出力機能、エコーキャンセル機能(XFE EC)、マイク状態変更機能、マイク状態変更イベント検知機能