音声のみの通信量は、1ch音声(モノラル音声)であれば256kbps~768kbps程度となり、可逆圧縮を行うとその半分程度、非可逆圧縮形式を利用すると1/10程度まで落とすことができます。
モノラル音声の場合、この程度の通信量であれば実質的に問題はありませんが、弊社のマイクアレイ開発キットや、THINKLET®︎のように、複数のマイクを備えたデバイスではこの通信量が無視できない量となります。例えば、マイクが8個備えられているとすると、通信量は約3Mbpsとなり全く無視できません。多チャンネル音声を使って雑音を除去する処理を行う場合、基本的には非可逆圧縮形式を利用することができないため、圧縮によってデータ量を削減することができません。
特にモバイル回線を利用した通信を行う場合には、音声のみでこのような通信量を使うことは許容されません。このため、下図のように多チャンネル音声信号に対してデバイス上でフロントエンド処理を行ってモノラル音声にしたのち、サーバーに送り出すということが有効となります。通信容量が無制限の高速有線LAN環境等においては、多チャンネル音声信号をそのままサーバーに送り処理させるということも可能ですが、その場合であっても高々4ch程度で処理される場合が一般的です。