クラウド型言語識別サービスである mimi® LID は、日本語を基軸言語として NICT(国立研究開発法人情報通信研究機構)にて研究開発されている最新のニューラル言語識別エンジンを搭載し、12言語に対応した言語識別機能を提供しています。
対応言語は、日本語・英語・中国語・韓国語・ベトナム語・タイ語・インドネシア語・ミャンマー語・フランス語・スペイン語・ブラジルポルトガル語・フィリピン語です。多言語対応が必要な自治体窓口等や駅案内ロボット等、実環境での幅広い利用実績があります。
言語識別技術とは、人の発話が何語であるかを入力音声のみから識別する技術をいいます。従来は10秒程度の長い発話でなければ正確に識別することが困難であったため、実際の音声アプリケーションで利用されることはほぼありませんでした。このため、事前に入力言語を GUI を使って選択させる必要がありました。これに対して mimi® LID では、言語識別に必要な音声特徴量を精度よく抽出しつつも高速に処理することが可能なニューラルネットワークを利用することで、発話先頭 1.5 秒程度の音声のみを使って 9 割以上の精度で何語であるかを識別することができます。これによって、事前に言語を指定させることなく音声認識や機械翻訳を行うことができるようになります。
公衆環境で利用される音声対応のデジタルサイネージでは、事前に言語を設定させる一手間を排除することができるため、音声対話を開始するための障壁を大幅に低くすることができます。上の囲み記事でも解説していますが、言語識別がない場合、① GUI を理解し、② 言語を設定し、③ マイクボタンを押して発話を開始する、といった3ステップが典型的に必要となります。②と③をひとつにまとめることもできますが、音声録音がいつから開始されるのかが分かりにくくなり混乱をきたす場合があります。
これに対して、言語識別がある場合、音声対応デジタルサイネージは、常に音声録音状態としておくことができ(実際には mimi® LOC(音源定位)や顔検出を組み合わせることでユーザーがサイネージの前にいるときにしか音声録音は有効ではない形とすることが多い)、上記の3ステップ全体を省くことができます。音声対話システムの有効性は「簡単に、直観的に使える」という点に大きく依存するため、このようなシステム全体の簡略化は音声 UX として極めて重要な観点であると言えます。
また、画面がないデバイスや、画面のない音声対話ロボット等の場合は、そもそも GUI で言語設定をさせることができないため、言語識別技術は基本的に必須の要素技術となります。
日本語を基軸として開発された
純国産音声認識エンジンmimi® LID は、NICT(国立研究開発法人情報通信研究機構)による長年の研究成果に基づき開発された純国産の言語識別エンジンです。日本国内でよく使われる12言語に対応しています。
実環境での利用実績mimi® LID は、駅案内ロボットをはじめ、公衆環境での幅広い利用実績があります。現実的な騒音環境下においても高い識別性能を維持することができます。
音声認識サービスとのサーバーサイド統合mimi® LID は mimi®︎ ASR と組み合わせて利用することができます。mimi®︎ ASR での入力言語指定を自動検出としたとき、自動的に mimi® LID が動作して、言語を特定した上で、当該言語の音声認識器により認識結果を返します。これにより開発者は、mimi® LID の存在を意識することなく、音声認識サービスを利用することができるようになります。
短発話での高い精度の言語識別1.5秒程度の短い音声に対して、90%以上の言語識別率を持ちます。これにより、ユーザーには、言語識別器が介在していることを意識させずに、事前に言語設定がなされている場合と同等の応答速度を実現することができます。
ログインするだけですぐに mimi®︎ クラウドAIを無償評価利用することができます。
プログラミングの知識不要。APIコンソールでは簡単な画面で試すことができます。
mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎エッジAIについて知りたい方はこちら。