言語識別 mimi®︎ LID

入力音声から、その音声の言語を自動識別します

すぐにクラウドAPIを利用したい方はこちら

概要

クラウド型言語識別サービスである mimi® LID は、日本語を基軸言語として NICT（国立研究開発法人情報通信研究機構）にて研究開発されている最新のニューラル言語識別エンジンを搭載し、12言語に対応した言語識別機能を提供しています。

対応言語は、日本語・英語・中国語・韓国語・ベトナム語・タイ語・インドネシア語・ミャンマー語・フランス語・スペイン語・ブラジルポルトガル語・フィリピン語です。多言語対応が必要な自治体窓口等や駅案内ロボット等、実環境での幅広い利用実績があります。

言語識別とはどのような技術か？

言語識別技術とは、人の発話が何語であるかを入力音声のみから識別する技術をいいます。従来は10秒程度の長い発話でなければ正確に識別することが困難であったため、実際の音声アプリケーションで利用されることはほぼありませんでした。このため、事前に入力言語を GUI を使って選択させる必要がありました。これに対して mimi® LID では、言語識別に必要な音声特徴量を精度よく抽出しつつも高速に処理することが可能なニューラルネットワークを利用することで、発話先頭 1.5 秒程度の音声のみを使って 9 割以上の精度で何語であるかを識別することができます。これによって、事前に言語を指定させることなく音声認識や機械翻訳を行うことができるようになります。

スマートフォンや音声翻訳専用機など特定の個人が利用するデバイスの場合、事前に言語設定をしておくことは UX として問題がありません。しかしながら、駅案内ロボットや音声対応デジタルサイネージなど公衆環境に設置され不特定多数が利用するデバイスの場合、毎回言語を設定させるという GUI は非常に煩雑なものになります。ユーザーはまず最初に、そのデバイスの GUI を理解して、言語を設定するという操作をタッチパネル等で行う必要があります。これに対して言語識別技術が導入されたデバイスであれば、ユーザーは単に発話をするだけで良いため、極めて直観的な利用が可能となります。

言語設定を行うという操作は本来は不要であるがゆえに、今後の多言語対応システムにおいて、言語識別機能は必須の機能になってくると考えられます。

言語識別技術の利用シーン

音声対応デジタルサイネージ・音声対応ロボット

公衆環境で利用される音声対応のデジタルサイネージでは、事前に言語を設定させる一手間を排除することができるため、音声対話を開始するための障壁を大幅に低くすることができます。上の囲み記事でも解説していますが、言語識別がない場合、① GUI を理解し、② 言語を設定し、③ マイクボタンを押して発話を開始する、といった３ステップが典型的に必要となります。②と③をひとつにまとめることもできますが、音声録音がいつから開始されるのかが分かりにくくなり混乱をきたす場合があります。

これに対して、言語識別がある場合、音声対応デジタルサイネージは、常に音声録音状態としておくことができ（実際には mimi® LOC（音源定位）や顔検出を組み合わせることでユーザーがサイネージの前にいるときにしか音声録音は有効ではない形とすることが多い）、上記の３ステップ全体を省くことができます。音声対話システムの有効性は「簡単に、直観的に使える」という点に大きく依存するため、このようなシステム全体の簡略化は音声 UX として極めて重要な観点であると言えます。

また、画面がないデバイスや、画面のない音声対話ロボット等の場合は、そもそも GUI で言語設定をさせることができないため、言語識別技術は基本的に必須の要素技術となります。

mimi® LID の特徴

日本語を基軸として開発された
純国産音声認識エンジンmimi® LID は、NICT（国立研究開発法人情報通信研究機構）による長年の研究成果に基づき開発された純国産の言語識別エンジンです。日本国内でよく使われる12言語に対応しています。
実環境での利用実績mimi® LID は、駅案内ロボットをはじめ、公衆環境での幅広い利用実績があります。現実的な騒音環境下においても高い識別性能を維持することができます。
音声認識サービスとのサーバーサイド統合mimi® LID は mimi®︎ ASR と組み合わせて利用することができます。mimi®︎ ASR での入力言語指定を自動検出としたとき、自動的に mimi® LID が動作して、言語を特定した上で、当該言語の音声認識器により認識結果を返します。これにより開発者は、mimi® LID の存在を意識することなく、音声認識サービスを利用することができるようになります。
短発話での高い精度の言語識別1.5秒程度の短い音声に対して、90%以上の言語識別率を持ちます。これにより、ユーザーには、言語識別器が介在していることを意識させずに、事前に言語設定がなされている場合と同等の応答速度を実現することができます。