組込音声認識器
mimi®︎ ASR

デバイス内に組込める音声認識エンジン

概要

mimi®︎ ASR は、mimi®︎ が提供する音声認識(Automatic Speech Recognition)エンジンです。クラウドAPIとしての提供と、組込音声認識器としての2種類の形式で提供することができます。

組込音声認識器は、インターネット接続を必要とせず、デバイス内で音声認識処理を実行することができる仕組みです。XFEと組み合わせることで、高騒音環境下においても、高速で精度の高い音声認識を実行することができます。

組込環境は一般に計算資源が限られるため、どのような発話であっても高精度に認識できるいわゆる大語彙連続音声認識器を搭載することは困難です。その代わり、認識対象となる単語や文章のパターンに制約を加えることで、認識モデルサイズを削減し組込環境に搭載できるようになるだけではなく、高速・高精度を両立することができるようになります。組込音声認識器向けに開発した認識モデルをクラウドに搭載することもできます。

組込音声認識器は、標準では日本語の対応のみとなります。外国語の組込音声認識器が必要な場合は別途ご相談ください。

組込音声認識器の種類

孤立単語認識器(コマンド&コントロール形式)

事前に音声認識したい対象となる「単語」を列挙して登録しておきます。音声認識器は、どの「単語」が発話されたかを推定し、その単語を出力します。事前に登録された単語を1個出力するだけであるため、「孤立」単語認識と呼ばれます。孤立単語認識器は、1990年~2000年代のカーナビゲーションシステムなどで典型的に利用されていた仕組みで、同時にひとつの単語しか認識できないことから、UX としての自由度が低く、現在では複数単語を連続的に認識できる連続音声認識方式に主流は移り変わっています。

しかしながら、現代においても孤立単語認識が有効な場面はあります。例えば、音声による点検作業支援システムなどです。システム側が音声点検を主導するような仕組みの場合で、ユーザーが、システムの音声指示にしたがって測定結果や確認結果の数値等のみを読み上げるような場合、発話内容が単語レベルにまで限られるので、孤立単語認識で十分です。孤立単語認識器は、認識しなければならない単語の数が限られることから、工場や化学プラント等の高騒音環境においても高い認識精度を実現することができるため、積極的に利用することができます。連続音声認識においては通常後段に配置される意図推定器が不要となるため、システム全体の反応が高速になるというメリットもあります。

登録する「単語」としては、一般的な単語ではなく、短文を登録させることもできます。例えば以下のようなリストを登録しておきます。単語とその読み方を合わせて登録します。

技術的イラスト 技術的イラスト

制限パターン認識器(スロットフィラー形式)

事前に音声認識したい単語のリストと、文章のパターンを指定します。音声認識器は、どのパターンに該当するかを推定し、そのパターンで指定された単語リストのうち、どの単語が発話されたかを推定して、合わせて出力します。例えば以下のようなイメージとなります。

技術的イラスト 技術的イラスト

このように、パターンと、それぞれのパターンの可変部分を指定し、それぞれの可変部分で発話される可能性のある単語リストを登録しておきます。この可変部分を「スロット」と呼び、スロットを埋めるような動作となることから一般的に「スロットフィラー」と呼ばれます。

孤立単語認識器と比べて、制限パターン認識器の方が、発話の自由度が上がっています。騒音環境において、一般の大語彙連続音声認識と比較して高い精度を保つことができるという特徴は変わらず、後段の意図解析器も不要となることから高速動作も実現でき、音声対話システム等で採用されることも多い方式です。

組込音声認識が使われる場面

音声点検支援システム

音声点検システムでは、システム側が点検対象を指定し、ユーザーはシステムの指示にしたがって点検結果を発話するという UX となる場合があります。このようなとき、ユーザーの発話はほとんど単語レベルで留まるため、孤立単語認識器を利用することができます。前述の通り、孤立単語認識器は、騒音環境においても高精度かつ高速に動作するためシンプルなタスクに対してはむしろ好適な選択となります。

システムの指示にしたがって点検フローが進んでいく仕組みを、システムドリブン対話(システム駆動対話)と呼びます。システム側が対話の主導権を握っているという意味です。完全なシステムドリブンであれば、ユーザーの発話を単語レベルに留めることができますが、ユーザー側からの一定の自由度を持つ発話を許容したいときなどには、前述の制限パターン認識器を利用することも有効です。これにより、複数の点検項目を一度に発話したり、点検対象の発話順が任意になったりするため、音声点検作業のタクトタイムを短縮し、より効率化することができるようになります。

開発した孤立単語認識器や制限パターン認識器はクラウドに搭載することもできるため、インターネットに接続されている環境であれば、デバイスの計算力に依存しないことも可能です。

ウェアラブルデバイス、ワイヤレスイヤホン

ウェアラブルデバイスでは、ハードウェアを操作するために簡単な音声コマンドを利用したい場面があります。例えば、写真の撮影、動画の撮影・終了、動画撮影時間の確認、時刻の確認、タイマーの設定など、ハードウェア機能の操作です。このようなときには、わざわざインターネット接続をするまでもなく、デバイス内で簡単な音声認識を実現する方が好適です。利用用途に応じて、孤立単語認識器・制限パターン認識器のどちらも使用することができます。単体でインターネットに接続できる THINKLET®︎ のようなウェアラブルデバイスでは、細かくインターネットに接続しないことによって、LTE 通信のスリープ状態を継続しておくことができるようになり、バッテリー持続時間の観点でも有利です。

またインターネット接続速度によらず、常に超高速な応答を返すことができます。インターネット経由でも決して遅くはありませんが、最近の組込環境では、組込音声認識器は高速過ぎて、システムの応答がユーザーの発話終了直後に開始されることとなり、応答が早過ぎるという違和感が生じる場合があります。このような場合には、敢えて応答までに遅延を設けることで自然で気持ち良い対話のテンポを実現することもあります。

ワイヤレスイヤホンでは、Google Assistant 等のプラットフォーマーが提供する一般の音声アシスタントに接続される機能があることが一般的です。一般用途としては問題ありませんが、音声点検等特殊な用途に利用する場合は、スマートフォン上で動作する組込音声認識器を利用することが有効である場合もあります。ワイヤレスイヤホンにおいても、開発時点から XFEを組み込むことができれば、耐騒音環境性能を高めることもできます。

組込音声認識器の特徴

デバイス上で動作可能

組込音声認識器は、その名の通り組込みデバイス上で動作します。デバイスの計算資源に合わせてモデルサイズを柔軟に調整することができます。

孤立単語モデル・制限パターンモデルを利用することで高速・高精度の両立が可能

クラウド型音声認識器のような連続音声認識モデルではなく、孤立単語モデルや制限パターンモデルを利用することで、音声認識しなければならない組み合わせのパターン数が大きく減少するため、デバイス上の限られた計算資源でも高速性を維持することができます。パターン数が大きく減少するということはすなわち間違いにくくなるということであり、無調整のクラウド型音声認識器と比べて、孤立単語モデルや制限パターンモデルの音声認識性能は相対的に高くなります。これは特に高騒音環境では顕著に効いてくることが多く、プラントの音声点検支援システムなどではこの特徴を活かすことができます。

開発した認識モデルはクラウド(サーバー)にデプロイすることも可能

開発した認識モデルをお客様環境のサーバーに組込音声認識器とセットでデプロイすることができます。これにより、お客様独自の音声認識サービスを展開することが可能となります。

制限パターン認識器が
不適切な応用場面

音声案内ロボットなどでも制限パターン認識器を利用することはできます。ただし、スロットに登録するべき単語の種類があまりにも多い場合は、単語リストを保守することが難しくなるため、一般の大語彙連続音声認識器を利用する方が好適である場合があります。当社ではクラウド型音声認識器の mimi®︎ ASR を利用することができます。 例えば、全国の路線検索に対応した音声案内ロボットを開発する際、駅名を表すスロットには全国の駅名を登録する必要があります。統廃合等を含めた駅名リストを保守することは簡単ではありません。住所検索や商品検索などを行う場合も同様で、住所・地名・施設名・商品名等の固有名詞を表すスロットに登録されるべき膨大な量の単語を個別に保守メンテナンスすることは現実的ではありません。 この点、クラウド型の音声認識器であれば、一般的な用語は全て登録されており、定期的に保守・更新されています。特別な商品名などがある場合は、単語を追加登録することで対応することもできます。ただし、当然ながらあらゆる発話をそのまま認識できてしまうため、音声認識器の後段に、認識結果の意図解析器が必要となります。

組込型 mimi®︎ ASR の採用事例

組込型 mimi®︎ ASR の採用事例

ロボットやデジタルサイネージ、家電製品、スマートフォンなど多数の採用実績があります。代表的な事例を紹介します。

採用事例を詳しく見る

mimi®︎ クラウドAIを
触ってみたい

ログインするだけですぐに mimi®︎ クラウドAIを無償評価利用することができます。
プログラミングの知識不要。APIコンソールでは簡単な画面で試すことができます。

mimi®︎ の
全体像を知りたい

mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎クラウドAIについて知りたい方はこちら。

mimi®︎ の全体像クラウドAI