ウェイクワード認識
mimi®︎ KWS

連続音声の中からキーワードのみを認識・抽出できます。

概要

最近の音声アシスタントはキーワードで起動させることができます。例えば、Google Assistant の場合「OK Google」というキーワードで起動することができます。このように音声キーワードでアクションを呼び出す仕組みをボイスウェイクアップと呼びます。ボイスウェイクアップ専用の認識器をウェイクワード認識器と呼ぶ場合もあります。

技術的イラスト 技術的イラスト

ウェイクワード認識器は常時起動している必要があることから、低フットプリントであることが求められます。低フットプリントとは、CPUやメモリの使用量が小さいということを意味します。特にモバイル環境で利用される場合、低消費電力であることが求められるため、低フットプリントであることが重要になります。専用のハードウェア(DSP又はオーディオコーデックチップ)で実現されている場合もあり、そのようなハードウェア実装の場合は、OSをスリープ状態に置いておくことができるなど、さらなる低消費電力化が図られています。

技術的イラスト 技術的イラスト

mimi® KWS はボイスウェイクアップのために開発されたソフトウェア実装で、ウェイクワード認識に利用することができます。ボイスウェイクアップに加えて、汎用のキーワード認識器として、連続する音声の中から事前に指定したキーワードの有無を判定することもできます。

一般のキーワード認識器としての
利用について

ウェイクワード認識器と一般のキーワード認識器の違いは、前者が発話先頭に登場したキーワードのみを認識対象としているのに対し、後者は長い発話の途中にキーワードが現れた場合にも対応しているということです。
クラウド型音声認識器を使って常に文字起こしをしている状況では、一言一句文字になるため、クラウド型音声認識器を一般のキーワード認識器と同じように利用することができます。キーワード認識器では、キーワード部分以外を認識しないという内部動作の違いはありますが、クラウド型音声認識器と比較して、認識(検出)精度はほぼ変わらないか、クラウド型音声認識器の方が精度が高くなる傾向があります。

長い発話の中から、特定のキーワードが現れたときにそれを検出したいという用途において、低フットプリントであることが求められることは少ないと言え、多くの場合クラウド型音声認識器を常に使い続けていれば問題ありません。 ただし、デバイス上で実行したいとき、組込環境の計算資源が十分ではないとき、大規模な利用用途でクラウド型音声認識を常に動作させると費用負担が大きいときなどに、キーワード認識器を利用する価値が出てくることになります。

mimi® KWS が使われる場面

ウェアラブルデバイス

ウェアラブルデバイスでは、音声命令を実行させるために、ボイスウェイクアップを使うことが有効です。例えば動画を撮影したいときに、単に「動画を撮影して」という音声命令のみとすると、デバイスを装着している状態で普通に会話をしているときに、偶然「動画を撮影して」という発話がなされたときに、それはデバイスに対する命令ではないにも関わらず、動画の撮影が始まってしまうという問題が生じます。このような問題を回避するためにも、シンプルなウェイクワードを採用したボイスウェイクアップは有効です。

音声対話ロボット

音声対話ロボットにおいても、ウェアラブルデバイスと同様に、ロボットに話しかけられたことを判定するために、ボイスウェイクアップを使うことが有効である場合があります。ただし、公共空間に置かれるロボットなどの場合は、ウェイクワードが何であるかがユーザーに直ちに分からないため、例えば駅案内ロボットの事例では、ウェイクワードはありません。その代わり、mimi® LOC とカメラを利用して、ロボットの正面方向からの発話については、ロボットへの命令であると判定して音声対話を開始するという動作になっています。 ペットロボットやスマートスピーカーなどの場合には、製品として、ユーザーにウェイクワードを事前に周知することが可能であるため、ボイスウェイクアップが有効な手法となります。

mimi® KWS の特徴

オリジナルのウェイクワード(キーワード)に対応

お客様独自のウェイクワードを利用することができます。ウェイクワードの決定後、モデル学習が必要となるため、ユーザーの手元で自由に決めることはできません。例えば、「オーケー (お客様の製品名)」のように、事前に確定させておく必要があります。同時検出できるキーワードの数には制限はありませんが、数個程度に収めることを推奨します。mimi® KWS ではデフォルトで「オーケー フェアリー」というウェイクワードが搭載されています。出荷時には無効化することもできますが、お客様の手元で性能確認をするときに利用することができます。

低フットプリント

キーワード部分以外を認識しないため、CPU使用率やメモリ使用量が組込音声認識と比較してもより小さくなっており、低消費電力です。

連続認識への対応(オプション)

ウェイクワード認識には2つの発話パターンがあり、ユーザーがウェイクワードのみを発話して、システムがそれを受理(受理したことを示す効果音等を再生する場合もある)、その後、ユーザーが実際の音声命令を発話するというパターンと、ユーザーがウェイクワードに続けて時間をおかず連続的に音声命令を発話するというパターンがあります。前者は「オーケーフェアリー」「ポロン(効果音)」「〇〇して」というようにユーザーの発話は2つに分かれますが、後者は「オーケーフェアリー〇〇して」というようにユーザーの発話は一続きです。mimi® KWS は後者のパターンにも対応することができます。実際の音声命令を受け付ける音声認識器として、他社製品を利用することもできますのでお気軽にご相談ください。

mimi®︎ KWS の採用事例

mimi®︎ KWS の採用事例

ロボットやデジタルサイネージ、家電製品、スマートフォンなど多数の採用実績があります。代表的な事例を紹介します。

採用事例を詳しく見る

mimi®︎ クラウドAIを
触ってみたい

ログインするだけですぐに mimi®︎ クラウドAIを無償評価利用することができます。
プログラミングの知識不要。APIコンソールでは簡単な画面で試すことができます。

mimi®︎ の
全体像を知りたい

mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎クラウドAIについて知りたい方はこちら。

mimi®︎ の全体像クラウドAI