話者識別 mimi®︎ SRS

言語非依存な事前学習型話者識別API

すぐにクラウドAPIを利用したい方はこちら

開発者向けドキュメント APIコンソール

概要

当社で開発されたクラウド型話者識別サービスである mimi® SRS は、入力された音声が事前に登録されたどの話者の発話であるかを識別します。クラウド API として話者登録の API を提供しており、事前に短い時間の発話のみで話者を登録させることができます。学習用音声時間は最短で1分以上(2分程度を推奨)あれば十分で、発話内容は自由です。最小で1名から、最大で100名程度の発話を識別することができます。安定した識別を行うためには、数秒程度の発話が必要となります。精度検証を日本語で行っていますが、他の言語でも利用することができます。

mimi® SRS は、入力された音声が1人の発話であることを前提としています。複数名の発話が混ざった音声を分離した上、それぞれの発話者を特定することはできません。複数名の発話が混ざった音声が入力された場合、それぞれの発話者の確率が平均化された結果が出力されます。

話者識別技術の利用シーン

1. 家庭用ロボット・白物家電

家庭用ロボットでは、家庭の中でロボットのユーザーが複数人いる場合があります。例えば、「お父さん」からの音声命令が受け付けられたときに、お父さん向けにカスタマイズされた反応を返すことは有効です。

mimi® SRS では、話者登録の API が提供されており、エンドユーザー環境で話者を登録させることができます。このため、同一の機械を複数人が取り扱うような応用例で利用させることができます。白物家電では、エアコンや洗濯機など、利用する際に個人の好みが反映されるような機械で利用されることがあります。

これとは逆に、駅案内ロボットのように公衆環境で共用されるロボットのときには、話者を事前に学習させることができないため話者識別技術が利用されることはありません。

2. ウェアラブルデバイス

THINKLET®︎のようなウェアラブルデバイスを業務で利用する場合、1台のデバイスを複数人が利用することがあります。例えば、事務所に1台の THINKLET®︎ が置いてあり、複数のスタッフがその1台を共用しているような場合です。このようなとき、THINKLET®︎ が利用される際に、入力音声から誰が利用しているのかということを自然に特定させることが可能です。もちろん、カメラを用いて名札等の QR コードを読み込ませることで、確実に利用者を特定させることができます。話者識別技術を用いると、そのような特別なステップを行うことなく、自然な対話の中から利用者を特定することができるという UX となります。

ただし、mimi® SRS は、バイオメトリクス認証技術に含まれるいわゆる「話者認証」システムではないため、厳密にその人間の発話であるかどうかを特定する用途には不向きです。このためセキュリティを伴うような個人認証に利用するべきではありません。当社では、セキュリティを伴う話者認証機能は提供しておりません。

3. 会議議事録・議事メモシステム

会議音声を後から分析していく上で、誰が発話した音声であるかを識別できることは重要です。この用途では、スピーカーダイアリゼーションシステムを用いる方が有効ですが、下の囲み記事で記載していますが、mimi® SRS をスピーカーダイアリゼーションシステムの代替として利用することができます。

マルチマイクを利用して会議音声が収録されているとき、XFE LOC を利用することで、発話音源の方向を推測することができます。この方向の情報と mimi® SRS を組み合わせることで、より正確なスピーカーダイアリゼーションを実現することも可能になります。

スピーカーダイアリゼーション

mimi® SRS は、スピーカーダイアリゼーションシステムではありません。スピーカーダイアリゼーションシステムとは、複数人が交互に発話している状況で、発話交代のタイミングを推測し、単一話者の発話セットに分割したのち、話者数を推測するか、事前に与えられた話者数の数になるようにクラスタリングを行って、誰がいつ発話したかを特定することができるシステムです。

しかしながら、mimi® SRS を用いて、疑似的にスピーカーダイアリゼーションを行うことは可能です。mimi® SRS は入力された発話が1名の発話であることを前提としています。すなわち、VAD等で細かく区切った発話を入力し、事前登録された各話者の確率値の変動から話者交代のタイミングを推定することができます。ただし、mimi® SRS では、事前学習なしの話者クラスタリングを行うことはできないため、全話者が事前学習されていることが前提となります。


話者識別の特徴量

話者識別においては、デジタル声紋ともいうべき音声特徴量が利用されます。この特徴量は、従来は i-vector と呼ばれる方式が主流でしたが、研究の進展に伴って、d-vector、x-vector などより高性能な特徴量が提案されています。

i-vector は、GMM(ガウス混合モデル)に基づく特徴量で、UBM(ユニバーサルバックグラウンドモデル)と呼ばれる多人数の平均的な声を表す多次元量と、特定の人間の声との「差」に着目して作られた特徴量です。これに対して、d-vector や x-vector は、ニューラルネットワークの中間層の出力を特徴量としたもので、従来よりも高い性能を持つことが知られています。mimi® SRS も、世界的な研究の進展に合わせて性能を向上させています。

mimi® SRS の特徴

  • 日本語を基軸として開発された
    純国産音声認識エンジン
    mimi® SRS は当社での研究成果に基づき開発された国産話者識別エンジンです。世界の先端研究の進展に合わせて、常に最新の研究成果を取り込み、性能を改善しています。

  • 自由な発話で話者登録(学習)可能話者を学習(登録)するときに、固定された文言を利用する必要はなく、自由な発話内容で学習させることができます。音声時間は1分~2分程度あれば十分であるため、例えば、製品の利用開始時に、重要な注意事項や利用のTIPS等をユーザーに読ませることで、学習データに代えるといった UX とすることができます。

  • 短発話で識別可能話者の識別のためには、数秒程度の音声があれば十分です。一般的な音声命令、例えば「明日の天気を教えて」「エアコンをオンにして」といった発話の長さがあれは話者識別を実行することができるため、音声対話システムに組み込まれた自然な UX を実現することが可能です。

mimi® SRS API の利用フロー

mimi® SRS API は話者登録(学習)用 API が公開されており、話者を登録しなければ利用することができない API になっています。この点が他の mimi®︎ API とは異なるものであるため、mimi® SRS API を利用するための全体像を説明します。

1. 話者グループを作成する

まず識別対象となる話者が含まれるグループを新規作成します。この時点では何らの学習もなされていません。話者グループ名は任意ですが、利用シーンのイメージでいえば、「家族」「営業課」のようなグループを意味します。

2. 作成した話者グループに話者を登録させる

作成した話者グループに、実際に話者を登録していきます。API ではまず「話者」を新規作成して、新規作成した「話者」に、学習用(登録用)音声データを追加していき、登録した音声データで「学習(登録)」を実行する、という3ステップの手順を取ります。

ひとつの話者グループに登録できる話者の数に制約はありませんが、最大100名程度とするのが妥当です。

3. 話者グループを指定して、話者識別を実行させる

話者識別を実行させるときには、話者グループを指定して、話者識別実行 API に発話音声を入力します。数秒程度の音声を入力すれば十分です。登録された全ての話者に該当する確率と登録外の話者である確率が返されます。ユーザーアプリケーションは、この確率値を見て判断を行います。

以下の応答例は、2人の話者が登録された話者グループに対して話者識別リクエストを行った結果です。10行目に出力されているように入力音声が A1 さんの発話である確率が 0.98 と極めて高い値を示しているため、この入力音声は A1 さんの発話であると判断して良いでしょう。

  
          {
            "status": "recog-finished",
            "type": "srs#identification#",
            "response":
            {
              "speaker":
              [
                {
                  "confidence": 0.98419,
                  "speaker_id": "A1"
                },
                {
                  "confidence": 0.01581,
                  "speaker_id": "A2"
                }
              ]
            },
            "session_id": "92859ace-aa64-11e6-ae99-42010a8c000 2"
          }
        
mimi®︎ SRS の採用事例

mimi®︎ SRS の採用事例

ロボットやデジタルサイネージ、家電製品、スマートフォンなど多数の採用実績があります。代表的な事例を紹介します。

採用事例を詳しく見る

mimi®︎ クラウドAIを
触ってみたい

ログインするだけですぐに mimi®︎ クラウドAIを無償評価利用することができます。
プログラミングの知識不要。APIコンソールでは簡単な画面で試すことができます。

mimi®︎ の
全体像を知りたい

mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎エッジAIについて知りたい方はこちら。