感情認識 mimi®︎ EMO

音声に含まれる「感情」を認識します

すぐにクラウドAPIを利用したい方はこちら

概要

mimi® EMO は、当社独自の研究開発に基づく認識器のひとつで、音声に含まれる話し手の「感情」を認識して５つのクラスに分類するサービスです。イントネーションや声質などの音声の特徴のみから感情の認識を行うため、認識結果は、文字情報には依存しません。mimi® EMO では、mimi®︎ AIRと同様に、入力音声はひとつの感情であることを前提としており、長い発話の中で、単独で感情の変化点を推定することはできません。

長い発話に対しては、連続的な音声をXFE VADで区切り、短い区間ごとに mimi® EMO に与えることで、発話単位の感情の変化を追跡することができるようになります。また、mimi® EMO のユニークな特徴として、カスタム感情を定義することができます。

mimi® EMO が識別する「感情」

このサービスで識別する5つの感情は、以下のように定義されます。mimi EMO が識別する感情は、話し手が意識的か無意識的かを問わない、発話全体に通底する感情です。話し手が意識的に発話に込めた「態度」は、mimi AIR を利用することで識別することができます。

クラス名	ラベル	話し手の感情
喜び	happiness	⼼が踊る、肯定的で⾼揚した気分。例えば、思いがけない⼤きな幸運や素晴らしい体験、夢を叶えた・受賞したなどの⾃⼰実現、相⼿の喜びを分かち合う、笑い声。
悲しみ	sadness	⼼が沈みこむ、否定的で落ち込んだ気分。例えば、⼈や物を失った絶望感・喪失感、失敗や挫折による無⼒感・失望感、相⼿の悲しみを分かち合う、泣き声。
怒り	anger	⼼が爆発する、否定的で攻撃的な気分。例えば、相⼿の責任を追求し謝罪・補償を求める、強い⼝調での反論や抗議、相⼿の怒りに共感して⾃分も憤りを覚える。
嫌悪	disgust	本能的な不快感に基づく否定的な気分。例えば、不快・不潔・不気味なものを⾒た・聞いた、⾃分の趣味・嗜好に著しくそぐわない物事、吐き気を催す不快な状況。
平静	neutral	特に何の感情も持たない状態。例えば、感情的になった相⼿に落ち着くように促す、平穏無事であるという気持ちを伝える、プロフェッショナルとしての落ち着いた態度。

感情認識の２つの形式

音声感情認識には大きく分けて２つの形式があり、それは多クラス分類型と2次元回帰型です。mimi® EMO は多クラス分類型であり、入力された音声が、どの感情クラスに分類されるかを判定します。それに対して2次元回帰型は、感情を2次元平面にマッピングする枠組みを持ちます。X軸は「快・不快」の軸であり、Y軸は「覚醒・睡眠」の軸です。2次元回帰型の感情認識器は、入力された音声の XY 座標を推定します。

この2つの認識形式をひとつにまとめると以下のように表現することができます。感情をマッピングする2次元平面上に、各感情クラスの領域の広がりを定性的に対応付けることができます。

例えば、「怒り」は「覚醒度合いが高く、不快である」と整理することができますし、「喜び」は「覚醒度合いが高く、快である」と整理することができます。このような整理は直観的にも分かりやすいものでしょう。

しかしながら、そもそも人間の「感情」とはどのようなものであるか？という問いに対して生物学的にも哲学的にも未だ体系立った明確な回答はありません。感情がそもそも二次元であるのか（二次元にマッピングすることが適切であるのか）、といったことすら自明であるとは言えません。音声感情認識器の研究開発は、そのような本質的な観点は一旦横に置き、実用的な側面にフォーカスして進んでいるものであると言うことができます。

カスタム感情について

一般的な商用の音声感情認識サービスでは、喜怒哀楽といった典型的な感情を認識、もしくはスコアを出力しています。mimi®︎ においても標準サービスではそのような既定の感情を認識することができますが、mimi® EMO では、さらにカスタム感情を定義して認識対象に加えることができます。カスタム感情とは、例えば「現場作業スケジュールが切羽詰まって慌てている感情」といったように、実際の業務現場で具体的な状況に基づいて発生する感情のことです。 mimi® SRS のような学習用 API はなく、標準サービスとしての提供をしていませんが、当社の研究開発チームにて、カスタム感情を作成する開発委託を請けることができます。

KY 活動（危険予知活動）での音声データや、遠隔作業支援・ウェブ会議等の音声に対して、適切に設計されたカスタム感情認識を行うことで、文字情報としては表れにくい音声に含まれる有用な情報を取得することができるようになります。これによって、音声感情認識技術の現場応用の価値が大きく高まります。

音声感情認識技術の利用シーン

人間同士の会話分析・コールセンター業務

話し手の感情を識別することができますので、単純な文字起こしでは分からない人間同士の会話に含まれる感情を識別できるようになります。典型的にはコールセンター業務や窓口業務等で応用することができます。

コミュニケーションロボット

利用者の感情を「察して」その結果を元に、対話システムの応答を微妙に変えることができるようになります。応答の内容が機械的に毎回同じになるのではなく、利用者の感情に依存して変化することによって、対話システムに対する親密度を高める効果が期待できます。

カスタム感情認識による危険予知

例えば「スケジュールが切羽詰まっていて慌てている感情」「ヒヤリハット事例の直後で焦っている感情」のような実業務で発生する危険に繋がる感情をカスタム感情として定義して、それを認識することで、システム側から、早期アラートを出すことができるようになります。

mimi® EMO の出力例

認識結果には、途中結果と最終結果の2種類があります。途中結果はその時点までの音声に基づいた結果であり、最終結果は入力音声全体に基づいて結果を表します。途中結果はサーバーが適切であると判断したタイミングで出力されます。

この応答例では、18行、40行に出力されている通り、スコアが最も高いラベル neutral が lavel キーの値になっていることが確認できます。mimi® EMO は多クラス分類器なので、通常は label キーの値のみを分類結果として利用します。

各感情クラスのスコアは合計１に正規化された確からしさを表す確率値であって、各感情の強さ（例えば「強い怒り」や「弱い怒り」）を表す強度指標ではありません。このことは、上述しましたが、 mimi® EMO は2次元回帰型ではないためです。各感情クラスのスコアが概ね同様になってしまった場合は、判定できていない（判定の信頼度合いが低い）ことを示しており、判定結果を信用するべきではないということを意味しています。


          {
            "type": "emo#categorical",
            "session_id": "2d3f4050-5f14-11ed-8770-42010a920062",
            "status": "recog-in-progress",
            "response": {
              "scores": {
                "neutral": 0.6440472833905536,
                "happiness": 0.00022415263203168223,
                "sadness": 0.34156336724602926,
                "anger": 0.0002205445293277005,
                "disgust": 0.013944667068168807
              },
              "interval": {
                "start": 0,
                "end": 5000
              },
              "label": "neutral"
            }
          }
          
          // （中略） : 認識処理途中で複数回応答が返ってくる
          
          {
            "type": "emo#categorical",
            "session_id": "2d3f4050-5f14-11ed-8770-42010a920062",
            "status": "recog-finished",
            "response": {
              "scores": {
                "neutral": 0.550898317580626,
                "happiness": 0.0010769688157881876,
                "sadness": 0.34537014898242074,
                "anger": 0.0020876345436814893,
                "disgust": 0.10056691473509471
              },
              "interval": {
                "start": 0,
                "end": 19882
              },
              "label": "neutral"
            }
          }