エッジAI

高騒音環境にも対応した多機能組み込みテクノロジー

すぐにクラウドAPIを利用したい方はこちら

開発者向けドキュメント APIコンソール

mimi®エッジAI

高騒音環境にも対応したマイクアレイ処理や各種認識機能をデバイスに組み込むことができます

システム全体の性能を高め、コストを最適化するために、Amazon Alexa や Google Home などの一般的な音声サービスでは、クラウドAIだけでなくデバイス上の組み込み技術が有効活用されています。デバイス側とクラウド側でどのように処理を分担するかという設計は、多くの場合でベストプラクティスが確立されています。

当社では、騒音環境下でのロバストな音声認識を実現するために、単一のマイクではなく、複数マイク(マイクアレイ)を活用した音声認識システムを推奨しています。マイクアレイ処理のために必要になる各種機能は mimi XFE というソフトウェアライブラリとして提供されており、mimi XFE をすぐに利用できるマイクアレイ開発キットも提供しています。

mimi®︎ エッジ AI では、マイクアレイ処理だけではなくデバイス側に必要となる数多くの要素技術を取り揃えています。使用するハードウェアの性能や利用可能な通信量・バッテリー容量に合わせたカスタマイズを行うことも可能で、累計300万台以上のデバイスに搭載された実績があります。

  • フロントエンド処理 mimi®︎ XFE ロゴ

    フロントエンド処理 mimi®︎ XFE

    デバイス上で動作するフロントエンド音声処理エンジンです。
    マイクアレイに対応し高騒音下での音声認識を実現します。

    詳しく見る・デモを試す
  • 組み込み音声認識器 mimi®︎ ASR ロゴ

    組み込み音声認識器 mimi®︎ ASR

    スタンドアロンで動作する音声認識エンジンです。
    自由なモデルカスタマイズが可能です。

    詳しく見る・デモを試す
  • キーワード認識器 mimi®︎ KWS ロゴ

    キーワード認識器 mimi®︎ KWS

    ボイスウェイクアップを実現するキーワード認識エンジンです。
    自由なキーワードでシステムを起動することができます。

    詳しく見る・デモを試す

音声エッジAIが
必要である理由

エッジ音声AIが必要である理由は、大きく分けて以下の3つがあります

  • 1. 通信量を最適化するため

    音声のみの通信量は、1ch音声(モノラル音声)であれば256kbps~768kbps程度となり、可逆圧縮を行うとその半分程度、非可逆圧縮形式を利用すると1/10程度まで落とすことができます。

    モノラル音声の場合、この程度の通信量であれば実質的に問題はありませんが、弊社のマイクアレイ開発キットや、THINKLET®︎のように、複数のマイクを備えたデバイスではこの通信量が無視できない量となります。例えば、マイクが8個備えられているとすると、通信量は約3Mbpsとなり全く無視できません。多チャンネル音声を使って雑音を除去する処理を行う場合、基本的には非可逆圧縮形式を利用することができないため、圧縮によってデータ量を削減することができません。

    特にモバイル回線を利用した通信を行う場合には、音声のみでこのような通信量を使うことは許容されません。このため、下図のように多チャンネル音声信号に対してデバイス上でフロントエンド処理を行ってモノラル音声にしたのち、サーバーに送り出すということが有効となります。通信容量が無制限の高速有線LAN環境等においては、多チャンネル音声信号をそのままサーバーに送り処理させるということも可能ですが、その場合であっても高々4ch程度で処理される場合が一般的です。

    多チャンネル入力による音声認識システムの典型的アーキテクチャ 多チャンネル入力による音声認識システムの典型的アーキテクチャ
  • 2. クラウドに与える負荷を削減するため・プライバシー保護のため

    デバイス上の計算資源を一切使わずに全部サーバーに処理させるというのは単に無駄です。AWS クラウド等のパブリッククラウドを利用しているとき、クラウドAIに与える負荷はそのままクラウド費用につながるため、クラウド費用削減のためにも、原則として「デバイス上でできることはデバイス上で」やってもらうべきです。

    フロントエンド処理の場合、リアルタイムにデバイス上で処理することができればそれでOKであり、わざわざクラウドを利用する必要はありません。リアルタイム性が出ないときには部分的にデバイス上で実行させ、残りをクラウドに分担させるという方法も取ることができます。

    組み込み音声認識器の場合、例えば電話帳の登録名などが音声認識対象となっているとすると、ひとりひとりのユーザーによって異なる認識辞書があるということになります。これを全て個別にクラウドで管理しようとすると、その管理システムや音声認識器のクラウド上での展開の形式などが煩雑になる上、プライバシー保護の観点からも好ましいとは言えません。もちろんクラウド側で管理することが好ましい場合もあるのですが、この点でも「デバイス上でできることはデバイス上で」という原則が当てはまります。

    キーワード認識器をボイスウェイクアップに利用する場合、クラウドを利用しようとすると、音声データを常にクラウドに送信し続ける必要があります。仮にその音声を一切保存せずに常時破棄するシステムであったとしても、プライバシー保護の観点を持ち出すまでもなく、それがユーザーにとって気持ち悪いものであるということは、過去にいくつもの事例が示しています。

    「デバイス上でできることはデバイス上で」という原則は、クラウド費用を削減し、プライバシー保護の観点からも好ましい仕組みを構築する上で、有効な原則であると言うことができます。

  • 3. バッテリー消費量を最適化するため

    スマートフォンやウェアラブルデバイスではバッテリー消費量を削減することは最も重要な課題の一つです。発生する「熱」を削減する上でも効果があります。

    電力を大きく消費するコンポーネントとして通信コンポーネントがあり、通信量を削減するということは、すなわちバッテリー消費量を削減するということです。エッジ音声AIによりCPU使用率は増えるけれども、それによって増大する消費電力よりも、通信量を削減することで減少する消費電力の方が大きくなる場合が大半でしょう。特に最近のスマートフォン用CPUでは低消費電力化がますます進んでおり、通信量を削減するために計算資源を用いることはますます合理的になってきています。

    ただし、デバイス上でのエッジAIの実装が非効率的で無駄が多過ぎると、CPUを占有し過ぎてしまい、バッテリー消費量の節約効果も小さいうえ、他のプロセスのスムーズな動作を妨害してしまうなどの問題も生じます。また、効率的な無駄のない実装だったとしても、そもそもデバイスの計算資源が貧弱であると狙った効果が得られない場合もあり、バッテリー消費量の最適化は、入念な調整と高い知識が必要とされる部分となります。

よくある質問

料金体系はどのようになっていますか?
コピー数に応じたロイヤリティ支払方式や一括買い切り方式など、お客様のビジネスや製品企画・販売計画に合わせたリーズナブルな料金体系を提案いたしますので、お気軽にお問合せください。
一般のソフトウェア開発者がmimiエッジAIを利用する上で、音声技術に関する前提知識は必要ですか?
組み込み音声技術の難しいところはmimiエッジAIがほぼ全て隠蔽していますが、実製品開発において音声を取り扱うプログラミングを行うときに注意するべき点が複数あることは事実です。 このため、全く前提知識がない状態で独力で製品開発に取り組むことは簡単ではないでしょう。当社ではmimiエッジAIをうまく利用できるよう技術サポートを提供しておりますので、お気軽にご相談ください。
私たちの会社の製品にmimiエッジAIを組み込む上で、いわゆるチューニング作業はどのくらい必要ですか?
貴社製品の内容次第で変わります。単一マイクを利用したシンプルなアプリケーションであれば、ほぼチューニングは不要となりますが、マイクアレイを利用した複雑なアプリケーションや利用環境が厳しい場合などは、事前のシミュレーションや典型的利用環境でのチューニング作業などが必要になることもあります。 ハードウェアを新規開発される場合は、ぜひハードウェア設計段階からご相談ください。当社の音声デバイスも含めて、目的とする性能を達成するために最適な構成を提案することができます。
mimiエッジAIを、mimiクラウドAIではなく、他社の認識サービスと組み合わせることはできますか?
可能です。そのような実績もあります。mimiエッジAIは、他社の認識サービスを利用した場合であっても全体性能の向上のために有効です。
他社のマイクアレイ製品に対して、貴社のmimi XFEは使えますか?
mimi XFE は、当社の音声デバイスと組み合わせて利用しやすいように設計されていますが、他社マイクアレイ製品を利用することも可能です。mimi XFE の動作実績のある他社マイクアレイ製品もございます。ただし、他社製品が敢えて設けている技術的制約によって利用できない場合も稀にありますのでご注意ください。
〇〇社と比較して、どちらが性能が良いですか?
音声フロントエンド処理分野では、日本は伝統的に高い研究技術を持っています。当社もそれらの研究成果の上に製品を展開していますので、世界的にもトップクラスの性能水準といえます。 しかしながら、最終性能は、どのようなマイクを利用しどのような環境でどのように利用されるかによって大きく変わるため、事前シミュレーションや試作開発等によって、実際に実験してみることが好ましいでしょう。
他社と取り組んで一度失敗しているのですが、御社では実現できる可能性はありますか?
当社を発見してくださりありがとうございます!このようなお問合せは過去に何回も頂いております。当社は音声技術に関して高い知見を保有しており、他社が見落としている観点に気づくことができるかもしれません。まずは内容と、もしよろしければ残っている予算額を教えてください(^_^)
mimiエッジAIラインナップにはない、新しい〇〇のような音声AIを開発することはできますか?
はい、当社のR&Dソリューションでは、お客様と共同で全く新しい音声AIの研究開発を行うことができます。お客様の事業貢献を第一に、最先端でありながら同時に実用に資する研究活動を誠意を持って行います。
mimiエッジAIを日本国外で利用することはできますか?
はい、可能です。そのような実績もございます。輸出管理上も一般のソフトウェアと同等となります。

採用事例

駅案内ロボット

mimiエッジAIとクラウドAIの多くの機能を活用した駅構内・周辺案内業務用コミュニケーションロボットです。多くの人が行きかう雑踏騒音環境でも、目の前の人の声だけを聞き取り正確な応答を実現しています。話しかけた言語は自動で識別され、多言語での応答を行うことができます。これにより駅員の質問対応業務時間を削減することに成功しました。

オムロンソーシアルソリューションズ株式会社

詳しく見る

バーチャルアテンダント

mimiエッジAIとクラウドAIの多くの機能を活用したデジタルサイネージ向けの音声対話システムです。多くの人が行きかう雑踏騒音環境でも、目の前の人の声だけを高速かつ正確に聞き取り、画面表示と連動した分かりやすく親しみやすい応答を実現しています。

株式会社モノゴコロ

詳しく見る
人と機械をつなぐ音声処理テクノロジー mimi®

mimi®は、「機械の耳」を実現する最先端音声テクノロジーです。クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAI
従来は音声認識が困難だった環境でも利用可能な音声デバイスを提供します。

その他のテクノロジー

mimiエッジAIと組み合わせて利用することが有効なテクノロジーがあります。

クラウドAI

音声認識、感情認識、機械翻訳、音声合成など幅広い利用用途をカバー

クラウドAI

mimi®︎ クラウドAIは、ビジネス向けに開発されたクラウド音声AI APIサービスです。多言語に対応した音声認識・機械翻訳・音声合成・音声感情認識・話者識別等、 音声に関係する幅広いAI機能を標準化して提供しています。
NICT(国立研究開発法人情報通信研究機構)の研究成果に基づく多言語対応数は国内トップクラスです。
ビジネス応用のための柔軟なカスタマイズ性を持ち、大規模な利用にも低コストで対応します。 APIコンソールから無償評価利用を行うことができます。

詳しく見る

音声デバイス

従来は正確な音声認識が困難だった場面にも適用可能な専用ハードウェア

デバイスキット

ロボットやデジタルサイネージの音声対応に最適な組み込み型マイクアレイ、高騒音な現場作業の音声認識に最適なウェアラブルデバイスなど、従来は正確な音声認識が困難だった場面にも適用できる音声デバイスを提供しています。
当社のソフトウェア・ハードウェア一体開発ノウハウが詰め込まれたユニークなホワイトラベル製品群であり、当社のAI技術と組み合わせることで最大の性能を発揮しますが、他社のソフトウェアと組み合わせて利用することも可能です。

詳しく見る