従来は正確な音声認識が困難だった場面にも適用可能な
ウェアラブルデバイス、マイクアレイ開発キット
スマートスピーカーとしての機能を備えた 16ch マイクアレイ。 組込CPU(Raspberry Pi Compute Module 3)を内蔵しており、スタンドアロンで動作することも可能です。
詳しく見る当社では長年に渡り、お客様の開発したハードウェア製品に対して、音声 AI 機能を組み込む取り組みを行ってきました。その活動の中で、「ハードウェアがもっと違うように作られていれば…」と忸怩たる想いを抱いたことが何度もありました。例えば、マイクの隣に冷却ファンが設置されており、冷却ファンの風の通り道とマイク穴が共用されている設計があり、どれだけソフトウェアで頑張っても、冷却ファンに由来するノイズを取り切ることはできませんでした。どれだけ優れた AI をもってしても、与えるデータにノイズが大きければ、結果もノイズの大きなものになります。これは「Garbage In Garbage Out(ゴミを入れればゴミが出る)」の原則として知られています。
このような明らかな例以外でも、ハードウェアの仕様を決定する上で、ソフトウェア側の知識もしくはユースケースの知識が有効な場合は数多くあります。例えば、THINKLET®︎ においてマイク入力系のワイドレンジを決定するためには、現場作業の騒音環境のレベルを実測する必要がありました。マイクアレイの幾何配置によってソフトウェア的に指向性を作りやすい方向が決まってくるので、マイク配置の決定はデザイン初期に行うべきです。ウェアラブルデバイス特有の動画の手振れ補正のためにはジャイロセンサーを援用することが有効であることが分かっています。このような事例は枚挙にいとまがありません。
もちろんハードウェアにできるだけ汎用的で高い性能を持たせれば、ソフトウェア側では十分な性能を発揮することができますが、それは過剰品質というものであり、単純に原価を圧迫することになります。不要なハードウェア機能は削り、ソフトウェアで実現できることはソフトウェアで実現する。ハードウェアに依存するべきところを見極め、アルゴリズムが性能を発揮しやすいようにハードウェアを設計する、その最適なバランスを見出すためには、よりユースケースに近い側のニーズからバックキャストして全体を設計することが有効です。
私たちのこの開発思想は、THINKLET®︎ の開発において最大限活かされ、THINKLET デバイスを利用した LINKLET サービスは、米 CES 2022 にて革新的な製品に贈られるイノベーションアワードを三冠受賞するという日本企業初※1の栄誉として、国際的にも認められたものとなりました。
※1 2022年12月当社調べによる
音声デバイスを組み合わせて利用することが有効なテクノロジーがあります。
Garbage In Garbage Out と言われるようにどれだけ高性能なクラウドAIを用いたとしても、入力データの品質が悪ければ正確な認識を行うことはできません。開発する音声サービスはどのような環境で使用されるでしょうか?
人混みの中?同時に大勢が話す?工事現場の騒音がある?環境に合わせた前段処理を行うことで、クラウドAIの性能を最大限引き出すことができます。
mimi®︎ エッジAIは、累計200万台を超える豊富な搭載実績を持つ「現場で使える」音声認識のためのキーテクノロジーです。
mimi®︎ クラウドAIは、ビジネス向けに開発されたクラウド音声AI APIサービスです。多言語に対応した音声認識・機械翻訳・音声合成・音声感情認識・話者識別等、 音声に関係する幅広いAI機能を標準化して提供しています。
NICT(国立研究開発法人情報通信研究機構)の研究成果に基づく多言語対応数は国内トップクラスです。
ビジネス応用のための柔軟なカスタマイズ性を持ち、大規模な利用にも低コストで対応します。 APIコンソールから無償評価利用を行うことができます。