当社では2010年代から、B2Bでの音声UI構築事業を行ってきました。スマートフォンや家電製品、対話ロボット、デジタルサイネージなど、当社が携わった製品は数多くあります。その事業の中で必要となり自社開発・共同開発したコア技術群や、NICT(国立研究開発法人情報通信研究機構)の研究成果に基づくコア技術群を、クラウドAPIとして使いやすい形で幅広く提供しています。
これらのAPIは単独で利用することもできますし、複数を組み合わせて利用することや、他社のAIサービスと組み合わせて利用することもできます。ただし、理想的な音声UXを実現するためには、これらのキーテクノロジーをどのように組み合わせるかという全体設計が肝要です。個別にどれだけ優れたクラウドAIを利用しようとも、組み合わせの設計が不十分であれば、優れた顧客体験を実現することはできません。
mimi®︎ クラウドAIは、当社の音声UI構築事業の中で実際に使われ、叩かれ、洗練されてきた音声AI技術の集大成です。ビジネス現場で典型的に必要になるカスタマイズ機能や、大規模利用時にも低コストで提供できる仕組みなどを備え、ビジネス用途で利用しやすい様々な工夫がなされています。
NICT(国立研究開発法人情報通信研究機構)の研究成果に基づく多言語対応数は国内トップクラスであり、特に東南アジア言語に対する認識・翻訳精度は世界トップクラスです。APIコンソールにログインしていただくと、無償で評価利用を行うことができます。
多言語音声データを解析しテキスト化するサービスです。
多言語対応数は国内トップクラスです。
NICT のニューラル機械翻訳技術に基づくテキスト翻訳サービスです。
特に東南アジア言語に対する翻訳精度は世界トップクラスです。
NICT のニューラル音声合成技術に基づく多言語音声合成サービスです。
多言語での自然な発話を実現することができます。
事前学習に基づく話者認識サービスです。事前に音声を学習させた話者が所属する話者グループの中から、音声によって話者を特定します。
音声のパラ言語(音声のイントネーションや声色)に込められた話者の発話「態度」を認識するサービスです。
音声から話者の「感情」を推定するサービスです。喜怒哀楽だけでなく、カスタム感情を定義することができます。
短い音声から言語を推定するサービスです。多言語音声認識と組み合わせて利用することで事前の言語指定を不要にします。
ログインするだけですぐに mimi®︎ クラウドAIを無償評価利用することができます。
プログラミングの知識不要。APIコンソールでは簡単な画面で試すことができます。
mimi®には、クラウド上で高度な認識処理を行うクラウドAIと、
デバイス上で高速な前段処理を行うエッジAIがあります。
mimi®︎の全体像や、mimi®︎エッジAIについて知りたい方はこちら。
mimiクラウドAIは、パブリッククラウドサービス上に構築されています。これらの一式と同様のシステムを、お客様のオンプレミス環境に構築することができます。例えば高セキュリティ用途・閉域網での利用や、外洋船舶・航空/宇宙等のオフライン環境で音声AI・翻訳機能を提供したいときに有効です。 当社ではクラウドの設計ノウハウを活かして、お客様のご要望に応じてソフトウェアから物理サーバーまで一式のシステム開発・提供をすることができますのでお気軽にご相談ください。
mimi®︎ クラウドAIと組み合わせて利用することが有効なテクノロジーがあります。
Garbage In Garbage Out と言われるようにどれだけ高性能なクラウドAIを用いたとしても、入力データの品質が悪ければ正確な認識を行うことはできません。開発する音声サービスはどのような環境で使用されるでしょうか?
人混みの中?同時に大勢が話す?工事現場の騒音がある?環境に合わせた前段処理を行うことで、クラウドAIの性能を最大限引き出すことができます。
mimi®︎ エッジAIは、累計200万台を超える豊富な搭載実績を持つ「現場で使える」音声認識のためのキーテクノロジーです。
ロボットやデジタルサイネージの音声対応に最適な組込型マイクアレイ、高騒音な現場作業の音声認識に最適なウェアラブルデバイスなど、従来は正確な音声認識が困難だった場面にも適用できる音声デバイスを提供しています。
当社のソフトウェア・ハードウェア一体開発ノウハウが詰め込まれたユニークなホワイトラベル製品群であり、当社のAI技術と組み合わせることで最大の性能を発揮しますが、他社のソフトウェアと組み合わせて利用することも可能です。