「AI音声認識」は人間が発した音声を人工知能(AI)が解析して、テキストに変更したり、デバイスを操作したり、指定の動作を実行したりできる技術・サービスです。
現在はAI音声認識の精度向上により、できることが格段に広がっており、ビジネスシーンで活用されるケースが増えてきています。
2023年度の市場規模は1000億円を超えるという予測もあり、将来性の高い領域といえるでしょう。
そんな音声認識の研究自体は、1970年代に既に始まっていたものの、音声の認識率は低く、長きにわたり実用的なレベルには届いていませんでした。
しかし近年は、従来の技術にディープラーニングを活用したAIを組み合わせることで、認識率が急速に向上しています。
AI音声認識で使われる技術は主に「音響分析」「音響モデル」「言語モデル」の3つです。
「音響分析」は音声をAIが認識できる形に変換する技術。入力された音の波形から、周波数・強弱・時間情報などを抽出して、環境音などのノイズを除去します。
こうして抽出されたデータを、AIは「音響モデル」によって、すでに学習している音の情報と照合。最も近い音を特定したうえで、今度は単語のデータベースである発音辞書に照らし合わせます。
最後に「言語モデル」を使って統計的に最も可能性の高い単語の組み合わせを見つけ、適切な文章に整えていくというのが基本的な流れです。
このようにAIは音声認識に音や単語の膨大なデータを活用しており、ここにデータの学習・分析を自動化するディープラーニングの技術を取り入れることで、非常に精度の高い音声認識が可能になりました。
AI音声認識の進化によって台頭したサービスは多岐にわたります。
代表的なAI音声認識の活用例として挙げられるのが、家電や機器・スマートフォンをはじめとしたデバイスなどの操作を、音声で可能にするサービス。ほかの作業をしながら指示が出せるため、ビジネスシーンでの業務効率アップにもつながるでしょう。
音声をテキストに変換する技術を利用すれば、書類や議事録、電話・取材の記録などを自動的に作成することも可能です。
音声をただ認識するだけでなく、AIが適切な回答をしてくれるサービスも誕生しています。スマートスピーカーなどの音声AI家電に加え、カスタマーセンターの一次受付や店舗予約などに利用されるケースも少なくありません。
翻訳アプリも、音声認識AIによって可能になったサービスのひとつ。海外旅行での利用はもちろん、グローバルビジネスを展開する際のハードル引き下げにも貢献するソリューションです。
ソルクシーズでも、このような音声を活用したサービスを展開しています。
たとえば2022年秋からの販売開始に向け、現在介護施設で実証実験を行っている「いまイルモ Kebbi Air」(仮称)は、高齢者向け見守り支援システム「いまイルモ」と、コミュニケーションロボット「Kebbi Air」を連携させた新しいサービスです。
「いまイルモ」の通常機能である安否通知・温度通知・湿度通知・バイタル通知・ドア通知に加え、音声による通知機能や、薬の飲み忘れを防止するためのアラームなどが追加されれば、介護スタッフの負担を軽減することができます。
また「オトデルペン Tap & Talk」は、ソルクシーズの出資先企業グリッドマーク株式会社が提供する、未就学児〜小学生向けの英語学習教材。
教科書を専用のペンでタッチするだけで、ネイティブの発音が再生されるため、小さいお子さまも直感的に操作を楽しみながら英語を学ぶことができます。ペンには録音機能も付いており、自分の発音とネイティブの発音を簡単に比較できるのも魅力です。
近い将来、情報を検索するサービスや、人間の作業を代行させるサービスでは、音声認識は必須の機能となるのではないでしょうか。ソルクシーズのサービスが進化を遂げた際には、このブログにて随時紹介しますので、ぜひご期待ください。