
音声認識と音声人工知能(AI)は、「ボイスファースト」コミュニケーションへの新たな回帰である。オピニオン・リーダーやAIの専門家は、ボイス・ファースト・コミュニケーションというコンセプトが次の大きな波となることを予告している。
声というのは本来、最も直感的なコミュニケーション形態のひとつであり、コミュニティは文字よりも前に、記憶、文化、歴史を物語を通して言葉で伝えてきた。
ボイス・ファーストは、アレクサのアプリやSiriのコマンド以上のものから発展してきた。その原則は、ボイス・ファーストが従来のデジタル・インターフェースよりもはるかに強力で、ユーザーフレンドリーで、没入感があり、高速であるという事実に依拠している。ボイスファースト」の核となる要素は、機械やプログラムが単語やフレーズを識別する能力である音声認識だ。この記事では、音声認識の定義、人工知能が音声認識にどのような革命をもたらしたか、音声認識AIの実世界での応用例について見ていきます。
音声認識とは何か?
TechTargetによれば、「音声認識とは、機械やプログラムが話し言葉の単語やフレーズを識別し、機械が読み取り可能な形式に変換する能力のことである1」。1952年、ベル研究所は数字を声に出して話す一人の声を認識する「オードリー」システムを開発した。その10年後、技術大手のIBMは、16種類の英単語を理解し、それに反応できるプログラム「シューボックス」を開発した。
1980年代までに、音声認識技術はほんの一握りの単語から数千の単語へと進歩した。1990年代には、パーソナルコンピュータの急速な普及により、音声認識技術は爆発的に進歩し、2001年までには、音声認識技術の精度は80%に近づいた。
現代の音声技術の歴史は、2000年代半ばのGoogle音声検索の登場から始まる2。グーグルが音声検索を開発したことで、音声技術が一般消費者の手に渡るようになり、アップルが2011年にSiriを開発したことで、音声技術の新たな分野が開拓された。
AIは音声認識をどう変えたか?
多くの産業がそうであるように、人工知能の導入と創造は音声認識に革命をもたらし、コストの削減、顧客サービスの向上、企業の競争優位性の維持と定義に役立っている。AIに特化した特許の波に乗り、企業はより積極的な顧客体験を促進するため、独自の音声技術を開発し始めている。例えば、バンク・オブ・アメリカは、2018年に初めて広く利用可能なバーチャル金融アシスタントであるEricaを発売し、2033年6月には15億件の顧客との対話を突破した。Ericaの急成長と普及は、音声分析とテクノロジーに対する消費者の快適度が高まっていることを示すものだ。バンク・オブ・アメリカの顧客は300万時間をこのアシスタントと対話し、前年比31%増加した。
音声認識技術の実際のビジネス・アプリケーションには、チャットボット、音声検索、自然言語生成、感情分析などがある。製造ラインでの検査の自動化から、大量のデータを分析して肯定的か否定的かを判断することまで、音声認識AIはさまざまな業界や技術に応用されている。
音声認識AIの成長
多くのAI技術と同様、未来は今である。2024年、世界の音声対応デバイスの数は、世界人口と同じ約80億人に達する4。そのわずか数年後の2030年には、世界の音声アシスタント市場は140億ドルを超えると予測されている。同様に、チャットボットもさらに高い複合年間成長率(CAGR)を記録する可能性がある。2023年、世界のチャットボット市場は50億ドルと推定され、20285年までに300%増加する。

音声認識AIの実世界での使用例
音声アシスタント
アマゾンのアレクサ、グーグル・アシスタント、アップルのシリは、ほとんどの消費者が使ったことのある音声アシスタントだ。3年以内に、人間の推定50%が毎月音声アシスタントを使用するようになり、ミレニアル世代とZ世代は定期的に対話する可能性が高い6。
顧客満足とセルフサービス
プロアクティブでパーソナライズされた顧客エンゲージメントは、顧客満足度を向上させ、質問への回答や問題解決などの能力を高めることができる。顧客の91%がセルフサービス・ツールの利用を希望し、利用後は満足度が19%高まったと報告している7。
翻訳サービスと会話AI
グーグル翻訳のようなサービスは、異なる言語間の音声を素早く翻訳し、IBMのワトソン・アシスタントのような会話ツールは、企業が独自の会話インターフェースを作成するのに役立つ。
オーディオおよびビデオ会議のテープ起こし
Otter.aiのようなツールは、AIが生成した音声会議のメモを取り、リアルタイムで会議の書き起こしを行う8。
身体障害者補助技術
補助のないコミュニケーション・システムは、メッセージを伝えるために肉体を利用する。言語や音声に障害を持つ人々にとって、音声認識技術はコミュニケーションを改善し、技術をより身近なものにする。
音声認識におけ���AIの利点
IoTやパーソナルモバイルデバイスにおいて、なぜスピーチエンハンスメントとデノイジングが重要なのでしょうか?特に大音量の環境では、バックグラウンドノイズを除去することで、より効果的で効率的なコミュニケーションが可能になります。
チーム・コラボレーションの強化
音声認識AIが言葉の壁を取り除き、チームの結束とコラボレーションを強化します9。クリアで明瞭な音声は、理解と納得感を向上させ、グローバルチームがより良い協力関係を築くことを可能にします。
効果の向上
混雑したコールセンターや喫茶店のような公共の場では、周囲の雑音が通話者の会話の妨げとなり、お互いの声が聞き取れなかったり、誤解が生じたりする危険性があります。通話者は何度も自分の言葉を繰り返したり、過剰なバックグラウンドノイズから言葉を解読しようと認知エネルギーを費やす必要はありません。
Ambiqの貢献
チャットボット、音声アシスタント、その他の音声認識デバイスの中核には、AIと音声認識の消費電力を実行するために時間外稼働しているシリコンチップがあります。Ambiqは、先進のサブスレッショルド電力最適化技術(SPOT®)プラットフォームとシステムオンチップ(SoC)により、このようなエッジデバイスがこれまでにないレベルの効率性と超低消費電力で音声認識を実行できるよう支援します。さらに、neuralSPOTのModelZooに当社のNNSE(Neural Network Speech Enhancement)を導入することで、音声の背景雑音をリアルタイムで除去できるようになり、さまざまな雑音の多い環境でもきれいな音声を取り込めるようになりました。ボイスメモ録音からボイスチャット、音声認識まで、NNSEはIoTエッジデバイス上で最小限のレイテンシとエネルギー使用で動作するように最適化されています。
情報源
1 音声認識|2021年9月
2 音声認識の歴史|2023年
3 BofAのエリカ、顧客との対話が15億回を突破、1000万時間を超える|2023年7月13日
4 仮想アシスタント技術 – 統計と事実|2023年6月7日
5 チャットボット(テキスト、音声、ビデオ)市場 – 2028年までの世界予測 – 没入型顧客体験のためのチャットボットにおける生成モデルの利用増加が市場を牽引|2023年5月19日
6 2023年の音声アシスタント:AI音声アシスタント市場の用途、成長、将来性 |2023年1月13日
7 カスタマー・エクスペリエンスカスタマージャーニーの変革を通じて価値を創造する|2016年冬号
8 Otter.ai|2023年
9 AIの台頭とチーム・コラボレーションの向上|2020年12月17日