誰もが音声認識AIについて話している

Everyones Talking About Speech Recognition 2

音声認識と音声人工知能（AI）は、「音声ファースト」コミュニケーションへの新たな回帰である。オピニオン・リーダーやAIの専門家は、ボイス・ファースト・コミュニケーションというコンセプトが次の大きな波となることを予告している。

声というのは本来、最も直感的なコミュニケーション形態のひとつであり、コミュニティは文字よりも前に、記憶、文化、歴史を物語を通して言葉で伝えてきた。

ボイスファーストは、アレクサのアプリやSiriのコマンド以上のものから発展してきた。その原則は、ボイスファーストが従来のデジタルインターフェースよりもはるかにパワフルで、ユーザーフレンドリーで、没入感があり、高速であるという事実に依拠している。ボイスファースト」の核となるのは音声認識であり、機械やプログラムが単語やフレーズを識別する能力である。この記事では、音声認識の定義、人工知能が音声認識にどのような革命をもたらしたか、音声認識AIの実世界での応用例について見ていく。

音声認識とは何か？

TechTargetによれば、「音声認識とは、機械やプログラムが話し言葉の単語やフレーズを識別し、機械が読み取り可能な形式に変換する能力のことである¹」。 1952年、ベル研究所は数字を声に出して話す一人の声を認識する「オードリー」システムを開発した。その10年後、テクノロジー大手のIBMは、16種類の英単語を理解し、それに反応できるプログラム「シューボックス」を開発した。

1980年代までに、音声認識技術はほんの一握りの単語から数千の単語に進歩した。 1990年代、パーソナルコンピュータの急速な普及によって音声技術は爆発的に発展し、2001年には音声認識技術の精度は80％近くに達した。

現代の音声技術の歴史は、2000年代半ばのグーグル音声検索の登場から始まる²。グーグルが音声検索を開発したことで、音声技術が一般消費者の手に届くようになり、アップルが2011年にSiriを開発したことで、音声技術の新たな分野が開拓された。

AIは音声認識をどう変えたか？

多くの産業がそうであるように、人工知能の導入と創造は音声認識に革命をもたらし、コストの削減、顧客サービスの向上、企業の競争優位性の維持と定義に役立っている。AIに特化した特許の波に乗り、企業はより積極的な顧客体験を促進するため、独自の音声技術を開発し始めている。例えば、バンク・オブ・アメリカは、2018年に初めて広く利用可能なバーチャル金融アシスタントであるEricaを発売し、2033年6月には15億件の顧客との対話を突破した。Ericaの急成長と普及は、音声分析とテクノロジーに対する消費者の快適度が高まっていることを示すものだ。バンク・オブ・アメリカの顧客は300万時間をこのアシスタントと対話し、前年比31％増加した。

音声認識技術の実際のビジネスアプリケーションには、チャットボット、音声検索、自然言語生成、感情分析などがある。製造ラインの検査の自動化から、大量のデータを分析して肯定的か否定的かを判断することまで、音声認識AIはさまざまな産業や技術に応用されている。

音声認識AIの成長

多くのAI技術がそうであるように、未来は今なのだ。 2024年には、世界の音声対応デバイスの数は、世界の人口と同じ約80億人になると予想されている⁴。わずか数年後の2030年には、世界の音声アシスタント市場は140億ドルを超えると予測されている。同様に、チャットボットはさらに高い複合年間成長率（CAGR）を経験するかもしれない。 2023年、世界のチャットボット市場は50億ドルと推定され、²⁰²⁸⁵年までに300％増加する。

Everyones Talking About Speech Recognition

音声認識AIの実世界での使用例

音声アシスタント

アマゾンのアレクサ、グーグル・アシスタント、アップルのシリは、ほとんどの消費者が使ったことのある音声アシスタントだ。 3年以内に、推定で50％の人間が毎月音声アシスタントを使用するようになり、ミレニアル世代とZ世代は定期的に使用する可能性が高い⁶。

顧客満足とセルフサービス

プロアクティブでパーソナライズされた顧客エンゲージメントは、顧客満足度を向上させ、質問への回答や問題解決などの能力を高めることができる。顧客の91％がセルフサービス・ツールの利用を希望し、利用後は満足度が19％高まったと報告している⁷。

翻訳サービスと会話AI

グーグル翻訳のようなサービスは、異なる言語間の音声を素早く翻訳し、IBMのワトソン・アシスタントのような会話ツールは、企業が独自の会話インターフェースを作成するのに役立つ。

オーディオおよびビデオ会議のテープ起こし

Otter.aiのようなツールは、AIが生成した音声会議のメモを取り、リアルタイムで会議の書き起こしを行う⁸。

身体障害者補助技術

補助のないコミュニケーションシステムは、メッセージを伝えるために肉体を利用する。言語や音声に障害を持つ人々にとって、音声認識技術はコミュニケーションを改善し、技術をより利用しやすくする。

音声認識におけるAIの利点

IoTやパーソナルモバイルデバイスにおいて、なぜスピーチエンハンスメントとデノイジングが重要なのか？特に大音量の環境では、スピーチエンハンスメントを使用することで、バックグラウンドノイズを除去し、より効果的かつ効率的なコミュニケーションが可能になります。

チーム・コラボレーションの強化

音声認識AIは、言葉の壁を取り除き、チームの結束とコラボレーションを強化するのに役立つ⁹。クリアで明瞭な音声は、理解力を高め、グローバルなチームワークを向上させます。

効果の向上

混雑したコールセンターや喫茶店のような公共の場では、周囲の雑音が通話の妨げとなり、通話者がお互いの声を聞き取れなかったり、誤解を招いたりする危険性がある。発信者は、何度も繰り返したり、過剰なバックグラウンド・ノイズから言葉を解読しようと認知エネルギーを費やしたりする必要がない。

Ambiqの貢献

チャットボット、音声アシスタント、その他の音声認識デバイスの中核には、AIと音声認識の消費電力を実行するために時間外稼働しているシリコンチップがあります。Ambiqは、先進のサブスレッショルド電力最適化技術（^SPOT®）プラットフォームとシステムオンチップ（SoC）により、このようなエッジデバイスがこれまでにないレベルの効率性と超低消費電力で音声認識を実行できるよう支援します。さらに、neuralSPOTのModelZooに当社のNNSE（Neural Network Speech Enhancement）を導入することで、音声の背景雑音をリアルタイムで除去できるようになり、さまざまな雑音の多い環境でもきれいな音声を取り込めるようになりました。ボイスメモ録音からボイスチャット、音声認識まで、NNSEはIoTエッジデバイス上で最小限のレイテンシとエネルギー使用で動作するように最適化されています。

Sources:

¹ 音声認識｜2021年9月

² 音声認識の歴史｜2023年

³ BofAのエリカ、顧客との対話が15億回を突破、1000万時間を超える｜2023年7月13日

⁴ 仮想アシスタント技術 - 統計と事実｜2023年6月7日

⁵ チャットボット（テキスト、音声、ビデオ）市場 - 2028年までの世界予測 - 没入型顧客体験のためのチャットボットにおける生成モデルの利用増加が市場を牽引｜2023年5月19日

⁶ 2023年の音声アシスタント：AI音声アシスタント市場の用途、成長、将来性｜2023年1月13日

⁷ カスタマー・エクスペリエンスカスタマージャーニーの変革を通じて価値を創造する｜2016年冬号

⁸ Otter.ai｜2023年

⁹ AIの台頭とチーム・コラボレーションの向上｜2020年12月17日

Sep 06. 23