• 產品
  • 應用
  • 技術
  • 工具
  • 關於我們
  • 每個人都在談論語音識別 AI

    目錄
      Everyones Talking About Speech Recognition 2

      語音辨識與語音人工智慧(AI)是「語音優先」溝通的新回歸。 思想領袖與人工智慧專家讚譽「聲音優先」的概念為下一波大浪潮——回歸我們彼此對話時所獲得的豐富體驗。

      語音自然是最直觀的溝通形式之一;社區在書面文字之前通過故事口頭傳遞記憶、文化和歷史。

      Voice-first 已經超越了 Alexa 應用程式或 Siri 指令;其原則基於 Voice-First 比傳統數位介面更強大、更友善、更具沉浸感且速度更快。 「語音優先」的核心組成部分是語音辨識,即機器或程式辨識詞語和片語的能力。 本文將探討語音辨識的定義、人工智慧如何革新語音辨識,以及語音辨識 AI 在現實世界的應用。

      什麼是語音辨識?

      根據TechTarget的說法,「語音辨識是機器或程式識別口語中的詞語和片語,並將其轉換成機器可讀格式的能力1。」 1952年,貝爾實驗室開發了「Audrey」系統,能辨識單一聲音的數字。十年後,科技巨頭IBM開發了「Shoebox」,一個能理解並回應16個不同英文單字的程式。

      到了1980年代,語音辨識技術從幾個字進步到數千個。 1990年代,個人電腦的快速普及帶動語音技術爆炸性發展,到了2001年,語音辨識技術準確率接近80%。

      現代語音技術的歷史始於2000年代中期Google語音搜尋的推出。 Google 開發語音搜尋,將語音技術帶入一般消費者手中,而蘋果於 2011 年推出的 Siri 則開啟了語音技術的新領域。

      人工智慧如何徹底改變語音辨識?

      與許多行業一樣,人工智慧的採用和創建徹底改變了語音識別,降低了成本,改善了客戶服務,並幫助企業保持和定義競爭優勢。乘著以人工智慧為重點的專利浪潮,公司開始開發其專有的語音技術,以推動更積極的客戶體驗。例如,美國銀行於 2018 年推出了第一個廣泛使用的虛擬財務助理 Erica,並於 2023 年 6 月的客戶互動次數超過 1.5 億次3。Erica 的快速增長和採用標誌著消費者對 語音分析和 技術的舒適度不斷提高。美國銀行的客戶與這位助理互動的時間為三百萬小時,同比增長了 31%。

      語音辨識技術在實際商業應用包括聊天機器人、語音搜尋、自然語言生成及情感分析。 從自動化生產線檢查,到分析大量數據以判斷正面或負面情緒,語音辨識 AI 應用於各種產業與技術。

      語音辨識人工智慧的發展

      就像許多人工智慧技術一樣,未來就在現在。 到2024年,全球支援語音的裝置數量將與全球人口相當——大約80億4人。 僅僅幾年後,2030年,全球語音助理市場預計將突破140億美元。 同樣地,聊天機器人的複合年增長率(CAGR)可能更高。 2023年,全球聊天機器人市場估計規模為50億美元,並預計到2028年將成長300%。

      Everyones Talking About Speech Recognition

      語音辨識 AI 的實際應用

      語音助手

      亞馬遜的 Alexa、Google 助理和蘋果的 Siri 都是大多數消費者之前用過的語音助理。 預計三年內,約有50%的人類每月會使用語音助理,而千禧世代和Z世代更有可能經常互動

      客戶滿意度和自助服務

      主動且個人化的客戶互動能提升客戶滿意度,並增強他們回答問題、解決問題等能力。 91%的顧客會想使用自助服務工具,使用後他們報告滿意度7提升了19%。

      翻譯服務和對話式 AI

      Google 翻譯等服務可在不同語言之間快速翻譯語音,而 IBM 的 Watson Assistant 等對話工具可協助企業建立自己的對話介面。

      音訊和視訊會議的轉錄

      Otter.ai 等工具可以記錄 AI 生成的語音會議記錄並提供會議的實時轉錄8.

      殘障人士輔助科技

      無輔助通訊系統會利用身體來傳遞訊息。 對於有語音或聽力障礙者,語音辨識技術將改善溝通並使科技更易取得。

      人工智慧在語音辨識中的好處

      為什麼語音增強與去噪在物聯網及個人行動裝置中如此重要? 尤其在嘈雜環境中,語音增強能幫助人們更有效率地溝通,透過消除背景噪音。

      增強團隊協作

      語音辨識 AI 有助於消除語言障礙,提升團隊凝聚力與協作力 9. 清晰、清晰的音訊能提升理解力,讓全球團隊能更好地合作。

      提高效率

      在擁擠的公共空間,如繁忙的客服中心或咖啡廳,背景噪音可能干擾語音效果,因為來電者聽不到彼此,或有誤會的風險。 來電者不必重複多次,也不必花費認知能量試圖從過多的背景噪音中辨識字詞。

      Ambiq 的貢獻

      聊天機器人、語音助理和其他語音辨識設備的核心是超時運行的矽晶片,以執行耗電的人工智慧和語音辨識。憑藉我們先進的 亞閾值功耗優化技術 (SPOT)® 平台和 片上系統 (SoC),Ambiq 幫助此類邊緣設備以前所未有的效率和超低功耗水平執行語音識別。此外,隨著我們將神經 網路語音增強 (NNSE) 引入 neuralSPOT 的 ModelZoo,現在可以即時消除裝置上的語音背景噪音,從而在一系列嘈雜的環境中捕捉乾淨的語音。從語音備忘錄錄製到語音聊天再到語音識別,NNSE 經過最佳化,可在物聯網邊緣裝置上運行,並具有最小的延遲和能源利用率。

      來源

      1 語音辨識 |2021 年 9 月

      2 語音辨識簡史 |2023

      3 美國銀行的 Erica 與客戶互動次數突破十五億次,對話總時數超過 10,000,000 小時 |2023 年 7 月 13 日

      4 虛擬助理技術 – 統計與事實 |2023 年 6 月 7 日

      第 5 章聊天機器人(文字、音訊和視訊)市場 – 到 2028 年的全球預測 – 聊天機器人中生成模型的使用不斷增加,以提供沉浸式客戶體驗,從而推動市場發展 |2023 年 5 月 19 日

      2023 年的 6 款語音助手:人工智能語音助手市場的使用、增長和未來 |2023 年 1 月 13 日

      7 客戶體驗:透過改變客戶旅程創造價值 |2016 年冬季

      8 Otter.ai |2023

      9 AI 語音增強的興起與更好的團隊協作 |2020 年 12 月 17 日

      訂閱新聞通訊

        準備下載