人人都在谈论人工智能语音识别技术

Everyones Talking About Speech Recognition 2

语音识别和语音人工智能（AI）是 "语音优先 "通信的新回归。思想领袖和人工智能专家预言，语音优先通信的概念将是下一个大浪潮-我们将重新获得语音通话时的丰富体验。

声音自然是最直观的交流形式之一；在文字出现之前，社区通过故事口头传承记忆、文化和历史。

语音优先的基础远不止是 Alexa 应用程序或 Siri 命令；其原则依赖于这样一个事实，即语音优先比传统数字界面更强大、更友好、更身临其境、更快捷。语音优先 "的核心是语音识别，即机器或程序识别单词和短语的能力。本文将介绍语音识别的定义、人工智能如何彻底改变语音识别，以及语音识别人工智能在现实世界中的应用。

什么是语音识别？

根据 TechTarget 的说法，"语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力¹"。 1952 年，贝尔实验室开发出了 "奥黛丽 "系统，可以识别一个声音大声说出的数字。十年后，科技巨头 IBM 开发出了 "鞋盒"，这是一个可以理解并响应 16 个不同英语单词的程序。

到 20 世纪 80 年代，语音识别技术已从少数几个单词发展到数千个单词。 20 世纪 90 年代，个人电脑的迅速普及带动了语音技术的迅猛发展，到 2001 年，语音识别技术的准确率已接近 80%。

现代语音技术的历史始于 2000 年代^中期谷歌语音搜索的推出2。谷歌开发的语音搜索将语音技术带入了普通消费者的生活，而苹果公司在 2011 年开发的 Siri 则开创了语音技术的新领域。

人工智能如何彻底改变语音识别？

与许多行业一样，人工智能的应用和创造为语音识别带来了革命性的变化，降低了成本，改善了客户服务，帮助企业保持并确定了竞争优势。在以人工智能为重点的专利浪潮中，各公司开始开发自己的专有语音技术，以推动更积极的客户体验。例如，美国银行于 2018 年推出了首个广泛使用的虚拟金融助理 Erica，并于²⁰²³ 年 6 月突破了 15 亿次客户互动。Erica 的快速增长和采用表明，消费者对语音分析和技术的舒适度越来越高。美国银行客户与该助手的互动时间已达 300 万小时，同比增长 31%。

语音识别技术在现实生活中的商业应用包括聊天机器人、语音搜索、自然语言生成和情感分析。从生产线上的自动检测到分析大块数据以确定积极或消极情绪，语音识别人工智能适用于各种行业和技术。

语音识别人工智能的发展

与许多人工智能技术一样，未来就是现在。 2024 年，全球语音设备的数量将与全球人口数量相当-约为 80^亿4。短短几年后，到 2030 年，全球语音助手市场预计将达到 140 亿美元以上。同样，聊天机器人的复合年增长率（CAGR）可能会更高。 2023 年，全球聊天机器人市场规模估计为 50 亿美元，到²⁰²⁸ 年将增长 300%85 。

Everyones Talking About Speech Recognition

语音识别人工智能在现实世界中的应用

语音助手

亚马逊的 Alexa、谷歌助手和苹果的 Siri 都是大多数消费者曾经使用过的语音助手。据估计，三年内将有 50% 的人每月使用语音助手，其中千禧一代和 Z 世代更有可能^经常使用6。

客户满意度和自助服务

主动和个性化的客户参与可以提高客户满意度，增强客户回答问题和解决问题的能力。 91% 的客户希望使用自助服务工具，使用后，他们的满意度提高了^19%7 。

翻译服务和人工智能对话

谷歌翻译（Google Translate）等服务可以在不同语言之间快速翻译语音，IBM 的沃森助理（Watson Assistant）等会话工具可以帮助企业创建自己的会话界面。

会议音像转录

Otter.ai 等工具可记录人工智能生成的语音会议记录，并为会议提供实时转录⁸。

肢体残疾人辅助技术

无辅助通信系统将利用身体传递信息。对于有语言或音频障碍的人来说，语音识别技术将改善沟通，使技术更易于使用。

人工智能在语音识别中的优势

为什么语音增强和去噪在物联网和个人移动设备中非常重要？特别是在嘈杂的环境中，语音增强功能可以消除背景噪音，帮助人们更有效、更高效地进行交流。

加强团队协作

人工智能语音识别有助于消除语言障碍，增强团队凝聚力和协作性⁹。清晰明快的音频可提高理解和领悟能力，让全球团队更好地协同工作。

提高效率

在繁忙的呼叫中心或咖啡厅等拥挤的公共场所，背景噪声会影响通话效果，因为通话者听不清对方的声音，或有可能产生误解。来电者不需要多次重复，也不需要花费认知能量来从过多的背景噪音中解读文字。

Ambiq 如何做出贡献

聊天机器人、语音助手和其他语音识别设备的核心是加班运行的硅芯片，以执行耗电的人工智能和语音识别。凭借我们先进的亚阈值功耗优化技术(^SPOT®) 平台和片上系统(SoC)，Ambiq 可以帮助这些边缘设备以前所未有的效率和超低功耗执行语音识别。此外，通过在 neuralSPOT 的 ModelZoo 中引入神经网络语音增强 (NNSE)，现在可以在设备上实时消除语音背景噪声，从而在各种嘈杂环境中实现纯净的语音捕获。从语音备忘录录制、语音聊天到语音识别，NNSE 经过优化，可在物联网边缘设备上运行，并将延迟和能耗降至最低。

资料来源

¹ 语音识别| 2021 年 9 月

² 语音识别简史| 2023年

³ 博雅埃里卡的客户互动次数突破 15 亿次，对话总时长超过 1000 万小时 |2023 年 7 月 13 日

⁴ 虚拟助理技术 - 统计数据与事实| 2023 年 6 月 7 日

⁵ 聊天机器人（文本、音频和视频）市场-全球预测（至 2028 年）-在聊天机器人中使用生成模型以获得身临其境的客户体验的趋势将推动市场发展| May 19, 2023

2023 年的 ^{6 个} 语音助手：人工智能语音助手市场的使用、增长和未来 | 2023年1月13日

⁷ 客户体验：通过改变客户旅程创造价值 |2016 年冬季

⁸ Otter.ai |2023

⁹ 人工智能语音增强技术的崛起与更好的团队协作| 2020 年 12 月 17 日

Sep 06. 23