应用程序的数量和语音接口的重要性正在迅速增长
技术

应用程序的数量和语音接口的重要性正在迅速增长

俄勒冈州波特兰的一个美国家庭最近获悉,亚历克斯的语音助手记录了他们的私人聊天并将其发送给朋友。 这所房子的主人,被媒体称为丹妮尔,告诉记者她“永远不会再连接这个设备,因为她不能被信任”。

Alexa的由 Echo (1) 扬声器和数以千万计的美国家庭中的其他小工具提供,当它听到用户说出它的名字或“呼叫词”时开始录制。 这意味着即使电视广告中提到了“Alexa”这个词,设备也可能开始录制。 硬件分销商亚马逊说,这正是在这种情况下发生的事情。

该公司在一份声明中说:“语音助手将对话的其余部分解释为发送消息的命令。” “在某个时候,Alexa 大声问:“给谁?” 机器本应将有关硬木地板的家庭对话继续视为客户联系人列表中的项目。” 至少亚马逊是这么认为的。 因此,翻译被简化为一系列事故。

然而,焦虑依然存在。 因为出于某种原因,在一个我们仍然感到安心的房子里,我们必须进入某种“语音模式”,看我们说什么,看电视正在播放什么,当然还有胸前的这个新扬声器。抽屉说。 我们。

尽管如此, 尽管存在技术缺陷和隐私问题,但随着亚马逊 Echo 等设备的普及,人们开始习惯使用语音与计算机交互的想法。.

正如亚马逊首席技术官 Werner Vogels 在 2017 年底的 AWS re:Invent 会议上指出的那样,迄今为止,技术限制了我们与计算机交互的能力。 我们使用键盘在 Google 中输入关键字,因为这仍然是向机器输入信息的最常见和最简单的方法。

沃格尔斯说。 -

四大

在手机上使用谷歌搜索引擎时,我们可能注意到很久以前有一个麦克风标志,上面有一个通话功能。 这 谷歌现在 (2),可以口述搜索查询,语音输入消息等。近年来,谷歌、苹果、亚马逊都有很大的改进 语音识别技术. Alexa、Siri 和 Google Assistant 等语音助手不仅可以录制您的声音,还可以了解您对他们说的话并回答问题。

所有 Android 用户均可免费使用 Google Now。 例如,该应用程序可以设置警报、查看天气预报和查看谷歌地图上的路线。 Google Now 状态的会话扩展 谷歌助理 () – 对设备用户的虚拟帮助。 它主要在移动和智能家居设备上可用。 与 Google Now 不同,它可以参与双向交流。 该助手于 2016 年 3 月作为 Google 消息应用程序 Allo 的一部分以及 Google Home 语音扬声器 (XNUMX) 首次亮相。

3.谷歌主页

IOS系统也有自己的虚拟助手, Siri,这是一个包含在 Apple 操作系统 iOS、watchOS、tvOS homepod 和 macOS 中的程序。 Siri 于 5 年 4 月在 Let's Talk iPhone 大会上随 iOS 2011 和 iPhone XNUMXs 首次亮相。

该软件基于对话界面:它可以识别用户的自然语音(在 iOS 11 中也可以手动输入命令)、回答问题并完成任务。 由于机器学习的引入,随着时间的推移成为助手 分析个人喜好 用户提供更相关的结果和建议。 Siri 需要持续的互联网连接——这里的主要信息来源是 Bing 和 Wolfram Alpha。 iOS 10 引入了对第三方扩展的支持。

四大巨头中的另一个 小娜. 它是微软创建的智能个人助理。 它在 Windows 10、Windows 10 Mobile、Windows Phone 8.1、Xbox One、Skype、Microsoft Band、Microsoft Band 2、Android 和 iOS 平台上受支持。 Cortana 于 2014 年 XNUMX 月在旧金山举行的 Microsoft Build 开发者大会上首次推出。 该程序的名称来自 Halo 游戏系列中的一个角色的名称。 Cortana 提供英语、意大利语、西班牙语、法语、德语、中文和日语版本。

已经提到的程序的用户 Alexa的 他们还必须考虑语言限制——数字助理只会说英语、德语、法语和日语。

亚马逊虚拟助手最初用于亚马逊 Lab126 开发的亚马逊 Echo 和亚马逊 Echo Dot 智能音箱。 它支持语音交互、音乐播放、待办事项列表创建、闹钟设置、播客流、有声读物播放,以及实时天气、交通、体育和其他新闻信息,如新闻 (4)。 Alexa 可以控制多个智能设备来创建家庭自动化系统。 它也可以用来在亚马逊商店进行方便的购物。

4. 用户使用 Echo 做什么(根据研究)

用户可以通过安装 Alexa“技能”() 来增强 Alexa 体验,这是由第三方开发的附加功能,通常称为其他设置中的天气和音频程序等应用程序。 大多数 Alexa 设备允许您使用唤醒密码(称为 .

亚马逊无疑在当今的智能音箱市场占据主导地位 (5)。 2018 年 XNUMX 月推出新服务的 IBM 正努力进入前四 沃森的助手,专为希望创建自己的语音控制虚拟助手系统的公司而设计。 IBM 解决方案的优势是什么? 据公司代表称,首先,个性化和隐私保护的机会更大。

首先,Watson Assistant 没有品牌。 公司可以在这个平台上创建自己的解决方案,并贴上自己的品牌标签。

其次,他们可以使用自己的数据集训练他们的辅助系统,IBM 表示,与其他 VUI(语音用户界面)技术相比,这使得向该系统添加功能和命令更容易。

第三,Watson Assistant 不向 IBM 提供有关用户活动的信息——平台上的解决方案开发人员只能将有价值的数据留给自己。 同时,任何使用 Alexa 构建设备的人都应该意识到,他们的宝贵数据最终会出现在亚马逊上。

Watson Assistant 已经有多个实现。 例如,该系统被 Harman 使用,该公司为玛莎拉蒂概念车 (6) 创建了语音助手。 在慕尼黑机场,IBM 助手为 Pepper 机器人提供动力,帮助乘客四处走动。 第三个例子是 Chameleon Technologies,语音技术用于智能家居仪表。

6. 玛莎拉蒂概念车中的 Watson Assistant

值得补充的是,这里的底层技术也不是新的。 Watson Assistant 包括现有 IBM 产品、Watson Conversation 和 Watson Virtual Agent 的加密功能,以及用于语言分析和聊天的 API。

亚马逊不仅是智能语音技术的领导者,而且正在将其转变为直接业务。 然而,一些公司更早地尝试了 Echo 集成。 BI 和分析行业的公司 Sisense 于 2016 年 XNUMX 月推出了 Echo 集成。 反过来,初创公司 Roxy 决定为酒店业创建自己的语音控制软件和硬件。 今年早些时候,Synqq 推出了一款笔记应用程序,该应用程序使用语音和自然语言处理来添加笔记和日历条目,而无需在键盘上键入它们。

所有这些小企业都有很高的抱负。 然而,最重要的是,他们了解到并非每个用户都希望将他们的数据传输到亚马逊、谷歌、苹果或微软,这些都是构建语音通信平台的最重要参与者。

美国人想买

2016年,语音搜索占谷歌所有移动搜索的20%。 每天使用这项技术的人都认为它的便利性和多任务处理是其最大的好处。 (例如,驾驶汽车时使用搜索引擎的能力)。

Visiongain分析师估计,目前智能数字助理的市值为1,138亿美元,这样的机制越来越多。 根据 Gartner 的数据,到 2018 年底 30% 的互动 技术将通过与语音系统的对话来实现。

英国研究公司 IHS Markit 估计,人工智能驱动的数字助理市场到今年年底将达到 4 亿台设备,到 2020 年这个数字可能会上升到 7 亿台。

根据 eMarketer 和 VoiceLabs 的报告,2017 年有 35,6 万美国人每月至少使用一次语音控制。 这意味着比上一年增长了近 130%。 仅数字助理市场预计将在 2018 年增长 23%。 这意味着您将已经在使用它们。 60,5万美国人,这将为他们的生产者带来具体的资金。 RBC Capital Markets 估计,到 2020 年,Alexa 界面将为亚马逊带来高达 10 亿美元的收入。

洗、烤、洗!

语音接口越来越大胆地进入家用电器和消费电子市场。 这在去年的 IFA 2017 展会上已经可以看到。例如,美国公司 Neato Robotics 推出了一款机器人吸尘器,它可以连接到包括亚马逊 Echo 系统在内的多个智能家居平台之一。 通过与 Echo 智能扬声器交谈,您可以指示机器在白天或晚上的特定时间清洁您的整个房子。

展会上还展示了其他声控产品,从土耳其公司 Vestel 以东芝品牌销售的智能电视到德国公司 Beurer 的加热毯。 许多这些电子设备也可以使用智能手机远程激活。

然而,根据博世代表的说法,现在说哪种家庭助理选项将成为主导还为时过早。 在 IFA 2017 上,一家德国技术集团展示了连接 Echo 的洗衣机 (7)、烤箱和咖啡机。 博世还希望其设备在未来能够与谷歌和苹果语音平台兼容。

7.连接亚马逊Echo的博世洗衣机

富士通、索尼和松下等公司正在开发自己的基于人工智能的语音助手解决方案。 夏普正在将这项技术添加到进入市场的烤箱和小型机器人中。 Nippon Telegraph & Telephone 正在招聘硬件和玩具制造商,以适应语音控制的人工智能系统。

旧概念。 她的时代终于到来了吗?

事实上,语音用户界面 (VUI) 的概念已经存在了几十年。 多年前看过《星际迷航》或《2001:太空漫游》的任何人都可能预计,在 2000 年左右,我们都将用自己的声音控制计算机。 此外,不仅仅是科幻作家看到了这种界面的潜力。 1986 年,尼尔森研究人员询问 IT 专业人士,他们认为到 2000 年用户界面的最大变化是什么。 他们最常提到语音接口的发展。

有理由希望这样的解决方案。 语言交流毕竟是人们有意识地交流思想最自然的方式,因此将其用于人机交互似乎是迄今为止最好的解决方案。

最早的 VUI 之一,称为 鞋盒,由 IBM 在 60 年代初创建。 它是当今语音识别系统的先驱。 然而,VUI 设备的发展受到了计算能力的限制。 实时解析和解释人类语音需要付出很多努力,并且花了五十多年的时间才真正成为可能。

带有语音接口的设备在 90 年代中期开始量产,但并未普及。 第一部带有语音控制(拨号)的电话是 飞利浦火花1996 年发布。 然而,这种创新且易于使用的设备并非没有技术限制。

其他配备语音接口形式的手机(由 RIM、三星或摩托罗拉等公司开发)定期投放市场,允许用户通过语音拨号或发送短信。 然而,所有这些都需要记住特定的命令,并以强制的、人为的形式发音,以适应当时设备的功能。 这会产生大量错误,进而导致用户不满。

然而,我们现在正在进入一个新的计算时代,在这个时代,机器学习的进步和人工智能的发展正在释放对话作为与技术交互的新方式的潜力 (8)。 支持语音交互的设备数量已经成为影响VUI发展的重要因素。 如今,全球近 1/3 的人口已经拥有可用于此类行为的智能手机。 看起来大多数用户终于准备好适应他们的语音界面了。

8. 语音界面的现代发展史

然而,在我们能够像《太空漫游》中的角色那样自由地与计算机对话之前,我们必须克服许多问题。 机器仍然不能很好地处理语言上的细微差别。 除了 许多人仍然对向搜索引擎发出语音命令感到不舒服.

统计数据显示,语音助手主要用于家庭或亲密朋友之间。 受访者均未承认在公共场所使用语音搜索。 但是,这种封锁很可能会随着这项技术的普及而消失。

技术难题

系统 (ASR) 面临的问题是从语音信号中提取有用的数据,并将其与对人具有特定含义的特定单词相关联。 每次发出的声音都不一样。

语音信号可变性 是它的自然属性,因此我们可以识别口音或语调。 语音识别系统的每个元素都有特定的任务。 基于处理后的信号及其参数,创建与语言模型相关联的声学模型。 识别系统可以在少量或大量模式的基础上工作,这决定了它所使用的词汇量的大小。 他们可能是 小词典 对于识别单个单词或命令的系统,以及 大型数据库 包含语言集的等价物并考虑到语言模型(语法)。

语音接口首先面临的问题 正确理解语音,其中,例如,经常省略整个语法序列,语言和语音错误,错误,遗漏,语音缺陷,同音异义,不合理的重复等。所有这些ACP系统都必须快速可靠地工作。 至少这些是期望。

困难的来源也是进入识别系统输入的识别语音以外的声学信号,即所有种类 干扰和噪声. 在最简单的情况下,您需要它们 过滤掉. 这项任务看起来既常规又简单——毕竟,各种信号都经过过滤,每个电子工程师都知道在这种情况下该怎么做。 但是,如果语音识别的结果要达到我们的预期,这必须非常小心谨慎。

当前使用的滤波可以与语音信号一起去除麦克风拾取的外部噪声以及语音信号本身的内部特性,这些特性使其难以识别。 然而,当对被分析的语音信号的干扰是……另一个语音信号时,就会出现一个更复杂的技术问题,例如,周围的大声讨论。 这个问题在文献中被称为所谓的。 这已经需要使用复杂的方法,即所谓的。 反卷积 (解开)信号。

语音识别的问题还不止于此。 值得注意的是,语音承载着许多不同类型的信息。 人声暗示主人的性别、年龄、不同的性格或他的健康状况。 有一个广泛的生物医学工程系根据语音信号中发现的特征声学现象来处理各种疾病的诊断。

还有一些应用,语音信号的声学分析的主要目的是识别说话者或验证他是他声称的身份(语音而不是密钥、密码或 PUK 码)。 这可能很重要,尤其是对于智能建筑技术。

语音识别系统的第一个组件是 麦克风. 但是,麦克风拾取的信号通常几乎没有用处。 研究表明,声波的形状和过程会因人、说话的速度以及对话者的心情而有很大的不同——而它们在很小的程度上反映了口头命令的内容。

因此,必须正确处理信号。 现代声学、语音学和计算机科学共同提供了一套丰富的工具,可用于处理、分析、识别和理解语音信号。 信号的动态频谱,即所谓的 动态频谱图. 它们相当容易获得,并且以动态频谱图的形式呈现的语音相对容易识别,使用类似于图像识别中使用的技术。

简单的语音元素(例如命令)可以通过整个频谱图的简单相似性来识别。 例如,一个语音激活的手机词典只包含几十到几百个单词和短语,通常是预先堆叠的,以便可以轻松有效地识别它们。 这对于简单的控制任务来说已经足够了,但它严重限制了整体应用。 根据该计划构建的系统通常仅支持经过特殊训练的特定扬声器。 所以如果有新人想用他们的声音来控制系统,他们很可能不会被接受。

此操作的结果称为 频谱图 2-W,即二维谱。 这个区块还有一个值得关注的活动—— 分割. 一般来说,我们所说的是将连续的语音信号分解成可以单独识别的部分。 只有从这些单独的诊断中,才能对整体进行识别。 这个过程是必要的,因为不可能一次性识别冗长而复杂的语音。 关于在语音信号中区分哪些片段已经写了整卷,所以我们现在不会决定区分的片段应该是音素(声音等价物)、音节还是同位异音。

自动识别的过程总是涉及到物体的某些特征。 对语音信号进行了数百组不同参数的测试,语音信号有 分为识别帧 并拥有 选定的功能在识别过程中呈现这些帧,我们可以执行(分别为每个帧) 分类, IE。 为框架分配一个标识符,它将在将来表示它。

下一阶段 将框架组装成单独的单词 - 通常基于所谓的。 隐式马尔可夫模型 (HMM-)。 然后是文字的蒙太奇 完整的句子.

我们现在可以暂时回到 Alexa 系统。 他的例子展示了机器“理解”一个人的多阶段过程——更准确地说:他给出的命令或提出的问题。

理解单词、理解含义和理解用户意图是完全不同的事情。

因此,下一步就是NLP模块()的工作了,其任务是 用户意图识别, IE。 命令/问题在其发出的上下文中的含义。 如果确定了意图,则 分配所谓的技能和能力,即智能助手支持的具体功能。 如果是关于天气的问题,则调用天气数据源,这些数据源仍有待处理成语音(TTS - 机制)。 结果,用户听到了所提问题的答案。

嗓音? 图形艺术? 或者两者兼而有之?

大多数已知的现代交互系统都基于称为 图形用户界面 (图形界面)。 不幸的是,GUI 并不是与数字产品交互的最明显方式。 这要求用户首先学习如何使用界面,并在每次后续交互中记住这些信息。 在许多情况下,语音更方便,因为您只需与设备对话即可与 VUI 进行交互。 不强制用户记住和记住某些命令或交互方法的界面导致的问题更少。

当然,VUI 的扩展并不意味着放弃更多的传统界面——相反,将出现结合多种交互方式的混合界面。

语音界面并不适合移动环境中的所有任务。 有了它,我们可以打电话给开车的朋友,甚至给他发短信,但检查最新的转账可能太困难了——由于传输到系统 () 和由系统 (系统) 生成的信息量很大。 正如 Rachel Hinman 在她的 Mobile Frontier 一书中建议的那样,在执行输入和输出信息量较小的任务时,使用 VUI 变得最有效。

连接到互联网的智能手机很方便,但也很不方便 (9)。 每次用户想要购买东西或使用新服务时,他们都必须下载另一个应用程序并创建一个新帐户。 这里创建了语音接口的使用和开发领域。 专家表示,VUI 不会强迫用户安装许多不同的应用程序或为每项服务创建单独的帐户,而是将这些繁琐任务的负担转移到人工智能驱动的语音助手上。 方便他进行剧烈的活动。 我们只会给他命令。

9. 智能手机语音界面

今天,连接到 Internet 的不仅仅是电话和计算机。 智能恒温器、灯、水壶和许多其他物联网集成设备也连接到网络 (10)。 因此,我们周围到处都有无线设备充斥着我们的生活,但并不是所有的无线设备都能自然地融入图形用户界面。 使用 VUI 将帮助您轻松地将它们集成到我们的环境中。

10. 物联网语音接口

创建语音用户界面将很快成为设计师的一项关键技能。 这是一个真正的问题——实现语音系统的需要会鼓励您更多地关注主动设计,即尝试了解用户的最初意图,在对话的每个阶段预测他们的需求和期望。

语音是一种输入数据的有效方式——它允许用户根据自己的条件快速向系统发出命令。 另一方面,屏幕提供了一种高效的信息显示方式:它允许系统同时显示大量信息,减轻用户的记忆负担。 将它们组合成一个系统听起来令人鼓舞是合乎逻辑的。

Amazon Echo 和 Google Home 等智能扬声器根本不提供视觉显示。 显着提高了中等距离语音识别的准确性,它们允许免提操作,从而提高了它们的灵活性和效率——即使对于已经拥有语音控制智能手机的用户来说,它们也是理想的。 但是,缺少屏幕是一个巨大的限制。

只能使用哔哔声来通知用户可能的命令,并且除了最基本的任务之外,大声阅读输出变得乏味。 在烹饪时使用语音命令设置计时器很棒,但没有必要让您询问还剩多少时间。 定期获取天气预报对用户来说是对记忆力的考验,用户必须整周聆听和吸收一系列事实,而不是一眼就从屏幕上拿起它们。

设计师们已经 混合解决方案, Echo Show (11),在基本的 Echo 智能音箱上增加了显示屏。 这极大地扩展了设备的功能。 但是,Echo Show 执行智能手机和平板电脑上早已具备的基本功能的能力仍然差很多。 例如,它(还)不能上网、显示评论或显示亚马逊购物车的内容。

视觉显示本质上是一种更有效的方式,可以为人们提供丰富的信息,而不仅仅是声音。 语音优先设计可以大大提升语音交互,但长期来看,为了交互而随意不使用可视化菜单,就如同背负着一只手打架。 由于端到端智能语音和显示界面迫在眉睫的复杂性,开发人员应该认真考虑界面的混合方法。

提高语音生成和识别系统的效率和速度,使其可以在以下应用和领域中使用,例如:

• 军事(飞机或直升机中的语音命令,例如 F16 VISTA),

• 自动文本转录(语音转文本),

• 交互式信息系统(Prime Speech、语音门户),

• 移动设备(手机、智能手机、平板电脑),

• 机器人(Cleverbot - 结合人工智能的 ASR 系统),

• 汽车(免提控制汽车部件,例如 Blue & Me),

• 家庭应用程序(智能家庭系统)。

注意安全!

汽车、家用电器、加热/冷却和家庭安全系统以及许多家用电器开始使用语音界面,通常是基于人工智能的。 在这个阶段,从与机器的数百万次对话中获得的数据被发送到 计算云. 很明显,营销人员对它们很感兴趣。 而且不仅是他们。

赛门铁克安全专家最近的一份报告建议,语音命令用户不要控制门锁等安全功能,更不用说家庭安全系统了。 存储密码或机密信息也是如此。 人工智能和智能产品的安全性尚未得到充分研究。

当整个家庭的设备听每个字时,系统被黑客入侵和滥用的风险就成为一个巨大的问题。 如果攻击者获得对本地网络或其关联电子邮件地址的访问权限,则可以更改智能设备设置或将其重置为出厂设置,这将导致有价值信息的丢失和用户历史记录的删除。

换句话说,安全专家担心语音驱动的 AI 和 VUI 还不够聪明,无法保护我们免受潜在威胁,并在陌生人提出要求时让我们闭嘴。

添加评论