替换语音助手,语音助手开发语言

“语音助手”这一形式已经十分常见,它通常可以回答用户的某些问题,并为用户成功地答疑解惑。不过,语音助手虽然可以解决某些用户任务,但当任务的繁琐程度升高时,语音助手可发挥的

本文最后更新时间:  2023-03-05 07:31:00

“语音助手”这一形式已经十分常见,它通常可以回答用户的某些问题,并为用户成功地答疑解惑。不过,语音助手虽然可以解决某些用户任务,但当任务的繁琐程度升高时,语音助手可发挥的余地便会受限。那么,可以用什么样的方式,来解决语音助手所存在的问题呢?

前言:语音助手是目前最流行的语音用户界面用例。然而,由于语音助理通过与用户交谈来提供反馈,因此语音助手只能解决简单的用户任务,例如设置闹钟或播放音乐。为了让语音用户界面真正取得突破,给用户的反馈必须是可视化的,而不是听觉的。

对大多数人来说,当想到语音用户界面时,首先想到的是语音助手,如Siri、Amazon Alexa或谷歌Assistant。事实上,语音助手是大多数人使用语音与计算机系统交互的唯一环境。

虽然语音助手将语音用户界面带到了主流,但助理范式不是使用、设计和创建语音用户界面的唯一方式,甚至不是最好的方式。

在本文中,笔者将讨论语音助手所面临的问题,并提出一种新的语音用户界面方法,我称之为直接语音交互。

一、语音助手是基于语音的聊天机器人

语音助手是一种使用自然语言代替图标和菜单作为用户界面的软件。语音助手通常回答用户的问题,并积极主动地为用户提供帮助。

语音助手与简单直接的处理事务和指令不同,而是模仿人类对话,并双向使用自然语言作为交互模式,这意味着它既接受用户的输入,又通过使用自然语言向用户回答。

第一批助手是基于对话的问答系统。一个早期的例子是微软的Clippy,它糟糕地试图帮助微软Office的用户,根据它认为用户想要完成的任务给出指令。而如今,助手范式的一个典型用例是聊天机器人,通常用于聊天讨论中担任客服。

另一方面,语音助手是使用语音而不是打字和文本的聊天机器人。用户的输入不是选择或文本,而是语音,系统的响应也是发声朗读出来。这些助手可以是通用助手,如谷歌助手或Alexa,可以合理地回答许多问题,也可以是为特殊目的而构建的定制助理,如快餐订购。

尽管用户的输入通常只有一两个词,并且可以作为选择选项而不是实际文本呈现,但随着技术的发展,人机对话将更加开放和复杂。聊天机器人和语音助手的第一个特性是使用自然语言以及对话风格,而不是典型的移动应用程序或网站用户体验的图标、菜单和交互风格。

自然语言反应的第二个决定性特征是表象人格的错觉。系统使用的语气、质量和语言定义了语音助手的体验、同理心和服务敏感性的错觉,以及它的人格角色。良好的助理体验的想法就像与一个真人打交道。

由于语音是我们最自然的交流方式,这听起来可能很棒,但使用自然语言响应有两个主要问题。其中一个问题与计算机如何模仿人类有关,可能会在未来随着对话式人工智能技术的发展得到解决,但人类大脑如何处理信息的问题是一个人类问题,在可预见的未来是无法解决的。下面让我们来看看这些问题。

二、自然语言响应的两个问题

语音用户界面当然是使用语音作为一种方式的用户界面。但语音模式可用于两个方向:从用户输入信息和从系统向用户输出信息。例如,一些电梯在用户按下按钮后使用语音合成来确认用户选择。我们稍后将讨论仅使用语音输入信息的语音用户界面,并使用传统的图形用户界面将信息显示回馈给用户。

另一方面,语音助手使用语音进行输入和输出。这种方法有两个主要问题:

问题1:模仿人类失败

作为人类,我们有一种天生的倾向,将类似人类的特征归因于非人类的物体。我们在飘过的云朵中看到一个人的容貌,或者看着一块三明治,它似乎在对我们笑。这被称为拟人化。

这种现象也适用于语音助手,它是由他们的自然语言反应触发的。虽然图形用户界面可以构建得有点中性,但人类不可能不开始思考某人的声音是属于年轻人还是老年人,或者他们是男性还是女性。因此,用户几乎开始认为助理确实是人类。

然而,我们人类非常擅长发现假货。奇怪的是,越接近人类的东西,这些微小的偏差就越开始困扰我们。对于那些试图变得像人类但却无法达到人类标准的东西,人们会有一种毛骨悚然的感觉。在机器人和计算机动画中,这被称为“恐怖谷效应”。

我们把语音助手做得越好、越人性化,当出现问题时,用户体验就会越令人毛骨悚然、令人失望。每个尝试过语音助手的人可能都无意中遇到过这样的问题: 回答一些让人感觉愚蠢甚至粗鲁的问题。

语音助手的恐怖谷效应给助手的用户体验带来了一个难以克服的质量问题。事实上,图灵测试(以著名数学家艾伦·图灵的名字命名)通过的条件是,当人类评估者展示两个代理之间的对话时,不能区分哪个是机器,哪个是人。到目前为止,从未有人工智能通过。

这意味着,助手范式为类人服务体验设定了一个永远无法实现的承诺,用户肯定会感到失望。成功的体验只会建立最终的失望,因为用户开始信任他们的类人助手。

问题2:顺序和缓慢的相互作用

语音助理的第二个问题是,自然语言响应的回合制性质导致交互延迟。这得归因于我们的大脑处理信息的方式。

大脑中的信息处理。(资料来源:彭聃龄《普通心理学》)

我们的大脑中有两种类型的数据处理系统:

加工处理说话的语言系统;专门加工处理视觉和空间信息的视觉空间系统。

这两个系统可以并行运行,但两个系统一次只处理一件事。这就是为什么你可以一边说话一边开车,但你不能一边发短信一边开车,因为这两种活动都会发生在视觉空间系统中。

同样,当你和语音助手交谈时,语音助手需要保持安静,反之亦然。这创造了一种回合制的对话,其中另一部分总是完全被动的。

然而,假想一个你想和朋友讨论的难题。你们可能会面对面讨论,而不是通过电话讨论,对吗?这是因为在面对面的对话中,我们使用非语言沟通来向对话伙伴提供实时的视觉反馈。这创建了一个双向信息交换循环,并使双方能够同时积极参与对话。

语音助手不会提供实时的视觉反馈。他们依靠一种称为终点测定的技术来决定用户何时停止说话,并在此之后回复。当他们回复时,他们不会同时接受用户的任何输入。体验完全是单向和回合制的。

在双向和实时面对面的对话中,双方可以立即对视觉和语言信号做出反应。这利用了人类大脑的不同信息处理系统,使对话变得更加顺畅和高效。

语音助手卡在单向模式下,因为他们同时使用自然语言作为输入和输出通道。虽然语音输入的速度是打字输入的四倍,但处理消化速度明显慢于阅读。由于信息需要按顺序处理,所以这种方法只适用于简单的命令,如“关灯”,这些命令不需要助手的太多输出。

在前文,我承诺讨论仅使用语音输入用户数据的语音用户界面。这种语音用户界面受益于语音用户界面的最佳部分——自然、快速和易于使用——但不受恐怖谷和顺序交互的影响。

让我们考虑一下这个替代方案。

三、语音助手的更好选择

克服语音助手中这些问题的解决方案是放弃自然语言响应,代之以实时视觉反馈。将反馈切换到视觉,将使用户能够同时提供和获得反馈。这将使应用程序能够在不中断用户的情况下做出反应,并启用双向信息流。由于信息流是双向的,其吞吐量更大。

目前,语音助手最常用的用例是设置闹钟、播放音乐、查看天气和询问简单的问题。所有这些都是低风险的任务,在失败时不会让用户太沮丧。

正如《华尔街日报》的大卫·皮尔斯曾经写道:

我无法想象通过语音助手预订航班或管理我的预算,或者通过对我的扬声器大喊食材配料来跟踪我的饮食。

——《华尔街日报》的大卫·皮尔斯

这些是信息密集型任务,需要正确处理。

然而,语音用户界面终会走向失败。关键是尽快解决这个问题。在键盘上打字时,甚至在面对面的对话中,都会出现很多错误。然而,这一点也不令人沮丧,因为用户只需单击退格并再次尝试或请求澄清即可恢复。

这种从错误中快速恢复的方式使用户能够提高效率,并且不会迫使他们与助手进行奇怪的对话。

使用语音预订机票。

直接语音互动

在大多数应用程序中,操作是通过操作屏幕上的图形元素、戳或滑动(在触摸屏上)、单击鼠标和/键,或按下键盘上的按钮来执行的。语音输入可以作为操作这些图形元素的额外选项或模式添加。这种类型的互动可以称为直接语音交互。

直接语音交互和语音助手之间的区别在于,用户不是要求语音助理化身去执行任务,而是直接用语音操作图形用户界面。

语音搜索在用户说话时提供实时视觉反馈。(图片来源:截图)

“这不是语义吗?”你可能会问。如果你要和电脑对话,你是直接和电脑对话还是通过虚拟角色对话真的重要吗?在这两种情况下,你只是在和电脑说话!

是的,差别很细微,但很关键。当单击GUI(图形用户界面)中的按钮或菜单项时,很明显,我们正在操作一台机器。人对此没有幻想。通过用语音指令代替点击,我们对人机交互做出了改进。而另一种,使用语音助手模式,我们正在创建一个人与人之间的互动的恶化版,所以,获得了恐怖谷效应。

而将语音功能与图形用户界面相结合,可能利用不同模式的力量。虽然用户可以使用语音操作应用程序,但他们也能够使用传统的图形界面。这使用户能够在触摸和语音之间无缝切换,并根据他们的上下文和任务选择最佳选项。

例如,语音是输入丰富信息的一种非常有效的方法。在几个有效的选项中选择,则触摸或单击可能更好。然后,用户可以通过说“向我展示明天从伦敦飞往纽约的航班”来代替打字输入和浏览,然后通过触摸从列表中选择最佳选项。

现在你可能会问:“好吧,这看起来很棒,那为什么我们以前没有见过这样的语音用户界面呢?为什么科技公司大厂不为这类事情开发工具呢?”

嗯,这可能有很多原因。一个原因是,当前的语音助手模式可能是他们从终端用户那里获得的数据的最佳方式。另一个原因与他们的语音技术构建方式有关。

良好的语音用户界面需要两个不同的部分:

将语音转换为文本的语音识别;从文本中提取意义的自然语言理解组件。

第二部分是将“关掉客厅的灯”和“请把客厅的灯关掉”这两句话变成同样操作的魔法。

如果您曾经使用过带有显示器的语音助手(如Siri或谷歌 Assistant),你可能会注意到,你几乎是实时地获得文本记录,但在您停止说话后,系统需要几秒钟才能真正执行你所要求的操作。这是由于语音识别和自然语言理解是依次发生的。

让我们看看如何改变这一点。

四、实时口语理解:提高语音命令效率的秘诀

应用程序对用户输入的响应速度是影响应用程序总体用户体验的一个主要因素。第一代iPhone最重要的创新是它反应灵敏的触摸屏。语音用户界面对语音输入及时反应的能力同样重要。

为了在用户和用户界面之间建立快速的双向信息交换循环,每当用户说一些可操作的事情时,启用语音的GUI应该能够立即做出反应——即使是在句子中间。这需要一种称为流式口语理解的技术。

实时视觉反馈需要一个完全流式语音API,不仅可以实时返回对话记录,还可以实时返回用户意图和实体。(图片来源:作者)

传统的基于回合的语音助手系统在处理用户请求之前会等待用户停止说话,与之相反,使用流式语音理解的系统从用户开始说话的那一刻起就积极尝试理解用户意图。一旦用户说了一些可操作的事情,用户界面就会立即做出反应。

即时响应立即验证系统正在理解用户,并鼓励用户继续。这类似于人与人之间沟通中的点头或简短的“嗯”。这就能支持进行更长、更复杂的话语。另外,如果系统不理解用户或用户出现错误,即时反馈可以实现快速恢复。用户可以立即纠正并继续,甚至口头纠正自己:“我想要这个,不,我的意思是,我想要那个。”

实时视觉反馈使用户能够自然地纠正自己,并鼓励他们继续语音体验。由于他们不会被虚拟角色弄糊涂,它们可以以类似于错别字的方式与可能的错误联系起来,而不是个人侮辱。这种体验更快、更自然,因为提供给用户的信息不受每分钟约150字的典型语音速率的限制。

五、结论

虽然到目前为止,语音助手一直是语音用户界面最常用的用途,但使用自然语言响应使其效率低下且不自然。语音是输入信息的一种很好的方式,但听机器说话并不是直达人心。这是语音助手的大问题。

因此,语音的未来不应该在于与计算机的对话,而应该是用最自然的交流方式——语音,来取代繁琐的用户任务。直接语音交互可用于改善Web或移动应用程序中的表单填写体验,创建更好的搜索体验,以及实现更高效的应用程序控制或导航方式。

设计师和应用程序开发人员一直在寻找减少应用程序或网站摩擦的方法。使用语音模式增强当前的图形用户界面将使用户交互速度提高数倍,特别是在某些情况下,例如当终端用户在移动设备上和旅途中以及打字困难时。事实上,即使使用台式计算机,语音搜索也比传统的搜索过滤用户界面快五倍。

下次,当您考虑如何使应用程序中的特定用户任务更易于使用、更愉快或有兴趣增加转换时,请考虑是否可以用自然语言准确描述该用户任务。如果是,请使用语音模式补充您的用户界面,但不要强迫用户与计算机对话。

作者:Ottomatias Peura

原文:https://www.smashingmagazine.com/2021/06/alternative-voice-ui-voice-assistants/

本文由 @怡伶设计宝藏 翻译发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

hci是什么意思啊?

hci是指人机交互。

人机交互(Human-Computer Interaction, 简写HCI):是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。

人机交互是一个多学科的实践,注重于用户(人)和计算机之间的交互以及计算机交互界面的设计。最初,HCI关注的主要对象是计算机,但自20世纪70年代末个人计算机出现后,HCI扩展到几乎所有的信息技术设计变体中。

研究人员意识到,他们必须将与计算机的交互扩展到每个人,而不仅仅是信息技术专业人员。HCI主要研究人们如何与计算机交互,以及用户能够在多大程度上与计算机交互。其目标是在计算机和用户之间建立一个成功的交互,并观察哪些领域仍然需要更多的开发。

HCI的目标是创建一个用户友好的系统,它同时具有功能性和安全性。为了实现这一目标,开发人员必须能够理解用户并预测他们将如何使用技术,开发工具和技术,以构建最佳的充分的系统。制作有效、高效、安全的交互。

HCI的影响因素

组织因素:政策、工作场所、设计、培训。

环境因素:噪音、通风。

用户因素:能力和认知过程、个性、体验、动机、情感。

舒适度因素:设备、布局。

用户界面因素:设备的输入和输出,配色,布局,图标,图形,导航。

(转)设计一个语音交互界面(Voice User Interface)

此文为Medium上的一篇文章,搬运过来供自己和大家学习下。原文链接

https://medium.com/@xuuuwj/%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E7%95%8C%E9%9D%A2-voice-user-interface-1-6364d4529a28

去年11月第一次接触VUI Design以来,已有三个多月,期间凭着网上的资料(主要是google designguidelinedueros.com设计师手记论文)以及自己的UX知识,我尝试设计了三个项目: 一个买书的skill 、一款智能音箱语音交互游戏、 一个关于中国电信100M宽带业务的微信咨 询机器人 ,前两个项目做到原型为止,最后一个已经在微信公众号后台实现。但这三个项目的重点都被放在conversation design上,并不能算完整意义上的VUI。

本月刚刚读完 Cathy Pearl 的《语音用户界面设计》(《Designing Voice User Interface》) 和《Voice User Interface Design》(By Michael H. Cohen, James P. Giangola, Jennifer Balogh),书中完整地讨论了VUI设计的基本原则、重要的技术模块以及用户测试等问题,帮助勾画出了一张比较完整的VUI Design全景图。

在接下来的文章中,我会尝试用一个happy path串连起由0到1设计一个语音交互界面的过程,希望能定义好每个小框架中的设计问题,然后把它们变作一种肌肉记忆。

By the way, 因为说话这件事情太本能了,所以我觉得设计VUI困难的一点在于怎样从用户思维中跳出来,让自己重新回到设计师的角色上:)

语音界面的优势主要体现在三个方面:一是速度,包括输入更方便、入口更浅、学习负担更小等;二是共时,比如允许多任务同时进行;三是探索性,更能激发用户的好奇心,提升用户体验。不过同时,也不要忘记语音交流是非常受场景、技术及用户习惯限制的一件事。

可以参考 Google-fit-quiz 里的问题,来验证VUI究竟是不是你的最佳选择。
在回答之前,我们需要先了解:1.用户进行语音交互的方式有哪些,2.VUI系统内部是如何运作的。

The Nielson Norman Group 将语音交互总结为以下屏幕优先、纯语音和语音优先三种模式:

Screen-first Interaction(屏幕优先): Here, we start with an application designed primarily for screen, and voice controls are added afterwards to enhance the experience.(设计一个以屏幕显示为主的App, 为了提升用户体验,会加一些语音元素)

Voice-only Interaction(只有语音交互): Here there is no screen at all, and input and output is based on sound, such as a smart speaker.(VUI设备没有屏幕,输入和输出都要声音,比如智能扬声器)

Voice-first Interaction(语音优先): This is where an app designed primarily for voice is enhanced through the addition of a screen to output information.(以语音为主要交互方式的App,输出信息在屏幕上显示,通过这种方式提升App体验)

屏幕优先 的情况下,最典型的代表就是手机语音助手,用户不仅可以通过语音,还可以通过键入、手势来进行操作,系统回复的内容也包含了语音、文本、图片、列表、链接等等。
纯语音交互 的代表之一是智能音箱,用户通过“唤醒”词,比如“ Alexa”,来开启VUI交互;另一个代表是电话客服,也就是交互式语音应答(Interactive Voice Response, IVR),它可以通过电话线路理解人们的请求并指引用户完成相应的任务,比如预定机票、查询话费等。
可以把对话系统看作人机翻译机,接收人类的自然语言并把它翻译成计算机能懂的结构化语言,以便进行信息匹配与加工,最终再以自然语言的形式反馈给说话者,完成一次“沟通”。“沟通”的本质是通过对最优解的一步步预测,以生成一个匹配概率尽可能高的反馈,需要计算能力、算法与数据的背后支持。

具体情况如下图所示:
当用户对系统讲话(utterance),系统会首先通过 语音识别(ASR) ①接收并解析语音,识别器可以提供多个可能的结果,即N-best list,从中为接收到的语音匹配最相似的词串文本(recognition hypothesis),然后反馈给下一个自然 语言理解(NLU) ②模块。

理解自然语言,即系统通过对词法、句法、语义的分析,识别(identify)用户的意图(intent)或者用户言语所涉及的领域(domain)、实体(entities),生成一个结构化的 语义表示*, 包括语言类型(陈述需求,询问属性,否定,选择疑问,等等)和条件信息(有什么条件、值是多少)。比如,“帮我查深圳的天气”这句话对应的语义表示为“inform(occasion=天气,location=深圳)”,其中“inform”代表“陈述需求”,括号里面的内容我们称之为slot-value pair。关于计算机是如何理解自然语言的,可以点击 这里 详细了解。

语义表示生成之后被转交给 对话管理器(DM) ③,由对话管理器来决定答复给用户什么以及怎样答复。

对话管理器是对话系统中很关键的一个模块,连结着一个或多个 知识库(Knowledge Base, KB) ④。通常包括:a.对话状态跟踪(dialogue state tracking),比如追踪执行用户意图所需的信息是否完整;b.对话策略(dialogue policy),即根据当前的状态 决策 下一步应该采取的最优动作,比如,是直接调用知识库(knowledge base)内容提供结果、询问特定限制条件、澄清或确认需求、还是开启相关的某个软件呢。

不同的对话系统,goal-driven system(比如任务型、问答型)和open-domain system(比如闲聊型),对话管理器的任务、知识库内容也不同。
任务型对话的场景相对复杂,通常会与用户进行多伦对话,需要参数化请求并通过slots filling的形式持续跟踪对话,直到识别出用户意图、特征词、slot-value pairs,即系系统要执行的动作的类型和操作参数。

问答型则不需要考虑复杂的对话逻辑,通常一轮对话就可以解决,重点在于语义解析与实体匹配。

闲聊型包括检索模式和生成模式,检索式是利用网络中已有的大量对话语料来构建索引,从索引中查找可能的候选回复,而生成式则直接从大量的人人的对话中学习对话模型,然后利用对话模型“创作”回复。

对话管理器会根据当前的对话状态生成一个预期回复(intended response),然后进入 自然语言生成(NLG) ⑤- 文本转语音(TTS) ⑥环节,把结构化的预期回复改造成自然语言,最终呈现给用户。

常见的说法是“系统形象(system persona)”,相当于产品的前端,即系统通过的①语音特征,语气、语调、音色、节奏等。你可以选择使用合成(synthesized)声音,也可以选择录制的(recorded)声音;

②话术,编写问候语、特殊应答、提示语等时的用词、长短句这些,来展现与品牌相符的性格特质,比如亲切or正式,主动or顺从。

一个好的system persona能够很自然地成为你编写对话时的参考条件:“在这种情况下,这个persona会说什么或做什么?”

VUI的交互方式与对话内容很难彻底分开讨论,但做这种尝试,有助于跳出用户视角,走进“黑盒子”中。

我倾向于将“交互方式”看作《Voice User Interface Design》中所言的“High-level design”,而将“对话内容”看作“Detailed design”。

“High-level design”关心的是怎样推动对话流畅地进行,让用户知晓系统的状态、任务进度等以便操作,比如系统在聆听、在期待收到指令、已离线等,可以理解为GUI中的弹窗、动效、视觉反馈等。

同时也为系统设计更好的规则,以便它做出更好的决策,比如在什么情况下需要向用户确认请求,可以理解为GUI设计中看不见的菱形判断框。
这些问题主要涉及到以下:

①对话模式设计

A.命令-控制式(command and control),即用户想要说话时必须先唤醒系统,方式可以是使用唤醒词、手势触摸或者按键。一轮对话完毕,用户须再次唤醒系统以开启下一轮对话。

B.对话式,即在一段封闭的对话期间,比如完成某项特定的任务时,用户不必每一回合都唤醒系统,而是自然地进行话轮转换,在轮到用户说话时系统自动开启麦克风。

C.混合式,即命控式与对话式的结合,系统向用户提供明显的状态切换标识,比如使用声音标志(earcon)以表示某个状态的开始与结束。

②对话策略(dialog strategy)设计

包括:

A.对话框架设计,即对话组织策略

《Designing Voice User Interface》一书把对话框架分为:a.定向对话(directed dialog),即系统主导对话,向用户询问非常具体的问题,以期望获得同样具体的答案;b.菜单层级结构(menu hierarchy),即系统向用户提供一系列选择,一旦用户完成了菜单a的选择,系统会继续提供菜单b,直到完成用户的请求;c.混合推动(mixed-initiative),即定向对话与菜单层级相混合,系统询问用户问题,也允许用户通过提供额外的信息来引导对话。
B.对话修补策略

技术并不完美,识别器可能还没有准备好接受呼叫者的话语,或者没有接收到说话者的语音,也可能响应时间太长 。用户也常常会突然扭转话题,或者提供太多信息。因此在正向推动对话之外,系统也必须配备处理这些情况的策略,以减少前功尽弃的概率。

a.错误恢复

可能出现的错误有以下四种:

·未检测到语音

·检测到语音,但没有识别

·正确识别语音,但无法处理

·部分语音识别错误

·延迟

一般有两种方法来处理这些情况,明确地说出来,最好能增加更多的细节让用户明白现在的状况,比如“抱歉,我没听懂,请说出您所在的城市和区域名称”,或者什么也不做。如何选择要取决于VUI系统的交互模式与用户场景。

b.万能指令

比如“帮助”、“停止”、“请重复一遍”、“退出”等等。设计时不仅要考虑用户可能的需要,也要考虑用户会怎样表达这些需要。

③条件阈值(threshold)设计

每个应用程序都会定义系统能承受的最大错误,对话系统也不例外,尤其是上文对交互流程的描述也向我们清晰地展示了,从用户、到技术模块、再到数据资源,VUI的运行充满了不确定性。

《Designing Voice User Interface》 一书建议我们考虑设置三种阈值:单个对话状态中的最大连续错误数(特定于状态的错误计数),全局计算的最大错误数,以及最大错误确认数。

牢记这一点便很容易理解Detailed design需要做什么,即深入到单条对话中,详细设计对话流程、辅助提示、以及异常情况处理方案。包括:

①对话设计

设计对话流程很像写剧本,即什么样的角色在什么情况下应该说什么话,不同之处在于对话系统的情节和部分角色是写定的。
各大平台上,Google、Amazon、Microsoft,都有对话设计的相关指导,可以通过 这篇汇总文章 来进一步了解。

②提示列表(prompt lists)

回想一下,人与人之间的沟通也要建立在共同知识的基础上,与机器对话也是一样。让用户了解系统能做什么、不能做什么、怎么做是对的等等,才能够实现高效率的对话。

这一点可以通过设计提示列表(prompt lists)来辅助实现,提示类型包括:

A.初始提示,

B.错误提示,

C.帮助提示,

D.特殊应答等等

提示的形式有多种,语音、文本、图像,甚至声音,都可以。

比如图中Google assistant采用带有文字的按钮来告诉我它能识别屏幕上的内容,而我只需点击或者说出指令即可;右边的两张图里,Google通过[视觉元素变换+“进入对话”“离开对话”的文字提示+音效(earcon)]来隐喻游戏的开始与结束。

Google在designguideline for Google assistant里总结了 他们运用在提示语(prompt)中的不同元素(types of conversational components) ,是一份非常好的参考。

设计过程其实与一般产品并无大异,需要考虑:

1). 用户研究结果。 包括用例、使用场景 、用户语言模式与心理模式等。可以参考博主@Lu的设计手记 《语音理财案例分析》 。

2). 业务场景与目标。 主要是据此确定功能列表、功能优先级、交互方式等。推荐百度AI社区的 《酒店语音助手实例教程》 。

特殊的是,人工智能产品的形态多种多样,设计师必须对于产品所依附的硬件设备、产品背后的数据与技术支持有所了解,以确定产品边界、发现设计机会、持续优化用户体验。因此也需要考虑:

3). 技术与硬件基础。

比如设备联网程度,ASR引擎是否允许你设置N-best列表、自定义语音终止超时的时长,系统的负载量等。

4). 数据资源。

比如当前资源是否能满足该功能,哪些数据会影响系统响应时间等。
人们往往通过语音识别准确度来评估应用程序的运行效果,这也许是最糟糕的度量方式。一个应用程序能达到90%的识别准确度,同时自动实现85%的业务呼叫;另一个应用程序达到97%的识别准确度,且自动实现40%的业务呼叫,前者就一定比后者更差或更好吗?

——《如何构建语音识别应用》( Bruce Balentine, David Morgen)

评估涉及到三个问题:

1.如何定义成功

需要与开发人员、客户共同完成,以方便确定哪些状态是可以衡量的,哪些不可以。尽可能将成功状态具体化、数字化。

以下使一些成功标准的示例:

·60%想要预定酒店的用户最终完成了预定。

·85%的用户在1个月内至少完成了20天的每日健康记录。

·播放歌曲的错误率低于15%。

——《语音用户界面设计》Cathy Pearl

2.可以通过什么来衡量

A.任务完成率

B.用户(在何处)(因为什么)流失率

C.使用时长

D.语音打断情况

E.高频异常情况

……

*如果不思考原因,以上所有衡量结果都不可用

3.如何获得衡量数据

A.在早期建立记录日志

B.转录用户呼叫记录

……

参考资料:

《语音用户界面设计》Cathy Pearl

《Voice User Interface Design》Michael H. Cohen, James P. Giangola, Jennifer Balogh

百度AI社区

Google Design Guideline

Cortana Dev Center

Nielsen Norman Group

https://voiceprinciples.com/

《周耀明:自然语言对话引擎》

机器之心
温馨提示:内容均由网友自行发布提供,仅用于学习交流,如有版权问题,请联系我们。