语音交互中的“等待体验”研究

  语音互动中的“等待体验”研究

  回顾人机交互的历史,人类经历了基于CLI的命令行时代,基于GUI的鼠标和键盘时代,基于触摸的初级NUI时代。每个阶段的背后比前一阶段更自然,学习成本更低,综合效率更高。进入AI时代,人机智能给机器带来了三种能力:感知,认知能力,自然语言输出能力。感知能力使机器了解人类的语言,认知能力使机器思考如何回答人类的问题,而自然的语言输出能力使机器像人一样表达 - 三种能力的结合使用带来了人机互动进入语音交互阶段。语音交互是人机交互最自然的方式。大大降低了人机互动的学习成本,使人机交互的整体效率提高到一个新的水平。它已成为人机交互的重要途径。首先是“等待经验” - 三分之一的对话现场生活中的语音互动体验,对话是“互相说一句话”,“等待对方回复”,“对方”给予答复“三个连续形成的循环。其中“等待回复”是对话经验的“三分之一”,对答复的满意度有直接的影响。在等待答复阶段,如果对方认真思考,这让我们感到有价值;但是,如果对方在等待过程中没有注意到对方的话,那么即使对方给出了更好的答复,也会产生疑问,对应于语音三部分的人机交互 - “输入体验“,”等待体验“,”回复体验“,”等待体验“也是在整个循环体验循环中,在语音交互循环中发挥互动体验的重要作用。 ,语音交互中的“等待体验”在业内还没有得到系统的研究,还处于模糊状态:1.响应时间一定要越短越好; Dynatrace是一个数字化绩效管理平台,研究用户的行为浏览网页时发现,当网页加载速度提高0.5秒时,网站上用户“行为转换”的核心数据可以提升10%。因此,在网页设计和App设计中,尽量缩短等待时间是对产品设计的不懈追求。与基于视觉的交互不同,声音与情感属性的自然交互。然而,情感体验是复杂的,并不是由单一的效率变量来控制的。在大多数情况下,与生活中的人交谈时,过快的反应会给用户带来轻浮感和紧迫感,而慢速的回答会给用户带来一种迟钝和愚蠢的感觉。那么,在语音交互中,什么样的响应时间才能有最好的体验呢?响应时间体验的趋势是什么? 2,等待什么变量的经验?在视觉设计领域,设计页面的加载状态时,为了减少用户的跳出率,设计师往往通过给出进度条或情感情感设计来消除用户的不安。但是,在语音交互领域,语音载体是不可见的或不确定的,甚至没有负载状态接口。在这种情况下,什么样的变量等待经验呢?影响如何?综上所述,可以说在语音交互领域,等待体验是重要的,但它仍然是一个“神秘”。鉴于此,我们以智能扬声器产品,即当前语音互动的主要载体为例,对人工智能产品的等待体验进行了专题研究。二,智能扬声器的等待体验目前对智能扬声器的研究主要是利用第一个语音唤醒指令输入语音交互过程。鉴于此,我们可以将智能扬声器的使用划分为两个主要阶段:1)唤醒阶段:用户通过指定的唤醒词从待机状态进入就绪状态,扬声器才能唤醒接收用户语音命令。 2)用户请求和反馈阶段:用户给出语音指示内容和智能说话人反馈结果,以满足用户的需求。对于这两个阶段,我们进行了以下三个实验。实验1:响应时间对唤醒阶段等待体验的影响;实验2:响应时间对用户请求和等待体验反馈阶段的影响;实验3:视觉和听觉等不同反馈方法对等待体验的影响。下面,我们详细介绍每个实验的结论:实验1:响应时间对唤醒体验的影响为了充分研究唤醒阶段各种因素对唤醒体验的影响,提供不同的唤醒响应时间和不同的唤醒反馈智能扬声器。用户完成实验任务后,需要唤醒扬声器响应速度评估(5分制规模:太快,不能接受;有点快,可以接受;就好;有点慢,可以接受;太慢,不能接受)。实验1的结果表明,最佳的唤醒响应时间与唤醒反馈有关。在不同的唤醒反馈模式下,最佳响应时间是不同的。 1)当唤醒反馈是光反馈时,唤醒响应速度越快越好。 ,最高的用户反应舒适度(响应时间仅被评估为很大比例的用户),73%的用户对速度满意。 2)当唤醒反馈为灯光+声音效果时,唤醒响应速度的舒适时间约为300ms,76%的用户对速度满意。 3)当唤醒反馈灯光+人声时,唤醒响应速度的舒适时间约为500ms,74%的用户对速度满意。 (注:本次实验设置了市场上主流的唤醒反馈三种方式:光,光+声,光+语音,给出不同响应时间的反馈感觉供参考,但是最佳的反馈,除了响应时间也受到其他因素的影响,将在其他章节讨论。)实验2:用户请求和反馈阶段响应时间对等待体验的影响由于用户请求和反馈阶段响应,无论是在技术实现和用户期望,响应唤醒阶段有差异,所以我们用第二个实验来研究用户请求和反馈阶段的最佳响应时间范围。在实验中,我们为用户提供了具有不同响应时间设置的智能扬声器。实验二主要发现:1)在1250ms内,用户认为响应速度较好,其中650ms是最好的经验值。在450ms时,少数用户觉得响应速度太快,用户会感到紧迫感和压力,令人无法接受。 2)在1450毫秒时,有53%的用户开始感觉到延迟响应,但仍然能够接受。 3)从2150ms开始,有20%的用户认为说话人的反应太慢,无法接受。我们认为20%的用户不满意,不足以称得上是好产品。实验三:不同反馈方式对视觉和声音等待体验的影响由于目前市场上的智能音箱在反馈阶段的响应时间一般在1.5秒以上,因此没有达到实验二的理想响应范围。因此,我们通过实验三来进一步研究反馈设计对用户响应感知速度的影响,给用户提供了五套不同反馈设计的方案。在五个程序的实验三中,每个程序分别进行不同的响应时间设置。实验3的主要研究发现,不同的反馈设计会影响人们对于说话人反应速度的感知:1)小于1250ms,程序D感觉恶化,语音反馈会有抓感,有的用户认为说话人的反应是太快。 2)从1350毫秒到2150毫秒,解决方案D和E具有较高的感知用户舒适度。在加入人声/声音效果之后,解决方案D中的语音响应“完成”有助于减轻用户的延迟体验并提高速度感知体验; 3)响应时间在3150ms及以上,响应模式设计没有对延迟效果有明显的影响,应该尽可能的避免。另外,实验3还发现响应速度有望与用户的性别和任务类型有关。女性用户对反应时间的宽容程度低于男性,对于他们的发言人来说,平均可忍受的最长反应时间要少于男性,这意味着他们希望在较短时间内收到发言人的反馈。与音乐课和问答课的任务相比,用户对控制课任务响应时间的容忍度较低,用户希望在控制课任务中有更及时的响应反馈。讨论了语音交互中的等待体验,以智能音箱为例,重点研究了唤醒阶段和请求反馈阶段的响应时间和反馈的人体工程学研究,由于实验条件的限制,样本量大小,实验研究的结论可能并不能代表家庭环境中所有智能用户的整体体验,但希望通过我们的研究和探索,指导人工智能语音对话产品的响应时间和反馈设计方法,以帮助创建一个自然的和最终的语音对话体验。