NO.54《语音用户界面设计》

在还没有接触汽车行业之前,从没有关注于语音这个功能,手机里的语音助手几乎从来没用过,我都想把语音功能删除掉,因为时常有误触情况。在了解网友对手机语音产品的使用情况来看,美国65%用户很少或不使用语音功能,看来语音面临的交互问题不是我一个人所遇到的,我觉得语音不能推广主要有几个方面:(1)结果不能预期、失败率高,易受挫败;(2)学习成本比较高;(3)并不能提高效率;(4)语音比较“傻”。

手机如果不用语音还有屏幕可以替带,但汽车、音箱等IOT设备如果不用语音就太不方便了,想像一下对着智能空调屏幕打字或是医生动手术时脱下手套打字搜索资料是多不可思议的事。因此,这本书带我们打开了语音设计宝殿之门,领略了语音的魅力。

我在挑选语音类书籍时,第一眼就选中了这本,因为只要看封面就明白是大名鼎鼎的 O’Reilly 系统丛书(动物书),而且2018年出版刚上市不久。打开试读篇章,光是序言和前言、目录就占50页(XL 罗书数字),这是非常少有的光环加持,一般都几十年以上的大作才有的殊荣。下面我给大家奉上我的读书感受:

 

一、语音设计原则

语音的设计和界面设计完全不同,所以设计的原则有非常大的不同:

  • 确认使用的场景(是否有按键、是否有屏幕、是否支持多轮交互)
  • 设定用户的期望(建议明确告诉用户所拥有的功能,方便管理用户的预期)
  • 设计工具(原型图、流程图、脑图,在设计的前、中、后期,用真人的对话来模拟几遍,容易找到灵感和发现问题)
  • 确认策略的设计(非常重要,易被忽略,知识点密集)
    • 显性确认(对于涉及重要、明确、与钱相关的问题时使用)
    • 隐性确认(三级置信度;隐性确认;非语言确认;通用确认;视觉确认)
  • 交互方式(一问一答;对话方式)
  • 如何使对话让人易于接受(需要个好“编剧”)
  • 错误捕捉(重要,知识点密集)
    • 未检测到语音(用户没说话,说了没听清);
    • 检测到了没识别
    • 识别到了无法处理
    • 识别到了,但有多重语义
    • 延时、网络
  • 帮助与学习
  • 无障碍(高阶设计:简洁、高效、语速、打断、上下文语境、当前位置、TTS等)

 

一个好的产品经理,要编写一份强壮的语音交互文档,上面的问题都要考虑到,可能权重有所不同,但要做到心中有数,风险可控。

另外要准备比较充分的语音文案列表、识别关键词、语法规则等文档,这都需要花时间去深度思考和详细撰写,所以前期的准备工作要花很长时间。

 

二、是否需要可视化

可视化用什么方式?

答:真人、抽像物体、拟人物体、其它可视化组件(灯光、动作等)。

 

是否需要为你的语音配上可视化?

答:这完全取决于功能的定义,目的只有一个,可视化能否为语音服务。

 

无论是否可视化,语音都要有人格的存在,所以设计人格先要考虑面对的人群。

一个好的可视化需要花费大量精力,可以简单的换算成语音的工作量乘二。

所以,如果没有充分的准备,建议先不要做可视化,因为做得不好反而会干扰用户(比如以前 office 的别针小人 Clippy,就是失败的案例)

 

三、语音识别技术

  • 语音识别引擎(百度、google、科大讯飞……),两个重点:识别率、语音端点检测表现(如何判断说话的开始和结束);
  • 语音打断(敏感度)
  • N-Best列表(用户的问题可能有不同解释方式,方式越多越智能,但设计工作量越大)
  • 特殊环境识别(噪音、多人、儿童、英文数字等特殊内容混合)

 

四、设计进阶

  • 不同类型的语音输入
    • 受限回复(是的、不用、好的、确定)
    • 分类输入(口味类:加冰、不加冰、常温、半糖……)
    • 开发式对话
  • 消除岐义
    • 信息不足时帮用户缩小范围
    • 信息多条时帮用户筛选
    • 否定的智能处理
    • 巧妙捕获用户意图
  • 对话管理(方便处理多轮)
  • 用界面来辅助语音处理
  • 用户的情感检测与分析
  • 声纹识别
  • 唤醒词
  • 语境
  • 高级多轮交互
  • 大数据帮助语音更智能

 

本书的第六章“用户测试”,对于已有语音产品的公司和团队,非常有帮助,提供几种检测原则和先进的测试方法,不过涉及到比较细节和专业,不在这里展开介绍,第七章设计完之后的运营,这对语音产品的跟踪和持续改善很有帮助。

所以,综上所述,本书的内容详实、知识密集,而且都是一线大厂的多年实际工作经验,对我们初学者来说,帮助非常大,少走很多弯路。本书对技术介绍比较少,所以门槛不是很高,无论是专业语音从业者,还是业余爱好都应读一读,对开拓视野、打开格局非常有帮助。很高兴为大家推荐这样一本好书,让我们共同成长。