当前位置：首页 >新媒易动态 >快手号购买

触控交互是需要某种实体承载的，用户必须要接触到设备才能发出指令

2019-10-11

不论你是上海口音还是广东口音，启动iPhone时按的都是开机键。但在进行语音交互时，可能就会遇到一些麻烦，因为多数都是以普通话为基准。

在这种地方口音非常混杂的情况下（例如面向老年群体或是口音重的地区），语音交互的实用性就会大幅降低。

此外，在不同国家，手势的含义也可能截然不同。例如最近被恶搞出种族歧视含义的ok手势，在大部分地区还是代表着相对正面的含义。因此在进行设计时，也需要考虑到不同的文化背景。

二、交互效率

交互效率可以从空间和时间两个维度进行考虑。

触控交互是需要某种实体承载的，用户必须要接触到设备才能发出指令。当设备离用户有一定距离时，则必须要先靠近才能进行操作。

例如当遥控器不在手边时，就必须过去拿到它才可以进行操作。而且懒惰是人的天性，躺在沙发上时就会觉得走几步去拿遥控器也是件麻烦事。

手势交互和语音交互则在空间上更为自由，只要在有效交互区域内就可以（即摄像头能“看清”，麦克风能“听清”），不需要用户亲身接触到设备。

当用户离实体设备有一定距离时，这两种方式是更为高效的。

当触控产品就在手边时，触控操作需要的时间可能是三种交互方式中最短的。而且像苹果还开发了“捷径”功能，人为地进一步精简操作路径，缩短交互时间。

目前的语音交互都需要一些唤醒词。相较于其他交互形式，唤醒设备+清楚表达指令的过程通常会花费更多的时间。

有团队将唤醒词更短作为产品卖点，个人感觉这也从侧面反映了唤醒这段较长的交互流程可能是智能音箱的痛点之一。之前有科技新闻报道，已有团队能做到无需唤醒词，只通过分析说话人的语音语调语气，来判断是否唤起设备。

但是就目前的技术而言，尤其在稍复杂的场景下，无唤醒词的做法可能风险比较大。

手势交互中，指令性的内容可以分为组合型动作和独立动作（我自己定义的(ง •̀灬•́)ง）。我们可以将操控对象和指令合在一个手势动作中，也可以拆分用两个动作表示。

例如想要音量升高时，可以定义动作为“音量”+“升高”或者“音量升高”。组合型动作花费的时间更长，独立动作花费的时间更短。

在识别指令方面，触控交互的准确率是最高的。不论我们是要开关灯，还是要点击屏幕上的某个按钮，只要用户在对的地方用对的方式进行操作，指令几乎都能及时被设备接收并执行。

手势交互的触点是全部预设好的，这一点与触控相似，只要用户执行了对的动作，就可以得到相应的结果。

而在语音交互时，用户表达的内容是没有限制的，这也意味着是不可控的。

由于大家在日常生活中说的话并不是特别严谨，从语义分析的角度，一句话可能可以被解读为多重意思。因此，在自然语言处理中常常会面临二义性的问题。

处理这种问题时，必须要进一步明确用户意图，否则设备可能会做出与用户意愿大相径庭的行为。