人与机器的交互经历了 Web 与移动 app 这两种运行时,但是随着聊天机器人、会话以及 AI 这些事务代理的出现,新的人机交互形式正在出现。看看 Benedict Evans 是怎么思考未来的人机交互的。
聊天机器人实际上切入了两个当前的热点。一方面是在 AI 的爆发下反映出大家都希望这些东西真正能起作用;另一方面,它们提供了一种无需安装 app 即可接触用户的办法。
审视任何 AI 问题的最粗略办法之一,是问一下解决该问题是否需要 “一般 AI”,还是说问题领域足够狭窄的同时解决方案还足够宽松灵活,不用 HAL 9000(科幻小说《太空漫游》里面的超级 AI)也能处理高比例的潜在场景。也即是说,我们现在离做出可以自行在高速公路上面跑的车已经相当接近了,因为可能的高速路况范围有限,但是在罗马或者莫斯科市中心跑则完全是另外一回事,因为这需要完全不同的一种决策机制:谁知道对面的手势是什么意思呢?
因此,把 AI 植入 “会话式” 聊天机器人接口的挑战在于,你没有 HAL 9000 但却要让用户感觉你好像有的样子。你跟它将话,它就会回话,而且是用自然语言(语音或则文本的方式),但这根本就不是一般 AI。那么怎么问才能让 AI 露出破绽呢?这个破绽有多大呢?问题的领域范围究竟有多狭窄呢?如何才能定义用户对理解该领域的期望呢?或者更重要的是,你能让大家接受这个领域吗?
看待这个问题的好办法是比较一下 Siri 和 Google Now。Google Now 是基于推送的—它只是在自己认为需要的时候才说。而 Siri 则相反,别人问什么它都要回答,当然了,它也不可能永远都理解。Google Now 是靠保持安静来弥补理解的鸿沟,Siri 则是靠预先准备的笑话来搪塞过去,或者好一点,准备一份你可以提问的问题列表。当然实际的智能表现可能未必好到哪里去(你总会有不懂得),但你可以看到,Siri 是失败的。
Siri 的 “这是你可以问的” 界面基本上就是一个命令行帮助提示,但是关键是这种 GUI 设计并不需要你知道自己可以输入什么了。尽管自然语言处理意味着你不必知道 Siri 或其他聊天机器人的特定语言,但还是有一个基本的发现问题—既然我不能什么都问的话,那我可以问什么?
这些都意味着到目前为止,似乎机器人或者会话式 UI 可能最适合完成非常具有针对性的事情—用户知道自己可以问什么,并且也只能问这些。不过,一旦这种方式有效时,情况就开始变得非常有趣了,尤其是这正好跟前面提到的第二个焦点相当的匹配—避开 app 的安装问题。
说服某人安装你的 app 是个相当痛苦的过程,但是能不能通过一个会话式界面来跟你的应用进行即时、流畅、简便的互动呢?能不能把聊天机器人变成一种全的交互模式,成为继 web 和原生 app 之后的第三代的运行时呢?当然,更实际的问题是能不能找到除了应用商店以外新的办法来获得用户呢?(换句话说,就是 “管它智能不智能了,如果聊天机器人能够让我少进贡点钱给 Facebook 也行了”)
之前我们把 web 解绑成一个个 app,现在又在开始新的解绑或者绑定的努力,只是手段还没有确定(聊天应用、地图、人工助理,通告等都在竞争这个地位)
也就是说,会话式 UI 眼下能看到的希望跟在自己应用内做文章关系没那么大,反倒是可以琢磨一下怎么在没安装应用的情况下实现跟用户更简便的交互。
当然,这里更实际的问题是,什么是运行时?我们有智能手机 OS+API,有 web 浏览器,但是机器人的本地目标是什么?如果说机器人是命令行 UI 的话,终端是什么呢?它怎么才能登陆手机呢?它有没有自己的元机制来实现用户获取和服务发现以及运行时本身呢?这些东西到底在哪里?
智能手机的一个明显的趋势是交互模型不仅在不断渗透,而且还往技术栈的上下移动—往上进入到新的自身充当平台的 app(Facebook、微信、地图等)里面,向下则进入到 OS(Siri、Now、深度链接等)里面。机器人也一样:虽然苹果尚未开放 Siri 给开发者,但 Google 已经在有选择地开放 Now,从战略上来说 OS 提供商渴望成为任何新的运行时的创造者是理所当然的。(注:其实微软的开放力度并不比 Google 低)
然而,无论是苹果还是 Google,真正的挑战在另一端。他们是可以把一个聊天机器人放进手机里面,但要想让云端的任何东西能跟你在手机上对话,那些服务必须知道去哪里看。两家公司都有某种形式的云身份平台,但苹果的隐私政策妨碍了该平台的大量使用,而且不管是苹果还是 Google 都没有一个像 Gap 或者 Instacart 这样在下订单的时候要求你登录的平台(然后事后就可以跟用户对话了)。当然,这一点是有可能改变的,尤其是有传言说苹果会把 Apple Pay 拓展到 web 上,从而朝这个方向打开许多的可能性。
往技术栈的上面看,Facebook 倒是什么都有—终端、Messenger(移动月活用户数已达 10 亿),以及 wen 身份平台。Facebook 的挑战在另外一个地方:那就是发行商想不想给它那么多的控制,并且鉴于其过往的履历,还愿不愿信任 Facebook 将来继续发展这个平台?
与此同时,在刚刚过去的 Build 大会上,我发现微软往机器人和相关工具投入了极大的关注,这一点相当有趣,因为微软显然是两端都没有的—它既没有大规模市场份额的智能手机平台,也没有充当连接粘合剂的 web 身份平台(Skype 尽管有 3 亿月活用户,但是这个东西有没有合适的市场定位来充当可行的终端呢?很难说)。
我用 “终端(terminal)” 这个相当复古的词来描述机器人 UI 在手机上的安放地实际上是经过了一番深思熟虑的,因为很多人似乎都是这么看的—云端的 AI 和你都通过手机或者 PC 上的哑文字或语音 UI 来跟它对话。这也反映了 Now 的工作方式—设备基本上就是一块哑的玻璃。这是我前面提到的交互层在技术栈的上下迁移的一种延伸—从某种意义来说这里已经把交互彻底迁移出设备了。巧合的是,“终端” 这个词在智能手机出来之前就是电信公司用来代指手机的,而且的确我看到许多聊天机器人的用例实际上用短信或者 USSD 也可以办到。
但这并不是唯一的潜在模式。微信把消息传递当作平台,但并没有把交互往下推到 “哑文字” 的层次—它提供了自己的社会化模式和获取模式,但大多数与第三方服务的实际交互是发生富 UI 上面的(大多数是通过 web 视图构建)。毕竟嘛,如果你给用户提供的问题只有两个选项的话,你是应该告诉对方 “你可以回复 ‘红’ 或者 ‘绿’” 呢,还是在聊天内提供两个按钮呢?如果是 5 个选项呢?你是不是要给用户构建某种屏幕界面,以图形化的方式展示相应选项呢?这样的话你就可以称之为 “GUI” 了。你可以把 “链接” 放上去,让用户可以跳转或者加重新 “页面”……如果聊天机器人真的可以用的话,这个机器人一定要到在 Facebook 里面吗?还是说放到自己网站上?这要取决于你要找什么类型的交互,可能还要取决于你要解决的是自己的问题还是用户的问题。
这里面还涉及到一个古老的计算机科学方面的想法,说的是计算机永远都不应该提出问题,而应该自己想出答案。AI 的希望之一不在于你能够让计算机像人一样对话,而在于你根本就不需要跟它对话,或者对话的场合要少得多—这样就可以去除相关的精神负担和摩擦,同时跟计算机或者在线服务保持住互动。计算机可以少问点问题,自己多干点事情。(这有点类似于从 Windows 或 Mac 转移到 iOS 或 Android 所减少的精神负担,因为移动 OS 掌握更多的上下文信息)。你可以不用回到网站登录上去然后编辑你的订单,相反你可以只用发一条消息:‘取消衬衣订单,把灰色的袋子改成绿色。’ 计算机应该要搞定这件事,相信将来也能实现这一点。你应该可以通过某种形式利用 AI 和聊天以少得多的工作实现相同的目的。但并不是说所有事情都可以按这条路子走。如果你弄清楚有什么东西可以问 AI 助手所需的时间比直接把会议拖到日程表的新位置还要久的话,那这种做法就不对了。AI 不应该给人带来比点一下那该死的按钮更多的精神负担。变成带有更好热门词的 IVR(交互式语音应答)对你来说也许是一个更好的用户获取模式,但实现是很困难的。于是这又回到了我开头的观点—这究竟是一个你只需告诉它做什么然后继续的领域,还是说在你和屏幕之间仍然需要 “一般智能” 的存在?
文章来源:36kr