智能语音交互,如何解决导航三个被忽视的痛点

  • 2017-06-21 09:49
  • 来源:CarCAV.com
  • 作者:CarCAV
  • 责任编辑:CarCAV小舒
    2017年6月12日,T行神州第51站广州,特邀搜狗地图总经理孔祥来做《搜狗智能副驾——改变人与车的沟通方式》主题演讲。其关于语音交互的观点,值得前后装地图数据、导航引擎厂商关注。

搜狗地图总经理孔祥来


    前装传统车机设计,反人类

    传统的车机看起来非常漂亮,但有一个很大的问题,实际操作起来不方便,像这种旋钮式的,在很多车上都会有,这种方式通常用来在菜单里面做选择是没有问题的,但用来做输入,那就是反人类的一种设计,我以前也在自己的车上尝试过,试图用车上的输入法,用它的旋钮加触碰的方式做中文输入,基本上输入效果非常非常的低下。后来手机导航出现了,大家都觉得手机的APP很好用。

    这几年手机上APP的功能都很强大了,升级各方面体验的细节都做的非常好,问题就是不安全、不方便。我们在车上是不是应该引入语音交互?不妨先来看看后装产品上的语音交互做的怎么样?

    后装硬件“伪智能”

    比起原装车机上面看到的语音交互已经有了不少的进步,但也有一些问题,当你说出目的地之后大家采用的普遍设计思路都是出结果列表,然后让你选第几个,这个有什么问题吗?第一这不是纯粹的语音交互,因为它中断了用户自然对话的进程,它要求你说出你的问题,但结果却是以图文的形式出现的,这跟原来看手机有什么区别呢?等你把字看清楚了,脑子里想清楚了,说不定这个时候前方已经出状况了,这个虽然进了一步,但这还不是真正的语音交互,只是半语音交互,只在过程当中第一步听懂了你要去哪儿,但它的结果出现的却是图文混合的方式。

    还有一种情形大家也看到了,解决一些看起来似乎很智能的问题,比如刚才说的“谁最美”之类的,这个从行业内的人士来看,这种做法是非常无奈的,其实是一个错误的引导,因为你试图让你的用户以为你这个产品是有更高的智能特征,但实际上你又做不到,如果跟他聊一会儿会觉得它挺笨的。所以现在无论是原装车机上面,还是后装的硬件产品上面所看到的语音交互,在我们看来它其实都是不智能的,是挂着一个智能的牌子,实际上做不到智能。

    用户与车目前沟通的痛点是什么?不方便、不安全、不智能。这分别代表了车机、手机和后装语音交互主要的缺陷所在。用户真正需要的是一个什么沟通方式呢?刚才讲到的语音交互肯定是未来的一个方向,但现在的语音交互做的不够好,真正需要什么样的语音交互的方式呢?是一个随时可以语音交流,并且支持丰富的智能副驾。

    语音交互:多轮自然语音对话

    第一个它是多轮的自然语言对话,也就是说你可以把机器当成你身边坐的一个副驾,你说出你的要求,它就帮你搜索,它不光帮你搜索,而且会把搜索结果用更人性化的方式播报出来。比如说化工大学,化工大学在北京有好多个校区,而且每一个校区有好多个门,如果不对这个数据做非常好的优化的话,化工大学会有十几二十个结果。在刚才对话当中,我们首先告诉你化工大学它是有多个校区的大学,然后它会询问你去哪一个,当你说出了你要去的具体的校区之后它再导航,这个过程中看起来非常像人与人自然沟通的方式,这是我们特别要强调的。

    语音交互:在路径设置中的智能应用

    大家平时在开车的时候,包括使用导航会有这样的体验,你让导航给你算一个路径,但是你并不喜欢它算的路径,比如在北京我比较喜欢走环路,为什么?因为环路红绿灯少,但是从导航计算的算法来讲,通常它会更关注到达时间,是以到达时间最优规划一条路径,有时候看起来可能是最优的,但是沿途有十几个红绿灯,我不喜欢,有红绿灯就意味着不确定性增加,所以我个人的习惯会更喜欢走环路。在传统导航当中要实现视频中所演示的功能几乎是没有办法做到的,最多的就是一个设置途径点,但是这跟刚才视频设置的走四环是完全不一样的概念,大家去过北京就知道,四环在北京环状是非常大的,你也不用告诉他我要从哪儿上四环,从哪离开四环,它会自己进行选择。像这样的功能如果在传统导航里面去做,UI里面很难设计,但是用语音的方式来实现会觉得非常简单,你只要说一句我要走四环就OK了,它自己把导航路线给你更新了,这也是我想给大家分享的,其实有很多的功能在语音交互时代是非常好用的。

    语音交互:边行驶边搜索

    第三个想给大家展示的叫做延迟发问。这个延迟发问其实也是语音交互技术当中非常有意思的环节,为什么会有这样一个设计呢?大家可以想象一下你打出租的时候,比如说在北京我打一辆出租车,我上车的时候他问我去哪儿,我说在望京。在出租车里面司机通常不会问你去望京哪一条街,哪一个大楼,你说去望京他默默就把车开起来了,会在路上问你去望京地铁站还是其他地方。这样一个小的细节我们在设计的时候发现它是非常人性化的,传统导航是要求你在出发之前把目的地交代一清二楚,这个没有错,但是它不够人性化,因为它是自己免责性的设计,在之前你必须说的一清二清,你要去什么地方,这个过程中是不会发生变更的,这个过程表面看起来没什么问题,但是对于用户来讲觉得很麻烦,我上来选一个东西,还得再选,选好多次才能出发,但是刚才的交互设计里面我们看到在试图去模仿一个人类的行为,模仿一个出租司机的行为,你只要大概说一个模糊的地方它就先走着,先开起来,路上会延迟发问你去哪儿。

    刚才我给大家看了我们所理解的人与车的沟通方式,像这样一个语音交互方式它实现起来有什么样的要点呢?大家目前能看到的语音交互里面其实有很少做到像刚才我们给大家演示的那种情况,为什么呢?因为实现这样一个很简单的语音交互其实需要非常强大的后端的能力。需要地图导航的能力,语音识别,语义理解,还有大搜索,这是搜狗全部的能力,把这些能力全部有机整合起来就形成一个语音交互的引擎。

    从逻辑关系角度清晰定义POI数据

    先来看看地图导航这一块。我们在地图导航当中首先要强调的是我们对数据的理解。比如说我举一个例子,我们看到最下面那个地方是北京首都机场,我们把它抽象出来,会发现有很多航站楼T1、T2、T3,北京首都国际机场这个POI在现实中是不存在的,我们往往说首都机场说的是人们约定俗成的一个概念,真正的首都机场下面有三个子节点,叫做T1、T2、T3,而每一个子节点下面又有多个出发、到达的节点。我们强调客观世界实体关系的真实还原是什么呢?因为在传统的数据都是散点,但是在混合概念当中我们需要把这些点连接起来,把彼此之间的关系理出来,我们称之为微小的数据金字塔。在中国有多少这种金字塔呢?我们现在有6000多万POI总量,500多万主子关系,100多万容器关系,1700多万区域从属关系,也就是我们通过对POI数据的挖掘定义出来的,我们对数据进行了挖掘,知道客观世界是这样的。

     做好精简搜索

    还有一个是精简搜索,一个是传统键盘方式进行搜索,而我们现在做的搜索是引导式的搜索,把它做一个适当的精简,把搜索结果用24个字就能呈现出来,非常适合语音播报,而传统的搜索结果几乎是无法进行语音播报,这就是为什么大家看到所有语音交互类产品当中不播结果,让你自己去看。

    我们再看看语义理解这一块,比如我要去望京,它会问你去望京哪一块,做完一系列之后开始导航,这个过程完全是一个完全自然人对话的过程。这样一个语义交互的过程,在我们的语义网络中有10万个语义交互的路径在里面。

    最后看一下搜索,导航一旦接触到搜索之后就会跨境解决一些问题,比如我要去首都机场,如果你告诉我航班号就知道在哪一个航站楼降落的,甚至时间都可以告诉你。再比如说今晚有球赛要拥堵绕行,我们会做一个其他路线的绕行,把一些实时的信息加入进来。再比如说品牌推荐,比如说你问附近有没有中石油加油站,我们会告诉你中石油最近的离你很远,但是附近有中石化的。

推荐阅读:赢在执行力 CarCAV定制化终端培训会·武汉站
跟多精彩讨论请点击:http://bbs.carcav.com/read-htm-tid-1066444.html
      本网所有内容,未经注明,版权一律归中国汽车影音网(CarCAV.com)所有
      欢迎转载或引用本网所载内容,但请注明来源于CarCAV.com,否则依法追究相关责任
    ------分隔线----------------------------
    中国汽车影音网微信公众号

    改装案例库进入>>

    附近专业改装店进入>>