我们谈谈多模态交互之智能语音、机器视觉、移动底盘之间的结合。

现在讲多模态技术最难的地方就是各个企业之间,基本上都在自己熟系的领域去深耕,对相互之间的技术结合基本上都不是很熟系,这就困扰多模态技术之间的结合。

从这次研讨会上反馈的信息来看,机器人企业期待上游的企业,如科大讯飞能够提供再进一步的技术方案,或者有能够直接提供多模态交互技术的产品,而上游的技术企业,则认为这是终端机器人产品集成商应做的事情。

这就导致我们想要的多模态技术交互都是有缺陷的。

在技术上来说,智能语音、机器视觉、移动底盘在使用的过程中都还存在问题,这让很多机器人企业非常的折腾。

从移动底盘上来说,深圳市步科电气有限公司(简称:步科)营销总监温琦说:“移动底盘产品是成熟的,可以应用到各种机器人身上,但是目前确没有成熟的SLAM技术方案。”

还比如机器视觉,很多厂家都说,机器人植入深度视觉后,在行走的过程中,可以躲避障碍物,但是应用到场景里,还是存在很多的问题,比如机器人前面多几个人行走,就会导致机器人行走速度会变得很慢,或者直接不灵了。

最后是智能语音,对很多机器人企业而言,目前是最头疼的问题,因为很多语音企业都说识别准确率高达90%以上,但是从机器人企业的反馈来看,应用到场景里体验是不好的。

其实这里有一个问题,智能语音包括语音与语义,如果语音识别准确率达到90%,语义识别准确率也达到90%,其实这两者是相乘的,一结合可能就只有81%的识别准确率。

而且目前我们所涉及的语义还只是文本,对于视频、图片、运动数据等更多元的素材采集,基本上非常困难。

深圳市狗尾草智能科技有限公司(简称:狗尾草)首席科学家张博说:“从多模态交互的角度去看,在目前的智能语音技术上,再去扩展视频、图片、运动数据等素材采集,我们只能通过语义处理语义,视频处理视频等方式去处理,如果要结合起来是非常困难的。”

先不说把图片、视频、文本等结合,就算以文本的角度去讲也很难,小I机器人售前顾问甘楚辉说:“小I的数据库里,各个领域的知识库是分开,如果要结合在一起,占用的资源会变得非常大,对整体的性能影响也会很大,就算要结合也只能是分开穿线。”

所以在多模态交互的探索上,我们基本上还处在刚开始的阶段。

目前我们先不深入的去探究,站在我们现有的产品集成上,我们可以做到怎样的多模态交互。

比如深圳市锐曼智能技术有限公司名下的小曼机器人,当我们呼叫小曼机器人时,它是可以定位我们的声源,甚至还可以走到我们的面前。

科大讯飞股份有限公司(简称:科大讯飞)商务总监廖凯说:“这三者结合的多模态交互,在生活中可以做到,我在与机器人一边走路,一边讲话的时候,它是可以进行人脸的捕捉,移动的追踪,所以它会在移动时面朝着你,这会让你感觉非常好。”

就从这三个技术的成熟度来讲,在这次研讨会上,很多嘉宾认为,以目前的技术水平,能够实现产品盈利的也只能是玩具级的产品,如果是商用级的产品,我们还需要花很长的时间做研发投入。

过去我们追捧机器人+资本的模式,通过资本的进入去进行产品技术的研发,但是这条路从去年以来已经变得越来越窄。

如果还只是拿上游企业的产品,比如:智能语音、移动底盘、机器视觉,再进行定制化场景应用的机器人,估计已经很难再拿到资本。

因为很多投资人已经知道内部的事情,而且也知道内部细节的难度在哪里?尤其是融合的阶段,什么技术处于可商业化,什么技术还达不到商业化的阶段,所以对机器人创业者而来,我们自己也需要理性化,做一些深思熟虑的判断。

从营销策略的角度去分析,特别是对于玩具级别的机器人产品,我们不要过分让用户对产品有太高的期望,廖凯说:“我之前有一个客户是做香味盒,在这个香味盒上植入了语音交互功能,坦白说,他们二次开发的语音交互体验做的并不好,但对用户而言,就算体验不好,但是它还是可以提供香味需求。”

往往我们能够抓住跟智能无关的点,就会有用户粘性,其实用户会给你一个容忍度,给你升级迭代的机会,但是我们不能给用户太高的期望。

在商业级的服务机器人里也有成功的例子,温琦说:“美国企业做出来的很多机器人是在商场里做分拣,它不是服务于人,或与人做交互,而是为商场管理货物提高效率。