首页 > 智能网

人工智能赋予机器人灵魂,但单一语音交互真的能实现智能吗?

来源:智能网
时间:2021-06-11 18:05:13
热度:81

人工智能赋予机器人灵魂,但单一语音交互真的能实现智能吗?后疫情时代和新基建政策的叠化影响下,万物智联的趋势得到进一步推动,各行业对于智能化升级的需求更加明确。作为新兴的头部科技产业

后疫情时代和新基建政策的叠化影响下,万物智联的趋势得到进一步推动,各行业对于智能化升级的需求更加明确。作为新兴的头部科技产业,机器人行业表现尤其强烈。随着行业应用价值迅速提升,对于智能化程度的要求正不断提高。

智能化升级若是一场革命,那么它将发轫于AI视觉

人类大脑通过300多万根神经纤维实时感知世界,其中与眼睛相连的就有200多万根,可以说大脑皮层80%的活动都在处理视觉信息。机器人作为人工智能的集大成者,这类智能终端在功能上涵盖感知-认知-决策-行动多个环节。而AI视觉作为人工智能的重要分支,几乎等同于人工智能的大门。机器人要做到模拟人的思维路径,AI视觉技术的作用不言而喻。

模拟人类思维路径,核心是让系统拥有智能决策能力。即不按照固定程序,机器通过深度学习,根据所收集的数据信息,做出智能反馈,从而完成特定技术动作。不过实现这一切的基础首先是精准的环境感知。而AI视觉的本质就是研究环境感知问题,即对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。

随着对AI视觉不断开发,基于AI视觉的识别技术、目标追踪技术、导航技术、避障技术已成为了各类智能设备的前端通用性技术,广泛应用于工业生产自动化、流水线控制、自动驾驶汽车(测距,导航)、安防监控、遥感图像分析、无人机、农业生产以及机器人等方面。以自动驾驶为例,它的两种主流自动导航技术方案,无论是以雷达主导的多传感器融合方案,还是视觉方案,AI视觉都发挥了重要性作用,Mobileye的SuperVision便是由AI视觉打造的综合性智能驾驶系统。此外,导航技术同样被应用于机器人,如目前的无人配送车、商用服务机器人、家用扫地机器人等。

人工智能赋予机器人灵魂交互能力是其最大表现

不过,AI视觉除了帮助机器人实现自主导航以外,更为机器人实现智能交互提供了前决条件。

人工智能赋予了机器人灵魂,而交互能力是智能化的最大表现。随着应用人工智能的产品越来越多,交互能力成了各家产品必备卖点,然而借助大量开源技术实现的固定模板交互或者单一语音交互,真的实现了智能交互吗?

真正意义上的人机交互应该能够感知人的肢体动作(点头、摇头、体态、手势、手臂关节等)、表情变化、触摸屏以及语音对话等信息,将这些信息综合起来决策反馈出用户潜在的交互意图,进而完成交互及行动。

而对交互意图的识别包含了从底层到高层的多层信息处理,其中人体及关键部位的检测、识别和跟踪是理解交互行为的基础。利用AI视觉技术可将采集到的信息进行检测、关键点定位及特征提取,给定相应的数据和标签提交到学习平台进行训练,提高识别精度,经过大量训练之后,最终机器人能根据相应的识别即时作出智能反馈。

高速发展背后还需理性布局

然而,虽然AI视觉前景广阔,但超高的技术开发难度意味着巨大的投入及漫长的开发周期。为了快速提升机器的“智能”水平,大量玩家选择另辟蹊径,不断对传感器做加法,在获取机器“所需”的路线、图像、距离、动态监测等各类数据的同时,也带来了大量与任务和决策无关的冗余数据和运算压力,成本巨幅上升,而系统的鲁棒性却令人担忧。

无需增加大量传感器也能够获取足够的有效信息;无需大量算力,就能完全处理巨量的数据;在各种实际环境下,无需激光雷达也能保持足够高的精度。这一切并非幻想,已经有公司将它们变成了现实。

专注于机器人AI解决方案的国高新技术公司INDEMIND,其核心技术是以立体视觉为主,融合高精度VSLAM算法、多传感器融合、视觉前端计算和高精度环境语义等一系列核心技术,为机器人推出了可实现包括空间建图、导航定位、路径规划、智能避障、物体识别及智能交互等功能一体化的底层操作系统INDEMIND OS。

计算量大和精度不足一直是视觉的劣势。在架构上,INDEMIND采用以双目立体视觉为主的多传感器融合方案,通过高精度建模,以紧组合的形式,实现整体系统的误差估计及补偿,在各种光照环境及动态环境下都能得到高精度的定位。同时,在算法上采用增量优化的方式,分段处理,并在区段间建立先验信息,有效降低了计算压力,同时提高计算效率。利用轻量化模型,视觉方案已经实现了家用机器人导航在成本在几美金的计算平台上运行一套完整的视觉SLAM算法。

在实际环境测试中,导航精度实现绝对定位精度<1%,姿态精度<1°,已达到激光方案同等水平。并针对在持续使用过程中环境因素或人为因素导致产生的定位误差,INDEMIND开发了在线标定算法,可使测量精度保持稳定。

图片来源:INDEMIND

视觉感知作为机器人实现智能交互的前提条件。INDEMIND利用独有的立体视觉技术结合深度学习的图像语义、语义分割等技术,可提供0.05-1.5m范围内误差小于1%的深度计算,实现对环境的立体解析。同时,根据构建的三维空间地图,能识别人、动物及十几种大类,上百种家居用品,物体识别精度<2cm,并根据识别到的不同信息作出智能决策反馈,通过配置业务逻辑可实现实现目标跟踪、指定区域作业、看护等多种交互需求,提升机器人智能交互能力。

INDEMIND OS作为智能机器人底层操作系统,通过对系统算法的高度集成,大大降低机器人行业的开发难度,不仅帮助机器人实现与激光方案同级别的自主导航,在智能避障、交互决策上更有着领先优势。未来,INDEMIND也将一直在路上,持续深耕技术,探索更多应用场景,致力于推动机器人行业的发展与成熟。

Baidu
map