复旦大学智能机器人研究院副院长张文强：人工智能与机器人关键技术与产业创新

来源：智能网

时间：2019-08-16 12:05:31

热度：89

复旦大学智能机器人研究院副院长张文强：人工智能与机器人关键技术与产业创新2019年8月9日，由中国高科技行业门户维科网主办的“ 2019中国AI＋机器人高峰论坛”在上海新国际博览中

2019年8月9日，由中国高科技行业门户维科网主办的“ 2019中国AI＋机器人高峰论坛”在上海新国际博览中心成功举办。复旦大学智能机器人研究院副院长、研究员张文强先生，于会中做了题为《人工智能与机器人关键技术与产业创新》的主题报告。

会中，他从深度学习算法、NLP（自然语言处理技术）、自主驾驶应用、人工智能＋中国名族特色产业IP融合，AI＋中医领域应用案例等方面深入剖析了人工智能与机器人关键技术的应用潜力和趋势，并从AI智能化场景切入详细阐述了AI驱动＂1＋N＂产业创新思路以及AI关键技术的应用发展价值。

机器人作为人工智能赋能“1＋N行业”发展的应用载体，如何把人工智能算法很好的融入到机器人行业？

张院长首先表示“随着工业互联网和移动互联网的快速发展，以智能手机为代表的移动终端，它催生了云计算、大数据，物联网和边缘计算，同样也催生了近两年极具热门的人工智能领域。”面对如何更好的促进AI＋机器人技术的融合发展，我们需要思考和追溯一个本质的问题，人工智能近几年快速发展成为热门依靠什么？AI关键技术都有哪些？

“它靠的是以深度学习维代表的算法、它在语音识别，在人脸识别、在语义理解这个层面做出了非常好的一个效果。张院长给予了肯定的回答。

当下，以深度学习为代表的算法在以下方面取得极大成功。

1、语音识别领域，在人类会话测试中，精度超过了 95％

2、自然语言理解、机器翻译等几乎达到人类水平

3、计算机视觉领域，人脸识别等超越了人类

4、在人机博弈领域，AlphaGo完美战胜了人类

······

但目前学术界和产业界对深度学习都有‘吐槽’，这些“吐槽”的重点有哪些？

对此，张院长从两个方面阐述了深度学习所遭遇的瓶颈。

“数据”资源驱动耗人耗力

对某物体进行识别之前，我们要给它“喂”大量的数据，而这个数据需要有人来做标注并给它打标签。以语音识别技术为例，我们要给它喂大量的语料库，比如在识别某种方言，要喂这个数据，所以说大家经常会吐槽“要有多少的人工，才能有多少的智能”。此外这将会消耗浪费过多的人力和物力。

质量与准确率如何挂钩

深度学习大家都认为它就是一个“黑夹子”，对于里面的真实情况“不明所以”，“我们在调这些参数时往往是跟运气相关的，调的好则它出来的效果将是非常好的”，这是大家在吐槽时，问题反馈比较多的一个点。所以说如何把数据驱动型的人工智能跟知识引导型的人工智能结合起来成为突破此瓶颈的关键。

深度学习瓶颈的破局之道

张院长认为，要解决这个问题的关键在于如何把数据驱动型的人工智能跟知识引导型的人工智能相结合以实现自主智能。

他表示“目前人工智能＋机器人现有的技术融合所达到的智能我们还不能把它归类为自主智能，例如会打乒乓球的机器人，我们还不能说它达到了小孩子一两岁的智能；低等的乌鸦这样一个生物，如何在车来车往的闹市区吃到坚果，它所体现出来的这个智能是不是自主智能？而我们目前在外面看到的所有的人工智能、机器人，它们所体现出来的智能是不是自主智能，这个要打问号的。”对于自主智能张院长指出“类似低等动物，通过观察，学习，推理，到最后产生行为···这样一个闭环，它就是一种自主的智能，并表示“仿生和类脑是我们这两年关注最多的一个焦点，它将对于人工智能走向自主智能进发具有启发意义”。

随后，关于如何融汇“数据驱动AI”与“知识引导AI”，张院长基于仿生、类脑，智能发育理论、算法，人类视觉系统，WWN网络模型等方面给出了具体的技术应用方法定义及宝鉴。

人类视觉系统两条通路

腹部流，沿腹部经过侧膝体（LGN）、初级视网皮层区域（V1，V2，V4）、下颞叶皮层（IT），到达腹外侧额叶前部皮层（VLPFC），主要处理物体的外形轮廓等信息，即主要负责物体识别；

背部流，沿背部流经过侧膝体（LGN）、初级视皮层区域（V1，V2）、中颞叶区（MT）、后顶叶皮层（PP），到达背外侧额叶前部皮层（DLPFC），主要处理物体的空间位置信息等。

WWN网络模型

实时检测和识别任何时刻的目标（What 信息）和目标所在位置信息（Where 信息）。

解决复杂背景下目标检测、识别和跟踪。

基于深度学习和强化学习的场景感知

应用深度学习方法获得VO（视觉里程计），估算运动位置，局部地图构建；

从三维场景提取特征并依据仿生方法获得位置信息，构建全局轨迹与地图；

回环检测判断机器人是否达到先前位置。基于增强学习，机器人自主导航。

关于V－SLAM

张院长表示“V－SLAM对比激光而言，它所拥有的摄像头比激光要便宜，V－SLAM提供的信息更丰富。对于如何基于V－SLAM来做场景感知，这将是学术界和产业界不可避免的，它将是一种发展趋势。

关于人类视觉系统两条通路

张院长表示“我们人类视觉系统里面有两条通路，一条是腹侧流，一条是背侧流，一条是来处理空间位置信息的，另外一条是来处理轮廓信息的，这是我们人的两个视觉系统处理的方式，从计算机这个层面我们来设计网络模型的话，这种双通路的网络模型是可以借鉴的，虽然它还不是深度的网络模型，但比如我们训练机器人在复杂背景下来进行识别物体的场景下也是可以借鉴的。

AI时代，中国如何趁势而为

近几年随着各产业人工智能技术的不断应用，各产业的整体效率虽有大幅提升之势，但是面对当今日益复杂化的国际科技竞争形势，尤其在当下“中美互掐”的局势之下，AI＋机器人产业该如何更好的发展落地？

张院长表示在我国庞大的人口基数和巨大的市场需求之下，通过整合人工智能＋中国名族特色产业IP融合发展，将成为我国AI＋机器人产业更好的发展落地的新契机。

对于名族元素，张院长于会中，深入解析了AI＋白酒、AI＋中医等AI赋能1＋N行业应用案例、他表示“以白酒为例，从发酵－起窖、拌料（加粮食、糠壳）、上甑、出甑、摘酒、蒸馏、打量水、摊晾、入窖整个加工环节，可以借助传统酿造大数据的人机互学系统和车间布局设计与虚拟工厂系统最终实现酿造智能化生产线改造，AI＋白酒的应用落地将加速我国制酒产业发展。”

AI＋中医助力医疗大健康产业发展

最后，张院长介绍了AI＋中医对于临床研究、保健、起居养生、康复保养、AI＋医学影像，AI＋病理切片、细胞检测等AI应用场景，同时阐述了AI技术应用赋能医疗大健康产业发展的重要意义。

针对AI＋中医具体应用层，张院长具体从面诊、舌诊、脉诊、问诊四诊角度对系统算法进行全面的介绍。并报告了相关AI在四诊方面的成果。

他表示：首先是面诊部分，我们对面部肤色、光泽度、眼神、以及唇色特征进行分析。

利用基于haar－like特征的级联分类器进行人脸检测。

检测成功后，利用混合高斯模型进行皮肤提取，经多次迭代，算法精度达95％。

提取面部皮肤后，进行肤色及光泽度分析。我们训练分类器将肤色划分为黑、白、青、黄、红、正常六类，精度可达98％，利用??????算法进行光泽进行分析，精度达85％。

利用分类器将眼神划分为：有神、少神、无神三类，算法精度可达96．3％。

采用基于肤色混合模型的嘴唇分割算法提取嘴唇区域，精度达97％，后利用分类器对唇色进行识别，划分为淡白、淡红、红、深红、紫5类。精度可达98％。”

更多会议精彩内容及详细报道，请关注“ 2019中国AI＋机器人高峰论坛”会后专题！

关于WAIE

维科网主办的智能博览会，涵盖AI人工智能、智慧医疗、智慧教育、智能汽车、智能安防、智能制造、物联网及5G等领域。