CMU RI(卡内基梅隆大学机器人学院)的科学家正研发一种可以从头到脚读取肢体语言的计算机系统。新项目可以实时读取大规模人群的多个动作姿势,这为人与机器交互开辟了新的方式。

目前,与计算机通信主要限于打字,鼠标点击和屏幕触摸。虽然语音交互更加普及,但人类主要是用文字交流。社会活动中,半数的人际交往来自肢体语言,没有肢体语言,互动可能变得困难和费力。

让电脑读懂人类的肢体语言是一件棘手的事,包括可以被物体或其他人遮蔽的手部动作。除此之外,虽然大型数据库存在标注的面部表情和身体位置,但并没有任何手势和姿势。

CMU RI(卡内基·梅隆机器人研究院)副教授Yaser Sheikh领导的团队攻克了解决此问题一些的方法。其中之一是,通过让两个研究生站在摄像机前面,做数千种不同的姿势和手势,来为计算机提供更多的数据。

另一个是颠覆了计算机读取姿势的常规方式。计算机不只关注人本身,而是会实时检测手指的动作,人的手、手臂、腿和脸,并锁定这些动作和姿势。据团队介绍,这对观众来说特别有用。

20170712_01_robot02

第三部分是使用CMU的Panoptic Studio(用于大规模社交互动采集的多视角系统),它是一个有两层楼高,并嵌有500台摄像机的结构。这使计算机可以从数百个不同角度,一次采集大量的动作数据来用于研究。

20170712_01_robot03

机器人博士Hanbyul Joo说:“系统自动标注手的位置,单次拍摄可以让你采集一个人的500次手部动作。若手太小,无法被大多数相机标注,但是对于这项研究,我们只使用了31台高清摄像头,但仍然能够构建一个庞大的数据集。”

团队正在努力解决,把2D模型转换为3D模型,以获得更好的识别效果。最终的目标是制作一个,允许单个摄像头和笔记本电脑,从一群人那里读取姿势的系统。

当技术成熟时,CMU RI团队认为它会非常有用,不仅可以让人们通过简单的指向与机器进行交互,还可以帮助自动驾驶汽车推断行人打算何时过马路,可以用来自动辅助诊断行为障碍,并跟踪体育运动员的动作,解释他们在做什么。

系统介绍

20170712_01_robot04

硬件:

480个VGA摄像头,640 x 480分辨率,25 fps,使用硬件时钟同步

31个高清摄像机,1920 x 1080分辨率,30 fps,使用硬件时钟同步,与VGA摄像机定时对齐

10个KinectⅡ传感器。1920 x 1080(RGB),512 x 424(depth),30 fps,它们之间和其他传感器之间的时序对齐

5台DLP投影机,与高清摄像机同步

场景与标注:

多人

社会互动群组

3D身体姿势

3D面部地标

Transcripts + speaker ID

(本文来源于微信公众号机械鸡)