【深圳特区报】深圳先进院数字所所长乔宇：开发国际领先的机器视觉技术----中国科学院

【深圳特区报】深圳先进院数字所所长乔宇：开发国际领先的机器视觉技术

2020-03-30 深圳特区报闻坤

【字体：大中小】

语音播报

　　记者3月29日采访了解到，中科院深圳先进技术研究院乔宇团队牵头完成的“视频的深度表征与识别技术及应用”项目，在短视频运动语义抽取、视频长时序列建模、内容识别理解等方面发明创新技术，赋予AI既能“看得懂”，又能“认得准”，同时还能“算得快”的能力，实现对复杂、海量视频的高精度识别及快速处理。

　　该项目成果在智慧城市、智能终端等领域形成了规模化产业应用，在全国以及新加坡、中东等海外市场落地。该项目荣获2019年度广东省技术发明一等奖。

　　立志教会机器“看”和“听”

　　眼睛是人的重要器官之一。据统计，人类获得信息70%以上是通过视觉。

　　深圳先进院数字所所长、研究员乔宇说，眼底有上亿个神经元的细胞用于感知，人脑中涉及视觉信息处理的细胞达到数百亿。即便是几个月大的婴儿，也能分辨出人脸。“我们研究的目的就是让计算机像人一样能够看懂世界、理解世界。”

　　几十年前，人工智能并不像如今这么火爆，当时的国内外高校都没有设置人工智能这个专业，很多AI领域大咖在本科都是学自动化专业，乔宇就是如此。

　　大学本科时期，乔宇就对图像处理、语言识别产生浓厚的兴趣。为何把人工智能作为研究方向？乔宇回答说，其实就是一个很朴素的想法——想把人能做的事情教给机器。

　　在国外取得博士学位后，乔宇先后在中国香港、日本的高校做科研，研究的领域正是图像处理和语言识别，这是人工智能最重要的分支。

　　早期，计算机理解图片是非常难的。乔宇说，以猫为例，猫有不同的品种和颜色，可以摆出多种姿态，当图片中有几只猫，这些猫之间可能会有遮挡、交互。对计算机来说，由人去制定规则，然后教计算机去判断图片中是否含有猫，是一项异常复杂而艰巨的任务，结果准确率往往达不到人的期望，甚至远比不上一个三岁的小孩。近年来，伴随着深度学习方法的发展，计算机对图片的识别能力才有显著提升。

　　十年磨剑机器视觉技术国际领先

　　2010年开始，由于深度学习的应用，机器视觉和语音识别都取得很大的进展。同一时期，乔宇进入深圳先进院，把视频的分析理解作为最主要的研究方向，也迎来自己科研生涯的一个高峰。

　　“计算机视觉是人工智能的核心领域之一，也被认为是推动当前社会发展、经济进步的重要革命性技术。”乔宇说，它的应用领域非常广泛，包括人脸识别、自动驾驶、安防监控、工业检测、医学影像、照片美化等等。

　　“我们刚好赶上一波很重要的潮流，就是深度学习。”乔宇带领团队经过多年研究开发和应用验证，提出了视频长短时表征与识别等一系列创新性方法，突破了轨迹卷积、中心损失等核心技术，显著提升了复杂视频行为分类、大规模人像识别、物体检测、场景分类等重要视觉任务的性能。改变了早期部分学者认为深度学习只适合做图像而不适合做视频的看法，得到国际顶级会议和专家的认可。

　　该技术在多个著名视觉数据库的验证下取得了同期国际领先的识别率，并在ImageNet、ActivityNet等重要视觉国际竞赛中多次取得第一或名列前茅。在计算机视觉重要国际期刊和会议如PAMI、IJCV、CVPR、ICCV等发表一系列创新论文，根据谷歌学术统计论文累计被引超过8000次，获国内外授权发明专利10余项。可以说，正是以乔宇团队为代表的中国创新力量的不懈努力，将中国带入计算机视觉领域的世界第一集团。

　　创新成果应用广泛

　　目前，该项目研发的技术已与商汤、华为等企业展开深入合作，广泛应用于智慧城市、机器人及互联网多媒体等多个领域，提高了城市的管理效率和能力，创造了显著的经济和社会效益。

　　乔宇举例说，他们和深圳博铭维智能科技合作，开发智能管道机器人，运行于深圳各区的地下管道，通过视频智能判断是否有堵塞、管道错接破裂等异常，不仅极大提高了工作效率，也避免人工作业的安全隐患。

　　乔宇说，深度学习的方法有效解决了机器视觉的很多问题，比如人脸识别在千万级的数据集上，可以达到99%的识别率。但也存在局限性，比如小数据和数据不平衡带来的识别误差和漏洞，另一方面，深度网络只是在学数据，并没有像人一样利用常识，进行知识推理能力。在小数据、知识运用和推理等方面，国外也处于研究过程中，中国未来在这些领域是存在机遇的。下一步，他们团队将在非结构性数据、小数据、弱监督、高效模型等方面探索广义深度视觉。此外，团队还将与企业深入合作，为相关产业发展作出贡献。

　　（原载于《深圳特区报》 2020-03-30 A05版）

　　记者3月29日采访了解到，中科院深圳先进技术研究院乔宇团队牵头完成的“视频的深度表征与识别技术及应用”项目，在短视频运动语义抽取、视频长时序列建模、内容识别理解等方面发明创新技术，赋予AI既能“看得懂”，又能“认得准”，同时还能“算得快”的能力，实现对复杂、海量视频的高精度识别及快速处理。
　　该项目成果在智慧城市、智能终端等领域形成了规模化产业应用，在全国以及新加坡、中东等海外市场落地。该项目荣获2019年度广东省技术发明一等奖。
　　立志教会机器“看”和“听”
　　眼睛是人的重要器官之一。据统计，人类获得信息70%以上是通过视觉。
　　深圳先进院数字所所长、研究员乔宇说，眼底有上亿个神经元的细胞用于感知，人脑中涉及视觉信息处理的细胞达到数百亿。即便是几个月大的婴儿，也能分辨出人脸。“我们研究的目的就是让计算机像人一样能够看懂世界、理解世界。”
　　几十年前，人工智能并不像如今这么火爆，当时的国内外高校都没有设置人工智能这个专业，很多AI领域大咖在本科都是学自动化专业，乔宇就是如此。
　　大学本科时期，乔宇就对图像处理、语言识别产生浓厚的兴趣。为何把人工智能作为研究方向？乔宇回答说，其实就是一个很朴素的想法——想把人能做的事情教给机器。
　　在国外取得博士学位后，乔宇先后在中国香港、日本的高校做科研，研究的领域正是图像处理和语言识别，这是人工智能最重要的分支。
　　早期，计算机理解图片是非常难的。乔宇说，以猫为例，猫有不同的品种和颜色，可以摆出多种姿态，当图片中有几只猫，这些猫之间可能会有遮挡、交互。对计算机来说，由人去制定规则，然后教计算机去判断图片中是否含有猫，是一项异常复杂而艰巨的任务，结果准确率往往达不到人的期望，甚至远比不上一个三岁的小孩。近年来，伴随着深度学习方法的发展，计算机对图片的识别能力才有显著提升。
　　十年磨剑机器视觉技术国际领先
　　2010年开始，由于深度学习的应用，机器视觉和语音识别都取得很大的进展。同一时期，乔宇进入深圳先进院，把视频的分析理解作为最主要的研究方向，也迎来自己科研生涯的一个高峰。
　　“计算机视觉是人工智能的核心领域之一，也被认为是推动当前社会发展、经济进步的重要革命性技术。”乔宇说，它的应用领域非常广泛，包括人脸识别、自动驾驶、安防监控、工业检测、医学影像、照片美化等等。
　　“我们刚好赶上一波很重要的潮流，就是深度学习。”乔宇带领团队经过多年研究开发和应用验证，提出了视频长短时表征与识别等一系列创新性方法，突破了轨迹卷积、中心损失等核心技术，显著提升了复杂视频行为分类、大规模人像识别、物体检测、场景分类等重要视觉任务的性能。改变了早期部分学者认为深度学习只适合做图像而不适合做视频的看法，得到国际顶级会议和专家的认可。
　　该技术在多个著名视觉数据库的验证下取得了同期国际领先的识别率，并在ImageNet、ActivityNet等重要视觉国际竞赛中多次取得第一或名列前茅。在计算机视觉重要国际期刊和会议如PAMI、IJCV、CVPR、ICCV等发表一系列创新论文，根据谷歌学术统计论文累计被引超过8000次，获国内外授权发明专利10余项。可以说，正是以乔宇团队为代表的中国创新力量的不懈努力，将中国带入计算机视觉领域的世界第一集团。
　　创新成果应用广泛
　　目前，该项目研发的技术已与商汤、华为等企业展开深入合作，广泛应用于智慧城市、机器人及互联网多媒体等多个领域，提高了城市的管理效率和能力，创造了显著的经济和社会效益。
　　乔宇举例说，他们和深圳博铭维智能科技合作，开发智能管道机器人，运行于深圳各区的地下管道，通过视频智能判断是否有堵塞、管道错接破裂等异常，不仅极大提高了工作效率，也避免人工作业的安全隐患。
　　乔宇说，深度学习的方法有效解决了机器视觉的很多问题，比如人脸识别在千万级的数据集上，可以达到99%的识别率。但也存在局限性，比如小数据和数据不平衡带来的识别误差和漏洞，另一方面，深度网络只是在学数据，并没有像人一样利用常识，进行知识推理能力。在小数据、知识运用和推理等方面，国外也处于研究过程中，中国未来在这些领域是存在机遇的。下一步，他们团队将在非结构性数据、小数据、弱监督、高效模型等方面探索广义深度视觉。此外，团队还将与企业深入合作，为相关产业发展作出贡献。
　　（原载于《深圳特区报》 2020-03-30 A05版）
　　

打印

责任编辑：侯茜

扫一扫在手机打开当前页

院机关

派驻机构

分院

院属机构

【深圳特区报】深圳先进院数字所所长乔宇：开发国际领先的机器视觉技术