导语:计算机视觉(Computer Vision, CV)作为人工智能(AI)的核心技术之一,在过去的三十年里发展迅猛,应用范围遍及工业、农业、军事、国防等多个领域。本报告将一步到位,从基础概念到技术讲解,从应用场景到发展趋势,为您全面呈现关于计算机视觉的最新讯息!近日,清华大学人工智能研究院、北京智源人工智能研究院和清华-中国工程院知识智能联合研究中心共同发布了《人工智能之计算机视觉》报告。我们选取计算机视觉作为本期 TR 报告的主题,围绕计算机视觉的基本概念、技术发展、产业应用、人才概况和热点趋势五大方面进行深入挖掘。报告的论文、国家自然科学基金、趋势数据均来自于清华大学唐杰教授自主研发的“科技情报大数据挖掘与服务系统平台”(简称 AMiner),通过人工智能、大数据分析与挖掘、知识图谱、自然语言处理等技术,并结合文献计量学等情报学方法制作生成。接下来,我们将通过回答大家可能感兴趣的问题,为读者展示本次报告的亮点内容。计算机视觉是指用计算机实现人的视觉功能——对客观世界的三维场景的感知、识别和理解。它是一种典型的交叉学科研究领域,包含了生物、心理,物理,工程,数学,计算机科学等领域,存在与其他许多学科或研究方向之间相互渗透、相互支撑的关系。计算机视觉的内涵丰富,需要完成的任务众多,关键任务包括:图像增强、图像分类、图像检测与定位、图像分布、目标识别。
图像增强处理可以有效去除图像噪声、增强图像边缘,突出图像中所需的重要信息,去除或弱化不重要的信息,达到改善图像的视觉质量的效果,更适合人的观察或机器的识别。
图像分类是目标检测、语义分割的重要支撑,其目标是将不同的图像划分到不同的类别,并实现最小的分类误差。如今,图像分类的应用在我们的生活中随处可见,如智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。
物体检测为许多视觉任务提供了动力,例如实例分割,姿势估计,追踪和动作识别。它在监视,自动驾驶和视觉问答中具有下游应用。
对于一张图来说,图上可能有多个物体、多个人物甚至多层背景,希望能做到对于原图上的每个像素点,能预测它是属于哪个部分(人、动物、背景……)。
目标识别的目的在于判断场景(二维图像、视频或三维图像)中是否存在感兴趣目标,若存在则对其位置和姿态等信息进行估计,是计算机视觉中非常重要的一个研究方向。想要了解各项任务的详细信息,请扫描文章底部的二维码获取完整报告!在全球范围内,计算机视觉的顶尖学者主要分布于东亚、北美以及欧洲,此外,南美、澳大利亚等地亦有部分学者分布。在我国,领域学者大部分聚集于北京地区。与此同时,江苏、上海、辽宁、湖北、广东等地同样分布着可观数量的计算机视觉领域学者。北京地区学者主要聚集在以北大、清华、亚洲微软研究院为首的海淀人才汇集地,人才密度可谓在世界范围内都首屈一指,为该领域的发展提供了强大的人才保障。此外,香港、深圳、广州等城市在发展计算机视觉产业上各具优势及特色,从研发成果产业化的角度看,香港有较顶尖的人才储备,而深圳有强大的科创队伍,广州则具备很强的产业化能力。计算机视觉代表性学者包括 Trevor Darrell, Ross B. Girshick, Christian Szegedy, Li Feifei 等。本报告参照 AI 2000 人工智能全球最具影响力学者榜单,收集整理了历届获得过 AI 2000 计算机视觉子领域的学者,通过“学者画像”的方式进行展示,另外还包括了学者的基本信息、AMiner 获奖信息、研究兴趣和相关代表性论文等。欲知详情,快扫描文章底部二维码阅读完整报告吧!计算机视觉技术为很多场景提供了全新的解决方案,本报告主要从城市公共安全、政务民生、金融服务、新零售等方面详解了计算机视觉是如何应用的。
伴随着人工智能软硬件技术的不断发展,计算机视觉技术早已突破了肉眼精度的图像识别,并广泛应用于城市公共安全领域,包括:车辆识别、安防监控、刑侦追逃、罪犯识别、边防安全检查、金融安保、交通监管、监狱人员管理等诸多场景。
目前,计算机视觉技术在政务民生场景的应用已出现在审批、核准、备案、证明等多项行政权力办理事件中。企业和个人在线申请,政府在线办理,全面实现网上政务公开和互动交流等便民应用,同时基于大数据的人工智能,助力政府制定更加精准、灵活、前置性的决策方案。
金融服务与计算机视觉等其他人工智能技术深度融合已发成为金融服务行业的常规业态,利用计算机视觉技术验证用户身份,可以在保证安全性的基础智商,大幅降低核验成本。
报告通过领域技术分析系统(https://analysis.aminer.cn/),基于 AMiner 的 3 亿篇论文进行深度挖掘,全面分析了计算机视觉领域的技术趋势、国家趋势、机构趋势等。当前,我国计算机视觉技术快速发展,研究热度位居全球首位。技术的发展也带来了就业结构、个人隐私、社会准则等多方面的的问题。我国在大力发展计算视觉技术的同时,技术带来的风险与挑战也同样不容小觑。未来,计算机视觉技术主要面临政策标准、隐私安全和技术难点三方面的挑战。欲知详情,请扫描二维码获得完整报告!
[1] Deng J, Dong W, Socher R, et al. Imagenet: A Large-scale Hierarchical Image Database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition IEEE, 2009: 248-255.
[2] Masi I, Wu Y, Hassner T, et al. Deep Face Recognition: A Survey[C]//2018 31st Sibgrapi Conference on Graphics, Patterns and Images (SIBGRAPI), IEEE, 2018: 471-478.
[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks[C]//Neural Information Processing Systems, 2015: 91-99.
[4] Comaniciu D, Ramesh V, Meer P. Kernel-based Object Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.
[5] Brox T, Bruhn A, Papenberg N, et al. High Accuracy Optical Flow Estimation Based on a Theory for Warping[C]//European Conference on Computer Vision, Springer, 2004: 25-36.
[6] Izadi S, Kim D, Hilliges O, et al. Kinectfusion: Real-time 3d Reconstruction and Interaction Using a Moving Depth Camera[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology, 2011: 559-568.