华为视觉计划发布，要做“智能世界的眼睛” / 四六文摘

来源：懂懂笔记

以现在图像采集设备的配置，让机器“看清”这个世界已经不在话下。但是，从“看清” 到“看懂”，我们还有很长的路要走。

“我们的目标是利用人工智能技术，让机器能够真正'看懂'这个世界。”华为诺亚方舟实验室计算视觉首席科学家田奇博士这样阐述华为计算机视觉的研究目标。计算机视觉是机器的感知入口，是数据载体，是物与物的联接器，是行业数字化抓手。华为计算机视觉的目标，就是成为智能世界的眼睛。

在华为开发者大会2020（Cloud）上，华为宣布“沃土计划2.0”的进一步举措。华为将在2020年投入2亿美元推动鲲鹏计算产业发展，并公布面向高校、初创企业、开发人员及合作伙伴的扶持细则。作为沃土计划的一部分，今天田奇博士向开发者发布了“华为视觉计划”，旨在助力AI开发者，让计算机视觉技术在更多的应用领域落地，产生真正的商业价值。

计算机视觉技术

迎来了最好的时代

人的智能来自于人对外界的感知，包括视觉、听觉、触觉、嗅觉、味觉等。其中，视觉占到所有感知的87%，是人类感知外界信息的最重要的途径。视觉还是打开心灵的最有力的手段：一瞬间的影像信息，甚至在几十年后还能被准确地回忆起来。

从人类的智能到人工智能，需要跨越很大的技术壁垒。AI的实现，依赖于机器对于世界的感知：计算机视觉是机器感知最重要的入口，也可以说是智能世界的眼睛。智慧城市、机器人、自动驾驶、智慧医疗、工业视觉、AR等等这些我们经常听到的AI应用，都是要建立在“看懂世界”的基础上。

计算机视觉，给我们的生活带来了显著的改变。比如，我们对自动驾驶寄予极高期望。自动驾驶技术的实现，不仅依靠车身四周安装的各类传感器，还依靠计算机视觉技术的配合。只有实现了智能、精准的分析，才有可能从今天的L3级向未来的L4/L5级智能驾驶演进。智慧城市已经安装了海量的摄像头，而这些数据有80%还都未被充分利用和挖掘，计算机视觉可以让这些摄像头不仅“看清”城市还能“看懂”城市，从而提升城市管理的效率。在每个现代人都离不开的手机里，计算机视觉也起着重要的作用：AI技术为图像视频质量增强提供了有力的武器，而超分辨率、失焦修复等也已成为手机摄像的标准配置……

显然，今天计算机视觉已经无处不在，那么我们怎么理解计算机视觉的重要性呢？可以说，计算机视觉是万物感知的入口、行业数字化的抓手，在AI+云+5G的数字化底座基础上，激发智能世界新物种的爆发。所有前面提到的无人驾驶、安防、智慧金融、智慧商超等应用，都取决于计算机视觉技术的能力——娱乐与通信、生产与安全、智慧生活等，这将是一个千亿美元的巨型市场。

可以说，计算机视觉技术迎来了最好的时代。

技术要上天：

一年80多篇世界顶级论文

计算机视觉技术迎来了最好的时代，但这对于技术人员而言也是一个充满挑战的任务。“基于标注数据的监督学习所带来的红利期已接近尾声，现在业界亟需高效利用海量无标注数据（数据高效）的新学习范式。” 作为这一领域全球顶级专家的田奇认为。

目前，计算机视觉面临三大挑战：第一是如何从数据中挖掘有效信息，第二怎么设计高效的视觉识别模型，第三是如何表达并存储知识。田奇博士带领的团队的主要研究重心聚焦在数据高效和能耗高效的计算机视觉基础研究上。

我们知道，为了从海量无标签数据中挖掘有用的知识，就需要数据高效的学习算法；而为了让动辄上千万参数量的网络模型在各种终端设备中顺畅运行，能耗高效的模型适配也是他们的研究重点之一——华为的计算机视觉研究，就是在攻克这些技术难关。

落实到具体业务，计算机视觉研究主要针对六大方向：底层视觉、语义理解、3D视觉、数据生成、视觉计算、视觉+X模态。应用场景包括自动驾驶、平安城市、终端视觉等。正是得益于爆发式的应用场景以及AI人才红利，中国的计算机视觉研究也开启了加速模式，华为的计算机视觉也屡有突破。

例如，在业界公认最为重要的图像分类数据集ImageNet上，田奇博士的团队利用高效的数据扩增算法，在不使用额外训练数据的情况下，达到了85.8%的分类准确率，打破了谷歌多年来对这一赛道的垄断。

同时，利用在自动网络架构搜索方面取得的持续性突破（代表性工作包括P-DARTS、PC-DARTS、Stabilizing DARTS、Latency-Aware DARTS等），团队也能够完成从云侧大模型到端侧小模型的适配，在受限算力下依然保持业界领先水平。

在过去一年多的时间里，他们还研发了许多先进技术并中稿了80多篇计算机视觉顶会论文，其中多项技术已经在华为内部多个应用场景中获得验证与应用。在今天田奇博士的演讲中，也把这些技术的进展与开发者一起分享。

从顶级会议论文来看，显然华为视觉的创新能力已经进入世界第一梯队，正所谓“技术要上天”。华为一向在研发上的投入都是大手笔，研发的成果也是不断挑战行业的上线，以创新引领行业突破。

华为全面赋能开发者

填补技术与应用之间的鸿沟

在技术研究与应用落地之间，还有一个条很难逾越的鸿沟。研究通常更注重理论化、通用性，并且要不断探索未知领域，而应用则是将技术落地，带来社会价值和商业价值。

正所谓“技术要上天，产业要落地”，华为计算机视觉处于全球领先的技术要在各行各业中产生价值，还是要依靠生态的力量，依靠更多的AI开发者将技术在产业中落地。作为黑土地赋能生态中的每一个企业、每一个开发者，这也恰恰是华为一贯以来的战略。

以“硬件开放，软件开源，使能合作伙伴”策略推动的鲲鹏计算产业生态是适合AI生长的肥沃的黑土地。在这次的华为开发者大会2020（Cloud）上，华为向外界透露了更加开放的信息：比如在硬件方面，华为将聚焦做好处理器、板卡和主板等，使能合作伙伴优先发展自有品牌的计算产品整机。目前全球已经有11家整机厂商基于鲲鹏主板推出自有品牌的服务器及PC产品。在软件方面，华为坚持开源策略，openEuler 20.03 LTS版本也正式上线。在使能合作伙伴方面，华为与产业伙伴联合成立了15个鲲鹏生态创新中心，与600多家的ISV伙伴推出了超过1500个通过鲲鹏技术认证的产品和解决方案。

“开发者是改变世界的重要力量，也是企业创新的引擎和产业生态的灵魂。我们将携手全球开发者和产业伙伴，基于鲲鹏处理器多核、高并发的优势，为世界提供充裕且经济的算力，开拓万亿级的计算产业大蓝海，共享数字经济的红利。” 华为云与计算BG总裁侯金龙透露，目前华为云开发者已经增长到160万，通过沃土计划2.0，计划5年内发展500万开发者。

作为华为在计算机视觉这一重点领域的领航者，田奇博士今天在HDC大会上发布了“华为视觉计划”。这个计划包含两方面：一方面华为将以更积极的姿态，投身计算机视觉前沿的探索；另一方面，全面使能开发者，针对某一个特定的行业或是场景，提升用户体验，带来实际的价值。华为计算机视觉通过使能AI开发者，与业界一起加速技术的落地，迈向真正的人工智能时代。

“华为将继续加大投入计算机视觉的基础研究，不断挑战计算机视觉领域三大问题，包括如何从海量数据中高效挖掘有用的信息、设计高效的万物识别视觉模型，以及表达并存储知识以迈向通用智能。”田奇博士透露华为视觉计划围绕三大方向，共有六大子计划，包括：

数据冰山计划：以极少量标注数据撬动海量无标注数据，支撑小样本场景下模型训练

数据魔方计划：利用多种模态相互辅助、增强模型在实际场景的学习能力

模型摸高计划：构建云侧大模型，刷新各类视觉任务性能上限

模型瘦身计划：打造端侧高效的计算模型，助力各种芯片完成复杂推理

万物预视计划：设计视觉预训练任务，打造视觉通用模型

虚实合一计划：在虚拟与现实的结合中，将计算机视觉引向真正的人工智能

“提供端到端的产品与方案，用'5G+AI+云+计算机视觉’加速智能世界到来和行业数字化转型。构建良好的产业生态，打造开放、共赢、健康的产业链，我们要让所有人从中受益。” 田奇博士这样总结华为视觉要承担的责任。

【结束语】

AI这个词在我们耳边萦绕多年，如今开始逐渐全面落地。作为最重要的机器感知入口，视觉是AI的核心技术和应用，迎来最好的时代。

怀揣“做智能世界的眼睛”的愿景，凭借80多篇世界顶级论文，华为计算机视觉在技术研发上已经走在了业界最前沿。随着华为视觉计划的发布，华为将通过使能AI开发者加速视觉技术的落地，也将加速AI的普惠。

华为视觉计划发布，要做“智能世界的眼睛”

相关推荐