AI进入深兰的冠军时间:CVPR对于木薯疾病分类的关注意味着什么?
几天前,世界顶级的计算机视觉会议CVPR2019举办了FGVC(细粒度图像分类)系列挑战赛。和每一场学术会议的竞赛一样,FGVC也成为了中国与世界的竞技场。这次FGVC系列挑战中,深兰科技所取得的一项成绩引起了我们的注意。
一片木薯叶和图像识别的落地故事
在Cassava Disease Classification这一挑战赛中,来自中国的深兰科技DeepBlueAI获得了第一名。Cassava Disease Classification即是“木薯疾病分类”,挑战者需要通过不同状态木薯叶子的照片,来判断木薯的健康状态以及患了哪种疾病。
而这一竞赛所应用的数据集,来自乌干达农民自己在田地里拍摄的木薯照片,数据集中的照片来自于不同光线、不同设备以及不同的非专业拍摄者。同时木薯疾病分类挑战并不像很多挑战赛那样给参与者提供了海量数据,其数据集中只有不到一万张已标注照片和一万余张未标注照片。也就是说,木薯疾病分类挑战是无尽接近于现实需求的。
DeepBlueAI通过图像增强方法降低过拟合的风险并提高模型的鲁棒性,同时利用多个在ImageNet表现优异的模型,以集成方法提升精度,最终获得了这一分类项目的冠军。
之所以关注深兰科技在细粒度图像分类上的表现,是因为这一问题关系着图像识别技术的落地发展状况。
提到图像识别技术,我们经常能联想到AI辨识动物、辨识物体等等能力。可实际上这些识别技术大多还都流于大致轮廓而非细节,例如AI可以分辨出猫和狗,却不一定能够分别出猫与狗具体的品种。而只有当识别能力不断细化和深入时,AI才能真正发挥出价值来。这其中最典型的案例就是人脸识别,正因人脸识别在精准度上不断突破,从一比一到一比N,甚至进化到金融级别,才能应用到更多场景之中。
可相比公开数据集丰富的人脸数据来说,其他领域想要不断深入细节提升模型精度,会遇到一系列的问题。
最首要的,就是数据集本身不够丰富。就拿这次木薯疾病分类挑战来说,木薯这种植物主要被种植于热带地区而非农业现代化水平较高的北美、澳洲,也就是说此前很少有相关的数据累积,自然也就很难通过海量数据+暴力计算来建立高精度模型。
伴随数据匮乏的,是标注成本的高昂。相比人脸标注仅仅需要找到眼睛鼻子嘴巴,细节场景中的标注往往还需要一些专家知识。例如对植物的病变、品种进行分类,很多时候就需要在专家的指导下进行。
最后还有整体产业生态的恶性循环。越是数据匮乏,科技企业参与起来就愈发困难。让产业的数字化和智能化累积不断落后,在未来的技术进化进程中不断的落后。
但好在,CVPR这样的学术组织正在参与其中改变现状。就拿FGVC系列挑战赛来说,所解决的都是贴近现实领域的细粒度图像分类问题。除了识别木薯疾病以外,还有开花植物科野牡丹科的物种识别、艺术品文化/时期推理、蝴蝶和蛾物种识别等等。
图像识别之于现实场景的应用性正在不断扩张和深入,让人脸识别不再成为唯一的效率工具。底层技术之于现实世界的张力,会越来越大。
从枝头到根系:
深兰科技的创新循环
要说细粒度的图像分类如何解决现实场景问题,我们同样也能从深兰科技的案例中找到答案。
在深兰科技的商品识别模型中,不仅需要像一般识别问题那样检测出例如苹果,菠萝的大分类,同时还需要检测出具体属于哪一类苹果,如富士,烟台等。对农产品有所了解的人会知道,很多水果的细分品种之间的差异非常小。例如苹果中的秦冠和富寒,乍一看都是通红混圆的,可却一个口感绵软一个口感甜脆。想要实现这两者之间的区分,除了运用整体信息进行大类识别以外,还需要运用上苹果颜色、斑点甚至果蒂形状等等局部信息来进行确认。
有了这种识别模型,任何一个不具备农产品知识的人,都可以在不破坏水果的前提下对其品种进行确认,大大提升了人们在选购水果时的效率。
相信看到这里,大家也能发现,为什么深兰科技的DeepBlueAI能够在木薯疾病分类挑战中获得冠军——“基础研究+应用开发”一直是深兰科技的重要标签。目前深兰科技的AI技术已经纷纷在智能驾驶、智能机器人、AI city等等九大应用领域之中落地。
深兰科技的技术工作人员也在采访中告诉我们,通过AI底层应用的创新,去带动产品落地、服务民生,渗透到各种日常应用场景,然后在场景中获得实际数据来反哺AI技术进步,由此形成正向循环。
就像在FGVC系列挑战赛中,一旦遇到木薯疾病分类这样极度贴近现实场景问题。拥有大量落地经验的DeepBlueAI就立刻能找到适应于少样本、低质量样本的解决方案。在学术问题的解决过程中,深兰科技也可以提炼出更多关于AI底层创新的方法论,继续投入到AI的落地应用之中。于是我们可以看到,图像识别算法正在高速公路上识别不同车辆的型号、在野外识别不同物种、在零售场景识别商品……这些都与深兰科技的基础创新不无关系。
技术领先背后的模式胜利
这一次深兰科技在FGVC系列挑战中的胜利,看似是技术能力的胜利,实际上却是一种AI商业模式的胜利。
深兰科技CEO曾经强调过,深兰科技的商业模式是:做强两端,打通链路。所谓做强两端,既是在自动驾驶、计算机视觉、语音技术等等基础AI能力上进行创新,同时也在行业应用上不断深入,将技术与具体场景深入融合去增强服务能力。在这个过程中,硬件、数据、技术能力等等的壁垒被不断打破,整体产业中资源被打包重组,最终可以交付给用户即拿即用的一体化技术方案。
其实相比之下,深兰科技的AI商业模式是更为“长链化”的。有很多AI创业企业愿意去选择不断展示技术能力,然后直接出售算法。也有很多AI创业企业,因为掌握了市场资源,直接变身中间商把他人的技术包装起来售卖给用户。这些商业模式虽然更容易在一时展现出变现能力,却阻断了技术不断创新的道路——技术的创造者向第三方出售算法,就很难见到自己的技术成果在现实应用场景中的表现,也很难进一步对技术做出改进。技术的发展在不断被分叉、被阶段,也就一步步的远离目的地。
而今天我们所讲述的“深兰模式”,虽然要在算法投入到现实场景中才能获得商业收益,却给了技术能力不断趋向应用生长更新的可能。
相信在CVPR这类学术组织和AI企业的共同努力下,AI的基础创新会越来越贴近现实应用场景。不分叉、不截断,在一条笔直的通路中走下去。