数据服务行业的未来与机遇

得数据者得天下。

来源 / 金柚网(ID:MissU_app)
作者 / 金柚网
推荐阅读时长 / 5分钟

人力资源产业的发展离不开大数据和人工智能技术的应用,无论是打开一个APP显示的人资服务内容,还是查找岗位或人才时看到的搜索结果,或者系统推送的人力资源相关增值服务企业与个人的身份验证、人才调动、智能排版、业绩评估、公司核算,甚至企业人资决策、系统故障查找与排除、防止企业与个人隐私泄露……

新基建政策下,人工智能被列入国家重点建设领域。以数据采集及标注为核心的基础数据服务行业渐入佳境,蓬勃发展。金柚网研究院推出“新基建”系列报告,本文对基础数据服务行业的概念、行业发展现状、市场格局等多维度展开分析,深入探讨基础数据服务行业发展未来及市场机遇。

2020新基建系列专题

专题一:新基建通识及产业升级路径

专题二:新基建引爆数字新经济,推动新用工

专题三:工业互联下的劳动用工变迁

专题四:人工智能基础数据服务行业观察

专题五:智慧医疗全景解析

专题六:行思致远,智慧教育的来路与去向

专题七:新基建如何助力人力资源数字化转型

人工智能是新基建的主要建设领域之一,其产业链包括基础层、技术层、应用层。人工智能基础数据服务属于AI产业链的基础层,以数据采集和标注服务为主,还包括数据清洗、抽取等服务。

在具体应用场景下,数据采集及数据标注服务均可根据计算机视觉、语音识别、自然语言处理三大类进行划分。

在数据采集层面,计算机视觉类别包含图像抓取、图像采集、人像采集、视频采集、自动驾驶道路采集等。语言识别包含唤醒词采集、ASR语音采集、TTS语音采集等。自然语言处理主要包含网页抓取、常用对话信息采集等。在数据标注层面,计算机视觉类别包含了图像语义切割、图片分类、图片框选、人脸骨骼打点、3D点云、2D3D融合标注、连续帧标注、视频分类、视频内容提取等。语音识别类别包含了语音清洗、语音转写、语音切分、因素标注等。自然语言处理类别包含了文本清洗、文本分类、文本富集、OCR转写、情感标注、NLP标注等。

如果说人工智能是数字化发展的引擎,那么基础数据采标服务便是驱动引擎的燃料。信息化时代,数据作为一种新的生产要素发挥着越来越重要的作用。PC、移动互联网的发展,带动了数据量呈指数式增长。

根据IDC统计,全球每年生产的数据量从2016年的16.1ZB猛增至2025年的163ZB,其中80%至90%是非结构化数据。所谓非结构化数据是指不能通过二维表结构进行逻辑表达呈现的数据类型,如图片、语音、影像等。而非结构化数据不能通过计算机进行分析处理,要挖掘这部分数据的应用价值需要借助人工智能,最原始的非结构化数据只有经过标注转化成AI能够识别的形式,进而才能够通过人工智能深化具体的产业应用,最大化数据的应用价值。

基础数据服务行业可拆分成三大细分市场:数据资源定制服务、数据集产品、其他数据资源应用服务。根据艾瑞咨询数据统计,2019年中国基础数据服务行业市场规模约为30.9亿元,其中数据定制服务占比为86.2%,数据集产品占比为12.9%,其他数据资源应用服务占比为0.9%。而数据资源定制服务中,图像类数据需求占比最高,达49.70%。

人工智能基础数据服务的需求发起者主要为科技公司、行业企业、AI公司、科研单位。此四类需求公司处在产业链下游,而基础数据服务商处在产业链中游。上游则主要是数据生产者及产能资源,其中产能资源主要为劳动力资源(标注员及审核员等),由个人及人力资源外包商提供。

人工智能是国家重点发展的战略行业之一,多次出现在政府工作报告中。2020年,在新基建政策鼓励下,人工智能行业得到空前重视。作为人工智能行业发展必不可少的一环,基础数据服务成为各地方政府推动AI产业发展的突破口,一方面给当地人工智能行业发展带来新的机遇,另一方面给当地带来新型就业岗位,缓解了部分就业压力。

AI自身发展需要经历三个阶段:研发、训练及应用。

研发阶段主要是在AI技术开发过程早期阶段产生的数据需求,该阶段对于数据采集需求较大,对于数据质量要求相对较低。训练阶段主要是将已标数据应用于AI算法的训练,以提升算法准确率为目的,对于数据标注需求较大,对于数据采标的精准度要求也在不断提高。应用阶段主要是在AI技术的成熟阶段下,其涉及的采标数据需要更贴近具体业务场景,而基础数据服务商往往需要结合企业具体业务来提供垂直化数据服务。

应用场景垂直化、采标需求复杂化、市场格局集中化、服务流程智能化将是未来人工智能基础数据服务行业的发展方向。从人工智能技术角度看,落地应用是发展主要方向,而基础数据服务需求亦将随之过渡到垂直化的数据服务。

2019年美国人工智能市场规模约770亿元,而同期中国人工智能市场规模仅570亿元。根据美国Fortune Business Insights研究报告显示,由于自然语言应用范围更广,涉及如机器翻译、文本解析、语义歧义消除、语言处理和信息检索等多个领域,美国AI基础数据服务行业已转向以自然语言类需求为主,国内AI基础数据服务需求或也将逐渐向自然语言类采标需求渗透。

中国当前AI基础数据服务行业的供给方主要包括品牌数据服务公司、需求方自建团队、中小型数据供应商。品牌数据服务商在品牌效应、团队建设、资质、专业服务能力等方面更具优势。当AI公司需求产生变化时,品牌数据服务商更具主动性,抢占更多市场份额。需求方自建团队主要存在于大型科技公司。

随着行业人工智能行业分工及格局逐渐清晰,需求方自建团队或逐渐发展成“基础数据服务商”,或最终退出市场。中小型数据服务商是当前我国基础数据服务行业的主要供给者,但由于缺乏核心竞争力,大部分玩家无法触及行业的“利润中心”,因此当行业的“劳动力密集型需求红利”逐渐消逝时,中小型数据服务商可能会被品牌数据服务商淘汰。

当前阶段下,我国基础数据服务行业主要依靠人工完成大部分服务流程,但AI技术正在不断反哺行业,AI协助人工采标将成为行业发展趋势。数据采标服务流程主要包括方案验证、正式采标、数据质检、数据交付四个步骤。

在方案验证及数据交付环节,由于客户需求差异明显,仍以人工为主要方式。而在正式采标及数据质检环节可应用AI预标质检技术,实现人机协作,可达到大幅降低人工采标难度、提升服务效率的目的。

在新基建加持下,未来几年,基础数据行业将迎来快速增长期,数据服务需求量激增,为数据服务商形成垂直化、差异化、属地化的竞争带来契机。集调研、咨询、设计、采集、标注为一体的AI基础数据整体解决方案的服务公司,将迎来黄金时代。

文末福利

(0)

相关推荐