【预算分析】扒一扒美国2020财年人工智能领域预算
鹰,搏击长空而无畏。鹰,大千尽览而敏锐。鹰,动如雷霆而持重。海鹰资讯,力求以鹰一般的气魄、视野和迅捷去打造专业的情报资讯,让繁复世界中最有价值的情报尽收眼底。人工智能带着它独有的先进性走入了人们的视野,各个领域似乎都与它有着密不可分的联系,而人工智能在军事领域的应用则是以美国为代表的军事大国最关心的。有报道说美国2020财年人工智能领域预算高达9.27亿美元,究竟如何?我们以今年3月美国防部和各军种公布的2020财年(2019年10月1日至2020年9月30日)预算申请文件为基础,带你走进人工智能领域预算的世界,去了解人工智能领域预算的判定原则、抽取方法,看看到底美国为人工智能的发展申请了多少预算。
提取美国2020财年人工智能领域预算1预算文件有哪些凭借小学数学强大的计算能力,我们算出今年一共发布了204篇PDF文件和14个EXCEL文件。今天重点介绍美国2020财年空军、海军、陆军、国防部长办公厅(OSD)、国防高级研究计划局(DARPA)、美国导弹防御局(MDA)公布的研究、开发、试验与鉴定(RDT&E)预算文件共22个pdf文件(具体见表1),其中涵盖了BA1-BA7各预算活动相关项目文件。表1 2020财年美国国防预算文件列表机构文件名机构文件名海军RDTEN_BA1-3_BOOK.pdf陆军rdte_ba1.pdfRDTEN_BA4_BOOK.pdfrdte_ba2.pdfRDTEN_BA5_BOOK.pdfrdte_ba3.pdfRDTEN_BA6_BOOK.pdfrdte_ba4.pdfRDTEN_BA7_BOOK.pdfrdte_ba5a.pdf空军FY20_PB_RDTE_Vol-I.pdfrdte_ba5b.pdfFY20_PB_RDTE_Vol-II.pdfrdte_ba5c.pdfFY20_PB_RDTE_Vol-IIIa.pdfrdte_ba6.pdfFY20_PB_RDTE_Vol-IIIb.pdfrdte_ba7.pdfDARPARDTE_Vol1_DARPA_MasterJustificationBook_PB_2020.pdfOSDRDTE_Vol3_OSD_RDTE_PB20_Justification_Book.pdfMDARDTE_Vol2_MDA RDTE_PB20_Justification_Book.pdf2化pdf为excel我们认为想要分析预算文件首先需要将预算文件的pdf格式提取为excel表,这里我们利用了机器自动处理结合人工筛选的方式进行数据抽取,降低了完全人工抽取数据的时间成本,一定程度上提高了数据抽取效率和准确性。
图1 美国国防预算文件内容举例通过对pdf文件的观察,发现每个项目都包括①RDT&E Budget Item Justification、②Budget Activity、③R-1 Program Element、④Mission Description and Budget Item Justification、⑤Project (Number/Name)、⑥Mission Description and Budget Item Justification、⑦title、⑧Description、⑨FY2018、⑩FY2019、⑪FY2020、⑫FY 2019 Plans、⑬FY 2020 Plans、⑭FY 2019 to FY 2020 Increase/Decrease Statement等14个属性字段。⑦-⑭为项目级属性,后续研究均基于这些属性进行,因此需要将这些属性抽取出来,借助计算机的PDF解析技术,将PDF文本内容提取到excel表中便于查找与筛选。抽取结果示例如下:
图2 人工智能领域预算Excel表3关键词筛选所有的预算表格已经有了,接下来对人工智能领域的项目进行摘选和提取,才是真正的重点,我们是如何做的呢?首先,由于人工智能领域涉及内容广泛,范围较大,单纯以关键词“Artificial Intelligence”进行搜索得到的结果不够全面,因此需要扩充关键词。基于我们自身对人工智能领域的理解,并通过组内讨论结合专家评判的方式,最终确定关键词有“Artificial Intelligence”、“Machine Learning”、“Deep Learning”、“Augmented Reality”、“Virtual Reality”、“Human Machine Interface”、“Big Data”和“Computer Vision”共8个。我们把人工智能项目抽取分为了关键词匹配和人工判别两部分。(1)关键词匹配分别用上述七个关键词在title、Description、FY 2019 Plans、FY 2020 Plans、FY 2019 to FY 2020 Increase/Decrease Statement这五列中进行搜索,如果某一行中包含至少一个关键词,则将此行筛选出来,标记为人工智能候选项目。(我们认为,如果项目信息中包含人工智能的关键词则证明该项目很可以属于人工智能领域研究。)图3为筛选后的人工智能项目示例,红色字体的为匹配到的关键词。
图3 关键词匹配结果通过此方式,筛选出候选项目DARPA 46个,MDA 3个, OSD 57个,海军64个,陆军55个,空军38个,共计候选项目263个。这些项目中包含人工智能技术自身的开发项目,也包括人工智能技术应用的研发项目。(2)人工判别上述方式很大程度上简化了筛选过程,但仍属于机械式筛选,未对项目的具体内容进行辨析。我们认为,项目仅在描述中简单提及人工智能,并未进行人工智能技术自身的科研,只是予以应用而得到一定的改进,此类项目不属于本研究中所指的人工智能项目。在此基础上,通过人为判别的方式筛选真正的人工智能项目。最终从2020财年预算文件编列的人工智能技术领域项目共67个,其中DARPA编列了21个项目(文底链接附表1),MDA编列了0个项目, OSD编列了12个项目(文底链接附表2),海军编列了4个项目(文底链接附表3),陆军编列了24个项目(文底链接附表4),空军编列了6个项目(文底链接附表5)。
预算申请知多少1总体情况美国国防部在公布的2020财年国防预算申请概要文件中明确指出,美军2020财年人工智能预算申请总额高达9.27亿美元(包括联合人工智能中心和Maven计划)。而根据我们抽取统计的结果,从国防机构和各军兵种预算文件的项目预算来看,美军2020财年人工智能预算申请总额为9.44亿美元,与官方披露的总数据相比,有近0.17亿美元预算差距。很容易理解,我们对人工智能领域的理解和对项目的筛选,与美国对人工智能的定义有所出入。我们做的研究只代表自己的理解,和自己对人工智能预算的分析和整理。表2 2020财年美国国防预算统计结果(单位/万美元)FY2018(执行)FY2019(批复)FY2020 BaseFY2020 OCOFY2020(申请)DARPA129.354166.8390.0000.000310.608OSD59.723280.421233.4480.000350.736海军14.42115.42945.4910.00045.491陆军98.124135.64610.0000.000163.905空军54.64154.6500.0000.00072.973总计356.263652.985278.9390.000943.7132DARPA、OSD占主导,陆军崛起高于海空从统计的不同机构和各军种预算申请情况来看(图4),OSD预算申请最多,这与预算概述中指出的联合人工智能中心和Maven计划均在OSD下进行有关。海陆空三军的预算申请相比DARPA和OSD较少,我们推断可能是人工智能技术研究还属于预研先期,大部分项目在DARPA和OSD下进行开发,还未投入到各军种中进行实战应用。图4还可以看出,基于2020财年统计出的人工智能项目,从2018财年到2020财年,预算的种类虽然不同,但是每个机构的人工智能预算都是呈上升趋势的,说明人工智能近年来发展迅速而且受到各方关注,人工智能第三次浪潮很有可能即将到来。
图4 美国国防部各机构2020财年人工智能科研预算预算申请从2020财年预算申请分配结构来看(如图5),国防部长办公厅(OSD)申请最高,申请3.51亿美元(占比37%);其次是国防高级研究计划局(DARPA),申请3.1亿美元(占比33%);陆军申请1.64亿美元(占比17%);空军申请0.73亿美元(占比8%);海军申请0.45亿美元(占比5%)。其中,DARPA和OSD等预研先期机构占比较高,申请超过总人工智能预算申请的一半以上;从三军的申请可以看出,陆军对于人工智能的重视明显高于空军和海军,原因也是值得我们进一步挖掘的。
图5 美国国防部各机构2020财年人工智能科研预算预算申请占比(预算单位(百万美元))
未完待续本文主要针对美国国防部2020财年预算中人工智能领域进行抽取、分析,这是我们首次在人工智能领域进行预算分析,发现过程较为复杂,人工智能关键词较多,且检索不能直接获得相关项目,同时需要人为判别,时间和人力消耗大。后续将对国防部机构和三军的人工智能预算另行分析以及对项目进行梳理,同时期待结合前三到五年的人工智能数据进行更为深入的分析,多维度对比预算项目活动,并重点解析人工智能重点项目。