当前人类社会所面临的一系列生态环境问题, 绝大多数需要在生态系统、流域、区域甚至全球尺度来解决. 生态学研究正快速向宏观尺度和宏观治理方向发展. 随着网络和信息技术的快速发展, 天-空-地一体化观测体系正成为新时期生态系统观测的重要特征, 伴随全球新一代生态系统观测研究网络的逐渐形成以及海量多源异构数据的快速膨胀, 当今生态学已经发展到大科学、大数据、大理论时代. 如何整合生态大数据、发现有价值的生态学规律和机理并将其逐步拓展到解决与人类发展密切相关的诸多生态环境问题是该领域面临的重大机遇和挑战. 文章系统总结了生态大数据的研究现状, 评述了整合生态学发展的时机和需求, 从Meta分析、数据挖掘、数据-模型融合的原理和相关研究进展进一步探讨了生态大数据整合研究的主要途径, 最后展望了整合生态学的前景和研究方向, 并指出未来研究需要将大数据融合到模型中, 进而提高生态预测的准确性. 可以预见在未来全球变化和大数据快速发展的背景下, 整合生态学研究将得到更多的应用和发展, 实现全球生态环境治理的美好愿景, 服务人类社会可持续发展.文/牛书丽 1,2,*, 王松 1,2, 汪金松 1, 夏建阳 3, 于贵瑞 1,2(1.中国科学院地理科学与资源研究所, 生态系统网络观测与模拟重点实验室;2.中国科学院大学资源与环境学院;3.华东师范大学生态与环境科学学院)随着生态学观测手段的发展和全球生态环境问题的出现, 生态学正从相对孤立的站点和局部尺度研究逐步向区域、国家及全球尺度发展. 当今生态学已经发展到大科学、大数据、大理论时代, 如何整合生态大数据、发现有价值的生态学规律和机理并将其逐步拓展到解决与人类发展密切相关的诸多生态环境问题是该领域面临的重大机遇和挑战(于贵瑞等, 2018). 目前全球范围内与生态学相关的各种观测和实验数据已累积超过百万亿兆, 且数据量还在快速增加. 这些总量大、速度快、种类多、真实性不断提高的生态大数据给我们提供了很好的整合研究机遇, 从大尺度生态学的规律揭示、过程理解、假说验证和理论发展等方面都提供了无限可能(Reichstein等, 2019).整合生态学(Integrative ecology)就是在这种研究背景下应运而生. 作为一个新兴研究领域, 整合生态学是从分子、个体、生态系统、区域到全球尺度上, 对多个生态学过程以及多个生态要素进行融合、对多尺度生态学认知进行整合的一门生态学分支学科(图1). 因为生态学研究涉及多个组织层次和时空尺度, 它的研究对象可以是动物、植物、微生物中的任一生物类群或整体, 研究层次跨越个体、种群、群落、生态系统、景观乃至全球, 研究尺度从微观到宏观, 导致众多分支学科或者研究领域间长期隔离. 整合生态学的核心在于“整合”, 它利用整体与系统的视角, 可以融合不同的生物类群、组织层次和研究领域, 从分子到生态系统, 从微生物到宏观世界, 将生态学不同领域有机地结合在一起. 当今人类社会所面临的一系列生态环境问题, 绝大多数需要在生态系统、流域、区域、甚至全球尺度来解决, 因此本文主要侧重于大尺度或宏观尺度的生态系统整合研究, 旨在实现全球生态环境治理的美好愿景和服务人类社会的可持续发展.2.1 现实需求——生态环境问题需要大尺度解决方案生态与环境自身带有大尺度属性. 以生态系统为例, 作为生物群落与无机环境构成的统一整体, 生态系统的范围可大可小, 相互交错, 生态系统越大, 其内部各组成成分的相互关系越复杂, 物质循环与能量流动的途径亦更多. 因此在更大的空间尺度上, 需要通过整合研究, 构建更复杂的生态系统模型和理论框架来满足更加真实的生态系统模拟和预测. 另一方面, 包括全球变暖、氮沉降变化、降水格局改变等在内的多种全球变化因子导致的各种生态环境问题都是全球性的, 各种因子的作用强度及其对生态系统服务的影响存在很大的空间变异, 只有整合生态学才能更好地探究大尺度上的生态环境变化. 例如在全球降水格局改变的背景下, 未来全球降水将呈现高纬度和部分热带地区增加, 而在中低纬度和部分亚热带地区减少的趋势(Harper等, 2005), 这种降水格局的改变, 在不同区域尺度上的表现具有很大区别, 而研究对象的区域尺度不足则有可能得到不全面甚至错误的结论. 整合生态学强调使用包括遥感、长期生态系统联网观测、全球变化控制实验等在内的多源异构数据, 通过Meta分析、数据挖掘及数据模型融合等整合研究方法, 揭示生态与环境问题在全球尺度上的格局及变异规律, 可以真实全面地展现全球生态与环境状况, 满足生态环境治理的现实需求.当今生态学已经发展到“大数据”“大科学”时代, 如何组织、处理、分析这些数据并从中发现有价值的生态学现象和规律是该领域面临的一个重大机遇和挑战. 要解决一些宏观生态学问题, 生态学家必须从大量无序的数据中提取有用的、普适性的生态系统过程规律(Heffernan等, 2014; McGill等, 2019). 比如, 为了研究陆地生态系统生物地球化学循环的地理分异及其对全球变化的响应和适应, 由于生态系统过程的复杂性和生态系统类型的多样性(图2), 需要综合不同站点的气象条件、不同类型生态系统关键过程的基本参数等多点、多年、多要素数据, 深入进行生态系统关键过程的研究. 系统地认知陆地生态系统关键过程以及与气候变化和人类活动的相互作用是宏观生态学的科学基础, 而实现这一认知, 已经由传统的单点研究拓展到与生物圈、大气圈和信息科学的综合与交叉, 需要科学思想、技术手段的突破与创新(Levy等, 2014), 包括多源数据如何整合、如何利用大数据与机器学习分析生态系统过程规律而不是简单地对现象或者格局进行描述(Eme等, 2019). 另外, 有效利用和分析不断增长的生物多样性大数据是认知生物多样性起源和维持机制的重要基础, 需要将宏观生态学与宏进化结合起来(McGill, 2019), 这也将对保护生物学、人类健康、社会政策制定等具有长远意义(Fleishman和Brown, 2019).从单点观测和实验到区域和全球尺度上的生态系统整合研究随着生态系统生态学理论知识的发展和海量数据的积累, 生态系统生态学未来的一个主要发展方向就是借助于数据挖掘和整合分析技术, 利用现有的生态网络及数据库信息, 阐明主要生态系统的物质循环、能量流动及其对全球环境变化的响应和适应机制; 提供区域和全球陆地生态系统关键过程和生产力变化的时空演变动态、预测和分析陆地生态系统的未来情景; 探索应对全球变化的陆地生态系统适应性管理以及区域生态系统可持续发展的途径和战略(图2).2.3 生态预测的困境和需求——如何降低模型模拟不确定性是主要瓶颈生态模型的普遍问题就是预测性差, 造成该结果的根本原因之一就是过去数据获取耗时费力且量小; 而现在的数据获取方法可以跨越多个组织层次获得大规模同步观测数据, 从而能够有效降低模型模拟预测的不确定性. 比如, 为了预测未来的生态系统状态及气候变化状态, 科学家们发展了包括CLM(Community Land Model)和SHAW(Simultaneous Heat and Water)等多种陆面过程模式, 尝试对未来的气候及环境进行预测, 以制定相应的应对措施. 但目前的多种陆面模式仍然存在很多问题, 主要包括不确定性大、模型数据匹配差等. 这些模型的不确定性主要来自三个方面: 气候情景的不确定性、模型结构的不确定性及气候系统本身自然变率的不确定性(Hawkins和Sutton, 2009). 联合国政府间气候变化专门委员会(IPCC)第五次评估报告(IPCC-AR5)中使用的地球系统模式, 在不同的全球变化情景下, 各项指标在时间维度上均存在很大的不确定性, 因此成为政府制定相应气候变化政策的阻碍. 对陆面生态系统过程而言, 最大的模拟不确定性表现为不同地球系统模式对陆地碳循环的预测结果差异极大(图3). 由于陆地碳循环涉及生态系统中几乎所有生物学过程, 因此Bonan和Doney(2018)呼吁地球系统模式需要吸收更多生态学原理并提高对陆地生态系统的模拟能力. 此外, 当把陆地碳循环知识整合到不同模型中时, 它们的表现亦差异很大, 且很难很好地匹配观测结果(Schaefer等, 2012; Todd-Brown等, 2013). 例如, 参与第五次气候模型比对项目(CMIP5)的11个地球系统模型(ESM)都无法准确预测全球陆地表面的土壤碳分布(Todd-Brown等, 2013). 类似地, 对美国和加拿大39个涡度塔站点数据与26个模型模拟的总初级生产力(Gross Primary Productivity, GPP)进行比较, 结果显示, 在观察到的不确定性范围内, 模型估计的GPP与涡度相关数据匹配不佳(Schaefer等, 2012). 在东亚季风区, 当前的陆地生态系统模型无法准确刻画与净初级生产力相关联的一系列植被功能性状(Cui等, 2019). 在大的空间尺度上, 除了要充分理解生态学过程机理, 还需要利用大数据来服务未来的生态预测, 从而揭示能够用于全球预测的大尺度过程机理和普遍规律. 通过整合研究的方法, 生态学家可以通过Meta分析、数据挖掘、数据-模型融合等整合研究方法来充分理解大尺度生态学过程机理, 尽可能多地获取数据和改进模型, 进而实现大尺度高精度的生态预测.IPCC评估报告中的地球系统模式对陆地碳循环的模拟存在极大不确定性一系列全球研究计划的兴起支撑和推动了大尺度生态系统整合研究的快速发展. 20世纪70年代建立的国际生物圈计划(International Biology Plans, IBP)是较早成立的大尺度生态系统研究计划, 其主要研究对象是生物圈的结构和功能(Hagen, 1992). IBP在宏观系统生态学的建立和发展过程中起着举足轻重的作用, 催生了长期生态学研究网络(Long Term Ecosystem Research, LTER)的建立与逐步发展. 自国际地圈生物圈计划(International Geosphere-Biosphere Program, IGBP)启动后的10~15年, 又陆续涌现出其他一些国际研究计划. 其中, 较为重要的一个研究计划是全球变化和陆地生态系统(Global Change and Terrestrial Ecosystems, GCTE)研究, 该计划主要针对全球变化如何影响陆地生态系统以及陆地生态系统如何反馈调节气候变化等关键问题进行研究.与此同时, 生态系统生态学区域/全球尺度的联网观测与联网实验蓬勃发展. 国际上国家尺度的生态系统联网观测研究有美国生态系统研究网络(National Ecological Observatory Network, NEON)、澳大利亚陆地生态系统观测研究网络(Terrestrial Ecosystem Research Network, TERN)、英国环境变化监测网络(Environment Change Network, ECN)和加拿大生态监测与分析网络(Ecological Monitoring and Assessment Network, EMAN)等. 中国也建立了覆盖全国范围的生态系统研究网络, 比如中国国家生态系统观测研究网络(Chinese National Ecosystem Research Network, CNERN)、中国科学院中国生态系统研究网络(Chinese Ecosystem Research Network, CERN)、中国生物多样性监测网络(China Biodiversity Observing Network, China BON)、中国森林大样地监测网络(Chinese Forest Biodiversity Network, CForBio)与中国通量网联盟(ChinaFlux)等, 这些既相对独立又互相补充的研究网络迅速地将中国的生态系统生态学研究提高到一个崭新的水平(李文华等, 2009). 联网观测和实验不仅为宏观生态学研究提供网络化长期科学观测和实验研究平台, 同时也促进了中国生态系统生态学研究观测仪器和技术手段的现代化进程(孙鸿烈, 2009; 张黎等, 2009). 区域尺度的联网观测研究有亚洲通量观测系统(AsiaFlux)、欧洲集成碳观测系统(Integrated Carbon Observation System, ICOS)、欧洲物候网(PEP725)、泛美全球变化研究网络(Inter-American Institute for Global Change Research, IAI)、亚太全球变化研究网络(Asia-Pacific Network for Global Change Research, APN)和欧洲全球变化研究网络(European Network for Research in Climate Change, EN-RICH). 全球尺度上有国际长期生态系统研究网络(International Long-Term Ecosystem Research Network, ILTER)、全球通量观测研究计划(FLUXNET)、全球生物多样性监测网络(Group on Earth Observations Biodiversity Observation Network, GEO BON)、全球陆地观测系统(Global Terrestrial Observing System, GTOS)、国际关键带研究网络(Critical Zone Exploration Network, CZEN)和全球海洋观测系统(Global Ocean Observing System, GOOS)等. 另外在全球尺度上还建立了一些专项生态系统实验网络, 比如营养元素添加控制实验网络(Nutrient Network)、国际干旱实验网络(Drought Network)等. 据统计, 目前关于陆地碳循环对全球变化响应的全球控制实验就达到了近1200个(Song等, 2019). 全球生态大数据的规模已经超过了100拍字节, 并且每年几乎呈指数增长, 同时数据获取的频率也达到了10Hz(Reichstein等, 2019). 这些区域/全球尺度观测、实验网络的建立以及规模不断增加的生态大数据为大尺度生态系统的研究提供了数据基础和平台, 在整合生态系统尺度、要素、过程及其相互作用、生态系统模型创建和改进等方面都极大地提高了我们对生态系统生态学的理解和认知能力.这些联网观测和联网实验的目的是探索大尺度的生态环境问题, 其根本目标之一是揭示单个站点所无法回答的科学问题, 它们的建立促进了生态系统整合研究和宏观生态学的发展. 比如FLUXNET的建立是为了量化碳收支在空间和时间上的变异, 以及地球上主要植被碳、氮、水、能量交换对气候变化和人类干扰的响应. 这些联网观测研究使得科学家能够回答一些生态系统生态学的关键科学问题, 例如生态系统碳、氮、水循环的时空变异如何受气候、植被类型、物候、土地利用类型、管理方式和干扰历史所影响? 气候变化如何引起不同植被类型生态系统能量、CO2、水和氮循环的变化? 目前, 还有更多的研究计划和国际网络正在兴起或处于酝酿阶段. 纵观生态系统科学的发展历史, 从来没有哪一个时期像现今这样如此关注大尺度生态学的整合和发展.3.2 天-空-地观测技术迅猛发展, 海量多源异构数据快速膨胀生态系统数据稳定、有效的获取依赖于生态系统长期定位观测和实验. 进入21世纪以来, 随着网络和信息技术的快速发展, 生态观测技术有了长足的进步, 已逐渐从人工采集生态数据的1.0时代、由仪器设备采集并长期存储数据的2.0时代逐渐过渡到今天结合“互联网”概念的实时数据传输云存储的3.0时代. 同时, 新技术和新方法如稳定同位素、核磁共振、生物标记物、高通量基因组测序、基因芯片、涡度相关、高分卫星等技术的发展, 极大地提升了生态观测数据在分子尺度和全球尺度的获取能力. 随着生态学向着微观和宏观这两个尺度逐渐拓展研究领域, 借助于物联网、云计算、大数据和人工智能等新一代信息技术, 融合卫星、无人机和地面观测的天-空-地一体化生态观测体系逐渐形成, 实现了生态系统多尺度、多要素、多过程海量生态观测数据的集成获取(于贵瑞等, 2018; Li X等, 2019). 尤其是大量遥感数据的产生, 弥补了传统地面调查空间观测尺度有限的缺点, 已逐渐成为生态学研究中必不可少的数据来源. 遥感平台按观测高度可分为低空遥感和高空遥感. 低空遥感主要通过无人机(Unmanned Aerial Vehicle, UAV)完成, 具有便捷、灵活、高效的特点. 高空遥感主要通过卫星与航空完成, 相对于低空观测, 高空遥感具有观测范围大, 时间序列长, 数据获取成本低等优点. 经过几十年的发展, 不同卫星的遥感分辨率已从公里级(MODIS)进入米级(IKONOS, OrbView)、亚米级(QuickBird, WorldView), 且实现了不同波段全覆盖. 这些涵盖地面样方观测数据、控制实验数据、遥感数据、模型数据的快速膨胀成为了“生态大数据时代”的重要特征, 并为生态系统整合研究的发展提供了契机.利用生态大数据进行整合生态学研究的焦点是在区域和全球尺度上整合研究生态系统过程、结构和功能及其对全球变化的响应和适应机制, 主要目标是定量评估和科学预测生态系统组分及关键过程对气候环境变化的响应(于贵瑞等, 2018). 研究途径主要包括全球变化控制实验的整合分析(Meta Analysis)、观测数据的数据挖掘(Data Mining)和数据-模型融合(Data-model Fusion)(图4). 以下根据不同的整合研究方法, 对生态大数据研究在生态系统生态学中的应用案例做一些总结.Meta分析作为一种定量综合分析的方法, 主要是对多个有共同研究目地但相互独立的多个研究结果给予定量合并, 剖析研究间差异特征, 综合评价研究结果. 其早期被用于教育、心理等领域, 于1976被Glass命名为“Meta-Analysis”(Glass, 1976). Meta分析主要包含以下五个步骤: ① 提出问题与假设; ② 搜索与假设有关的资料, 包括论文、数据库、报告等, 并根据标准对文献进行筛选; ③ 整理数据, 从符合纳入要求的文献中摘录用于系统评价的数据信息, 所提取信息必须是可靠、有效、无偏的; ④ 选择适当的分析模型和效应值进行计算, 模型根据数据类型选择固定效应模型或随机效应模型, 而效应值是为了将研究结果标准化, 它反映单个研究的效应大小, 应根据文献中数据选择不同的效应值指标, 包括Glass估计值Δ、Hedges估计值g、Hedges估计值d、反应比(response ratio, ln RR)等; ⑤ 结果与分析, 合并单个研究的效应值, 得到平均效应值及其置信区间, 进而进行相关的分析. 近几十年来, 由于生态学家们在全世界范围内开展了大量的控制实验及观测研究, Meta分析越来越多地被用于生态学研究, 并对整合生态学的发展起到了至关重要的作用(雷相东等, 2006).陆地生态系统与气候变化研究在全球已经发展到有一千余个全球变化控制实验(Song等, 2019), 单个控制实验对于理解具体生态系统的响应非常关键, 但陆地生态系统响应的普遍规律需要使用整合研究的手段, 这种普遍响应规律可以直接为陆面模型提供参数和理论依据. 对这些全球变化控制实验进行Meta分析是生态系统生态学领域近20年来非常活跃的一个方向. 尤其是在全球陆地生态系统对CO2浓度升高、全球变暖、氮沉降、降水改变等的响应, 以及土地利用变化对气候变化影响等方面的应用发展迅速. 该方法在全球变化方面的应用案例具体体现在:(1) 生态系统响应大气CO2浓度升高的整合研究. 目前大气中CO2浓度已经超过了410ppm(1ppm=1mg L–1), 达到了几百万年以来一个前所未有的水平, 大气CO2浓度升高如何影响陆地生态系统结构和功能一直以来都是全球变化研究的前沿和焦点. 全球Meta分析主要发现CO2浓度升高使得陆地植物总生物量显著增加(Feng等, 2015), 但CO2对植物生长的“施肥效应”受土壤氮、磷养分的限制(Terrer等, 2019), 并受植物菌根类型的影响(Terrer等, 2016). 相比于CO2浓度升高对地上植物生物量的影响, 其如何影响地下过程包括根系生长、土壤碳氮循环、微生物生物量与功能还不清楚(Kuzyakov等, 2019). CO2浓度升高对根系形态生长、根系生物量均具有显著的促进作用(Nie等, 2013), 使得植物碳、氮库增加(Luo等, 2006), 土壤微生物量碳和氮库分别增加14%和7.4%(Liu等, 2018), 但对土壤碳和氮库影响不大(Liu等, 2018; Luo等, 2006). 所以, 现有的全球整合分析表明, CO2浓度升高对生态系统地下碳、氮库没有显著影响, 但显著促进了碳、氮循环过程中的各个通量(Kuzyakov等, 2019).(2) 生态系统响应气温升高的整合研究. 全球温暖化正显著改变陆地生态系统的组成、结构和功能(方精云等, 2018). 陆地生态系统对全球变暖的响应表现为多个尺度和多个方面, 如温度升高导致生物个体的物候提前(Root等, 2003), 植物生物量显著增加(Lin等, 2010); 极地增温导致落叶灌木和禾本草类在极地苔原扩张, 而苔藓和地衣的高度和盖度下降, 降低了物种多样性, 引起生态系统物种组成和结构发生显著变化(Walker等, 2006), 并可能影响生态系统碳循环(Cheng等, 2017; Rustad等, 2001; van Gestel等, 2018; Wang等, 2020)、氮循环(Bai等, 2013)、食物网结构和营养级联效应(Marino等, 2018). 增温引起的土壤碳丢失与土壤背景碳含量有关, 到21世纪末约丢失86(±53)Pg的土壤表层碳(Crowther等, 2016). 另外全球Meta分析还发现变暖在低降水量下显着降低净生态系统生产力(Net Ecosystem Productivity, NEP), 但在高降水量下增加NEP(Quan等, 2019), 这种水分及温度对生态系统碳通量的共同控制, 揭示了不同生态系统碳循环温度敏感性的差异及其控制因素, 为模型预测提供量化参数和理论依据.(3) 生态系统响应氮沉降的整合研究. 自工业革命以来, 大气氮沉降持续增加. 氮沉降速率的加快将对陆地生态系统碳过程产生极大的影响, 并通过改变碳循环进而影响未来气候的变化轨迹(Crowther等, 2016). 因此, 研究持续增加的大气氮沉降对全球碳循环的生态影响, 成为全球变化生态学中的一个关键科学问题. 如果不考虑碳氮耦合, 大气氮沉降将会造成碳库高估40%(Zaehle等, 2014), 因此IPCC已经要求在2022年的第6次评估报告中所有模型都要实现碳氮耦合, 而目前的第五次报告中只有2个模型考虑了碳氮耦合, 所以当前亟需摸清全球尺度上碳氮耦合的过程机理. 全球Meta分析结果表明, 氮沉降导致陆地生态系统多样性丧失(De Schrijver等, 2011)、增加了全球生态系统生产力(Elser等, 2007; Liu和Greaver, 2010)、促进CO2的固定但同时刺激了N2O和CH4的排放(Deng等, 2019; Liu和Greaver, 2009)、微弱地增加了土壤碳库(Deng等, 2019)、显著的加速了氮循环和磷循环(Deng等, 2017; Lu等, 2011; Marklein和Houlton, 2012)、以及加快了土壤酸化和阳离子的流失(Tian和Niu, 2015). Niu等(2016)在整合分析全球206个氮添加实验和44个氮梯度实验后, 提出了基于土壤氮基质的“碳氮”耦合新的假说, 为全球氮循环的模型模拟提供了理论基础.(4) 生态系统响应降雨格局改变的整合研究. 多个气候模式预测结果显示, 未来气候变化会带来全球或局部降水格局的变化(Fischer等, 2013). 同时, 在全球变暖的影响下, 极端干旱和极端降水事件时有发生, 对自然生态系统和人类社会发展都带来了深刻的影响(朴世龙等, 2019). 研究和预测全球降水格局变化所产生的生态影响以及生态系统对其响应的敏感性和恢复力, 成为全球变化研究的重大科学问题之一. 由于改变降雨实验在处理强度和实验方法上差异太大, 采用统一的标准量化降水幅度比较困难, 使得整合分析降水变化对生态系统影响的研究比较稀缺. 至今为止, 整合分析生态系统对改变降水响应的研究主要包括植物生长和碳平衡(Wu等, 2011)、生物量、物种组成及丰富度(Garssen等, 2014)、土壤呼吸(Liu等, 2016)、微生物量和土壤酶(Ren等, 2017)、生态系统碳库(Zhou等, 2014)、土壤N循环(Homyak等, 2017)等方面的研究. 总体上, 主要发现包括增雨促进植物生长和生态系统碳通量, 增加地上植物生产力, 而减少降水正好相反(Wu等, 2011). 降水改变对土壤呼吸及其温度敏感性的影响主要受土壤湿度和干旱指数的调节(Liu等, 2016), 干旱和增加降水对土壤碳库影响不大(Zhou等, 2014). 这些全球整合研究促进了我们更好地理解全球变化对陆地生态系统的影响和过程机理, 并为未来生态预测提供了理论基础和参数验证.综上所述, Meta分析在全球变化研究中应用广泛, 并且取得了丰硕的研究成果. 但同时Meta分析也有其自身的局限性, 不同实验之间的方法差异比如处理方法和测定频度的不同给总体结果带来了不确定性, 另外, 效应值的选择、单个研究之间的非独立性等都会直接影响整合分析的结论.数据挖掘主要是指从大量的数据中通过条件学算法搜索隐藏于其中信息的方法, 比如对区域或全球联网观测或联网实验数据进行挖掘分析, 揭示大尺度生态系统过程规律, 数据挖掘技术主要包括数据汇总、分类、机器学习、决策树、支持向量机、人工神经网络、深度学习等有效手段(Reichstein等, 2019), 具体包含以下四个步骤: ① 提出问题与假设; ② 建立数据挖掘库, 包括数据收集、数据描述、数据筛选与整合; ③ 数据挖掘过程, 根据数据库中的数据信息, 选择合适的分析工具, 处理信息, 得出有用的知识; ④ 结果评估, 对所获得的数据挖掘信息进行评估, 判断其正确性.在生态学研究中, 数据挖掘可以帮助研究人员对生态系统长期观测数据所表现出来的信息进行分析研究. 随着大空间、长时间、高分辨率的生态观测数据的积累, 我们需要从海量数据中获取其隐藏的信息, 并在不断认识自然规律的同时运用数据挖掘的方法从海量数据中获得信息. 这些前所未有的数据源, 增强的计算能力以及统计建模和机器学习等最新技术的结合, 为我们提高对生态系统的认知提供了新的机会, 特别是机器学习和人工智能领域给我们提供了许多新方法, 在将其进一步开发并适应于生态学分析后, 将发挥巨大作用.近年来, 数据挖掘研究作为一种有效的揭示大尺度生态学规律的探索性工具, 将生态系统生态学推向了一个新的研究高潮, 发表了大量的学术论文(图5), 在国际顶级期刊上也不乏其身影, 比如Vellend等(2013)通过全球生物多样性数据整合, 认为点尺度上生物多样性在时间序列上无明显的变化. Wolkovich等(2012)通过对全球1634个物种所观测到的物候进行整合分析, 发现全球变化控制实验远远低估了增温对植物物候期的改变, Steidinger等(2019)利用全球森林生物多样性研究中心组建的森林数据库进行数据挖掘, 确定了特定森林中与树木密切相关的菌根真菌类型, 发现气候是影响菌根真菌分布的重要因素, 气候变暖将导致与外生菌根共生的树种多样性下降10%, 与外生菌根共生树种的损失也会对气候变化产生一定的影响. van den Hoogen等(2019)通过收集发表和未发表的全球线虫数据, 获得了全球尺度6759份土壤样本的线虫丰度数据并进行数据挖掘, 发现全球表层15cm土壤线虫在亚北极地区丰度最高, 其次为温带和热带; 虽然气候影响土壤线虫丰度, 但与气候因素相比, 土壤特征是影响线虫丰度的最主要因素. 基于极地苔原地区7种植物功能性状, Bjorkman等(2018)采用贝叶斯模型模拟的方法, 对植物功能性状与温度、土壤水分的关系进行数据挖掘, 发现水分调节植物性状与温度的关系; 随着气候变暖, 极地苔原植物高度增加, 这主要归结于该地区物种周转, 即高大物种的侵入而不是矮小物种的丢失, 该研究表明气候变暖导致的植物性状以及群落结构的改变将显著影响极地苔原生态系统的功能. 动物、植物、微生物都有温度适应性, 但作为生物体的集合体生态系统是否具有温度适应性仍然不得而知, Niu等(2012)采用数据挖掘的方法对全球分布的数百个涡度站点的碳通量数据进行整合研究, 发现净生态系统CO2交换(Net Ecosystem Exchange, NEE)随温度变化具有普遍的峰形曲线, 证明了在全球尺度上生态系统的温度适应性. 如果不考虑温度适应性, 生态系统模型模拟的碳通量会被高估38%(Smith和Dukes, 2013). 目前IPCC使用的模型中很少考虑生态系统水平上的温度适应性(Allison等, 2010), 因此全球模型正在考虑如何把适应性加到模型中, 上述研究及时地为全球模型提供了理论依据. Huang等(2019)综合使用包括涡度和卫星数据在内的多源数据库, 得到生物群落中植被生产力最适气温的全球分布. 在全球变暖的背景下, 该研究对未来全球陆地生态系统碳收支的预测提供了理论依据.机器学习(Machine learning)、深度学习(Deep learning)等相关技术的快速发展为数据挖掘提供了更多的可能. 一些应用已经使全球碳通量和碳库估计的准确性有了极大的促进. Beer等(2010)采用了五种数据驱动方法和五种过程驱动模型对GPP的估计进行比较和整合研究, 发现其中采用人工神经网络(Artificial neural networks)方法对GPP估计的不确定性最小. 在对全球土壤有机碳含量及其分布的研究中, 机器学习方法也展现了传统数字土壤测绘(Digital soil mapping)难以企及的优势. 采用机器学习方法制成的SoilGrids250m产品对全球土壤有机碳含量的估计可以解释高达68.8%的空间变异性(Hengl等, 2017). 相较而言, 传统的回归制图方法仅可解释22.9%的空间变异性. 在最新的联合国粮农组织(FAO)牵头进行的国家驱动全球土壤有机碳地图(Country Driven GSOCmap)的绘制中, 机器学习方法也被作为推荐方法用于各国土壤碳清单的预测(Yigini等, 2018). 深度学习也已经在包括物种分类、作物育种和植被制图等多个领域中得到了充分的应用(郭庆华等, 2020).机器学习和深度学习方法同样促进了全球碳循环的机理研究. Luo等(2019)利用观测数据集重构了全球土壤有机碳周转时间地图, 并通过增强回归树(Boosted regression tree)的方法揭示了尽管温度与土壤有机碳周转时间呈现显著的负相关关系, 但总体上土壤属性因子对土壤有机碳周转时间的控制作用大于气候因子的影响, 因为深度学习可以自动提取复杂的高维非线性特征, 可以发现常规方法难以发现的信息. 综上所述, 更加精确的陆地碳通量和碳库估计以及碳循环机理的认识有助于我们在全球尺度理解陆地碳循环的各个过程, 同时也为地球系统模式的发展提供了更加可靠的比较基准(Benchmark), 而机器学习和深度学习等技术的不断进步为实现这一目标提供了无限的可能. 当然, 数据挖掘在应用的过程中要注意多源数据间的独立性以及复合因子的相互影响和自相关的问题, 另外不同数据集之间时间尺度的相互转换也会带来很大的不确定性. 深度学习已逐步应用于遥感数据分析中, 但较大的训练样本量、复杂的遥感图像、数据集之间的传输和对学习深度的把控也是未来需要解决的关键问题(Zhang等, 2016). 整体上, 对于深度学习来说, 数据的标准化与共享, 算法的通用性与可解释性以及应用程序的丰富化和智能化将成为深度学习的三个最重要发展方向及发展机遇(郭庆华等, 2020).除了对现有数据进行整合分析和挖掘, 揭示更大尺度上生态系统的基本规律外, 新时期生态系统生态学研究的一个主要任务是怎样利用这些观测和实验数据促进生态系统生态学理论的构建与过程模型的发展(图6). 近年来, 随着数据同化(Data Assimilation)技术的快速发展, 生态系统的观测数据与数值模型的融合成为了生态学的热点研究领域. “数据-模型融合”旨在将模型和数据互相结合, 采用特定的算法来获得模型参数的最优估计, 以期改进对生态系统过程的预测精度(Lewis等, 2006). 与简单回归分析不同, 数据-模型融合可以应用于复杂的过程模型和多个异构数据集, 可以同时优化数十或数百个参数和状态变量. 因此, 经过数据-模型融合训练的过程模型不仅可以更好地描述观察到的生态系统动态, 而且可以更准确地预测生态系统的未来状态(Keenan等, 2012; Luo等, 2011).数据-模型同化的实现主要包括以下四个步骤: ① 选择或构建模型, 确定需要通过约束的参数与变量; ② 数据的准备和预处理, 包括观测到的气象驱动数据和实验或观测得到的地表观测数据集; ③ 同化过程, 选择效果较好的算法进行同化, 运用观测数据对模型参数进行约束. 经过不断循环, 反复调整参数与初值, 最终得到参数的最优值; ④ 模型检验, 使用参数优化后的模型结果, 与未经过同化的模型与观测值进行对比, 以检验模型的同化效果.过去20余年中, 陆地碳循环模型已经取得了很大的进步, 这些模型现在已经被广泛地应用于各国对气候变化和环境评估的政府决策中(Arora等, 2011; Friedlingstein等, 2014). 但是, 关于这些陆地模型的基准评估目前还知之甚少(Luo等, 2012; Randerson等, 2009; Xia等, 2013). 尤其是把这些陆地模型和其他大气模型、海洋模型一起整合到地球模型系统中时, 更需要评估这些陆地模型的具体表现. 这些模型对典型生态系统碳循环模拟的准确性直接决定了人类关于未来生态系统和气候变化预测的正确性与否. 随着数据-模型融合方法在碳循环研究中的初步尝试和成功应用, 生态学家开始普遍关注和重视该项技术的应用前景(Keenan等, 2012; Luo等, 2011; Peng等, 2011). 目前可用的越来越多的生产力观测值涵盖了广泛的地理和气候区域, 使得我们可以将站点级别的观测值升级到区域乃至全球规模. 这些基于遥感的生产力产品为大尺度的数据-模型融合提供了充足的数据来源. 在保证精度的前提下, 这些数据将成为进行区域和全球动态模拟及校正的基础数据(Li S等, 2019). 随着全球生态数据集的不断丰富, 越来越多的大尺度数据-模型融合方法正被用于全球生态系统对于气候变化的响应和预测研究中. 尤其是最近一些新生成的全球数据集对于模型参数化具有重要的价值, 比如Bloom等(2016)综合利用卫星观测数据和全球土壤有机碳数据结合DALEC模型重构了陆地碳分配、存储和周转等关键要素的全球分布, 揭示了洲际尺度的陆地碳循环过程(Process)和关键状态量(State)之间的关系. 研究进一步指出, 在传统的地球系统模式中简单地以陆地覆盖类型来区分陆地关键碳循环过程异质性的做法远不能充分地表达观测现实, 这也为未来地球系统模型的改进和发展指明了方向.将观测和实验数据与生态过程模型和遥感模型相融合是未来评估陆地模型表现、优化模型参数、量化模型不确定性、提高区域碳收支预测准确性的有效途径(Luo等, 2012; Niu等, 2014). 例如, 一些研究利用数据-模型融合的方法评估模型的状态变量和参数, 从而改善模型的模拟及预测能力(Chen等, 2019; Liang等, 2018; Tang和Zhuang, 2008). 同时, 也有一些研究使用数据同化技术研究碳、水或营养元素的交换过程(Clark等, 2011; Hou等, 2019). 此外, 数据-模型融合方法还可以探究数据约束对系统的影响, 例如, Liang等(2018)将六个数据集同化到陆地生态系统(TECO)模型中, 对16个参数进行优化, 提高了模型与观测数据之间的拟合优度. 因此在对海量数据挖掘的基础上, 将数据融合到模型中, 限定模型参数, 进而提高模型预测的准确性是生态大数据整合研究的另一个主要功能. 同时, 新兴的大数据分析方法结合传统的数据-模型融合技术也为未来地球系统模式的发展提供了新的可能. 在地球系统模式对土壤有机碳的准确表达方面, Tao等(2020)将数据-模型融合方法与人工神经网络相结合, 利用神经网络将优化后的模型关键过程参数与环境变量结合起来, 并将通过神经网络预测的过程参数应用到CLM5(Community Land Model version 5)中, 极大地提高了地球系统模式对美国大陆土壤有机碳分布的准确表达, 同时也揭示了土壤碳循环过程中关键过程参数的空间异质性. 目前有很多陆地模型来模拟生态系统生物地球化学循环及在未来不同情景下的生态系统响应, 数据-模型融合方法能够改善模型性能, 更好地预测气候变化及其对生态系统的影响, 借助于新兴大数据分析技术, 数据-模型融合方法将在未来发挥越来越大的作用. 数据-模型融合的不足之处在于数据同化的参数范围的设定往往取决于设定者的经验, 另外该方法对于观测数据有一定的要求, 数据的种类或量太少则效果较差, 数据-模型融合对于非状态变量的同化比较困难.综上所述, 基于生态大数据的整合生态学研究正在生态学研究中扮演着重要角色, 其将为更广空间和更长时间尺度上的生态学研究提供更多的检验新假说和发展新理论的科学途径. 无论是发展传统的生态系统生态学, 还是迅速崛起的宏观生态学, 整合研究都将得到广泛应用并发挥巨大价值.中国地域辽阔, 从南到北跨越的气候带、植被类型和土地利用类型复杂多样, 因此在整合生态学研究方面存在很大的发展潜力. 长期以来, 全国的科研工作者们在生态系统结构和功能等方面都进行了大量观测和研究, 整合研究可进一步挖掘这些数据的价值. 比如CERN和CNERN收集了大量的长期野外监测与实验、模型模拟和遥感数据, ChinaFlux进行了长期连续的CO2和水热通量数据监测, 在土壤普查基础上建立的《中国土壤数据库》对中国主要土壤类型的质量动态、养分循环等提供了详实的研究. 这些生态数据库的存在为开展全国尺度的生态资源、环境演变趋势预测和重大科学问题的整合研究提供了很好的机会(陈发虎等, 2019), 我们可以在这些数据库的基础上开展生态系统的生产力与碳氮过程、生态系统的水分循环和水分利用、生态系统的功能评价与管理、区域和全国尺度资源、生态和环境重大科学问题的综合研究等.(1) 生态系统关键过程、结构和功能的时空格局和演变动态: 基于生态系统长期连续观测和实验数据, 结合气候和地表过程数据, 定量分析和解释典型区域或主要陆地生态系统的生物地球化学循环的空间格局、年际变异、长期趋势和成因, 尤其是温室气体源汇动态变化; 评价不同区域陆地生态系统对全球碳收支的贡献; 结合生物和非生物因子, 解释主要陆地生态系统关键过程的时空变化机理, 揭示碳、氮、水循环及其耦合关系的区域特征及生物与环境控制机制, 为陆地生态系统的模型模拟、尺度扩展及未来气候变化的情景预则等研究提供理论依据.(2) 陆地生态系统对全球变化的响应和适应: 通过对长期观测数据、样带数据、全球变化控制实验数据等的整合研究, 揭示生态系统内关键生物、生态系统碳、氮、水循环等关键生态学和生物学过程对全球变化的响应; 准确评估全球变化所造成的生态系统功能的演变; 解析极端气候对陆地生态系统的影响和生态系统的反馈机制, 以及生态系统在干扰后的恢复过程; 揭示陆地生态系统结构和功能对全球变化的响应和适应普遍规律及机理.(3) 生态系统适应性管理以及可持续发展: 整合分析不同尺度和范围的生态系统功能及其变化动态, 评估区域污染物对植物、微生物及动物的活性和人类健康的影响; 定量不同生态系统的临界负荷阈值, 解析区域环境变化对生物区系和功能的影响, 以及物种资源在空间上的变化对区域环境变化的适应; 评估区域生态环境变化对区域可持续发展的风险.(4) 对陆地模型进行基准评估、参数估计和验证: 利用上述数据库及整合分析的结果, 采用数据-模型融合的方法对中国的生态系统模型及IPCC评估报告所使用的地球系统模式进行基准评估、参数估计和验证. 模型是否需要提高的依据是评估模型在不同时间和空间尺度上对生态系统过程、功能和结构的模拟是否表现良好. 尽管已有一些研究案例利用涡度相关数据来验证和评估碳循环模型(Bonan等, 2012; Richardson等, 2012), 但到目前为止, 很少有研究系统地利用区域和全球联网观测和联网实验数据去评估IPCC所使用的陆地模型, 并通过数据-模型融合的手段来优化全球陆地模型的参数和提高模型预测的准确性. 针对中国特有或典型生态系统, 提出原创的生态系统生态学理论并开发相应的数值模型是未来发展的一个方向.生态观测、实验和模型数据的快速积累对整合生态学研究提出了迫切要求, 基于生态大数据的整合研究, 以期发现生态学的普遍规律, 揭示多过程耦合、多尺度效应、多要素调控的生态系统过程的复杂性, 认知生态系统的演变规律和机理, 定量评估生态系统健康状况, 进行科学预测和监管, 是新时期生态学发展的一个重要方向. 实践证明, 数据挖掘和Meta分析提供了一种纵观全局的工具, 是一套科学的、有效的定量整合研究方法, 在揭示关键生态系统过程的时空变化格局、对生态系统生态学传统理论进行检验、对重要的生态学现象进行解释, 以及在全球变化生态学领域中都得到广泛有效的应用. 数据-模型融合的手段对优化全球陆地模型的参数、基准评估模型、降低模型不确定性、提高模型预测的准确性具有重要作用. 未来的研究中, 在保证各个独立研究数据质量的前提下, 加强标准化联网监测和实验; 在大数据的支持下, 进一步发展和完善数据整合研究的技术和方法论; 借助整合生态学的整体思想与分析技术, 将会获得更高质量的、具有普适性的整合研究结果, 整合生态学将会在新时期得到更快的长足发展, 进而实现从观测到预测的跨越.
文章来源:中国科学: 地球科学(2020年8月)/土壤观察