工具推荐|利用python-cdo高效处理气象数据

好奇心Log 今天

以下文章来源于气象汇 ,作者lightning

气象汇#气象汇#汇集气象领域的前沿进展和实时资讯,并与大家一起分享气象应用的数据分析和可视化工具等。

如果你不喜欢命令行的操作方式,或者想要和python 的生态进行更好的结合,那么你可以尝试使用python-cdo,利用python脚本语言的优势来处理气象数据。命令行的方式有其优势,比如简单易操作,可扩展性更强等,利用cdopython接口也有其特有的优势,比如:

  • 通过numpy/narray可以进行直接的数据操作
  • 临时文件自动处理
  • 灵活的并行化计算
  • 条件处理操作
  • 扩展新操作符

安装

安装方式非常简单,运行以下命令即可:

pip install cdo#或conda install python-cdo

使用方法

操作符

一般情况下导入库时不建议使用如下方式导入的,建议使用 from ... import ... as ... 。为了调用所有操作符,建议按照 In [5] 方式执行赋值语句,以防出现属性调用错误。

查看文件信息

In [4]: from cdo import *

In [5]: cdo = Cdo()

In [6]: cdo.sinfon(input = "wrfout_d02_2016-06-23_06_00_00")Out[6]: ['File format : NetCDF2', '-1 : Institut Source   Steptype Levels Num    Points Num Dtype : Parameter name', '1 : unknown  unknown  instant       1   1     48240   1  F32  : LU_INDEX',  ..... '175 : unknown  unknown  instant       1   1         1   7  I32  : SEED2', 'Grid coordinates :', '1 : curvilinear              : points=48240 (240x201)', 'XLONG : 115.839 to 123.957 degrees_east', 'XLAT : 30.0914 to 35.6799 degrees_north',  ........ '7 : generic                  : points=1', 'Vertical coordinates :', '1 : surface                  : levels=1',  ........ '4 : generic                  : levels=4', 'lev : 1 to 4 by 1 level', 'Time coordinate :  36 steps', 'YYYY-MM-DD hh:mm:ss  YYYY-MM-DD hh:mm:ss  YYYY-MM-DD hh:mm:ss  YYYY-MM-DD hh:mm:ss', '2016-06-23 06:00:00  2016-06-23 06:10:00  2016-06-23 06:20:00  2016-06-23 06:30:00',  ..... '2016-06-23 11:20:00  2016-06-23 11:30:00  2016-06-23 11:40:00  2016-06-23 11:50:00']

查看文件信息的操作符与cdo命令行操作符相同,在python中是以方法的方式调用。

通过 input 参数指定输入文件,如果需要输出文件时,则通过 output 参数指定:

In [8]: cdo.timmean(input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfmean.nc")

性能对比

对比cdo命令行和Python-cdo接口的执行效率:

以下两个命令执行相同的操作:先选择1-5时步的所有变量数据,然后在结果中选择指定的变量。

In [21]: %time os.system("cdo -selname,SCW,SCTOT,SCH,SCS,REFL_10CM -seltimestep,1/5 wrfout_d02_2016-06-23_06_00_00 wrfsub_cdo.nc")CPU times: user 0 ns, sys: 3.29 ms, total: 3.29 msWall time: 36.9 sOut[21]: 0

In [22]: %time cdo.selname("SCW,SCTOT,SCH,SCS,REFL_10CM",input = "-seltimestep,1/5 " + "wrfout_d02_2016-06-23_06_00_00", output = "wrfsub_python.nc")CPU times: user 0 ns, sys: 3.65 ms, total: 3.65 msWall time: 41.4 sOut[22]: 'wrfsub_python.nc'

In [23]: %time os.system("cdo copy wrfout_d02_2016-06-23_06_00_00 wrfcopy_cdo.nc")CPU times: user 2.3 ms, sys: 174 µs, total: 2.48 msWall time: 10min 1sOut[23]: 0

In [24]: %time cdo.copy(input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfcopy_python.nc")CPU times: user 0 ns, sys: 3.73 ms, total: 3.73 msWall time: 10min 43sOut[24]: 'wrfcopy_python.nc'

测试数据大小:19G,从上述结果中可以看出,cdo命令行的耗时和python接口的耗时差别不大。如果是对大量数据进行操作的话,可以优先使用命令行方式,效率相对会高一些。

注:未进行完全测试,结果可能存在一定偏差。

参数

在利用 cdo 转换数据集格式时,需要指定输出文件格式,比如选择变量或时步时也需要指定操作符的参数。

在使用pyhon接口时如何指定CDO命令行方式的参数呢?

In [25]: %time cdo.copy(input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfcopy.grb", option = "-f grb")CPU times: user 0 ns, sys: 4.12 ms, total: 4.12 msWall time: 12min 18sOut[25]: 'wrfcopy.grb'

只需要在调用方法时添加 option 参数即可。

为每个操作符添加参数时,只需要将参数作为方法的第一个参数即可。比如:

In [26]: %time cdo.seltimestep("1/3",input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfsub1.grb", option = "-f grb")CPU times: user 244 µs, sys: 3.87 ms, total: 4.11 msWall time: 44.9 sOut[26]: 'wrfsub1.grb'

链式操作

python-cdo中完整的支持类似cdo命令行的链式操作符,执行顺序和CDO命令行操作相同。

In [27]: %time cdo.selname("SCW,SCTOT,SCH,SCS,REFL_10CM",input = "-seltimestep,1/5 " + "wrfout_d02_2016-06-23_06_00_00", output = "wrfsub.grb", option = "-f grb")CPU times: user 4.58 ms, sys: 349 µs, total: 4.93 msWall time: 37.6 sOut[27]: 'wrfsub.grb'

通过上述命令可以看出,除了 selname 操作的参数时在方法内单独给出之外,其余**操作符(seltimestep)**的调用方式和cdo命令行调用方式相同。

相当于:

cdo -selname,SCW,SCTOT,SCH,SCS,REFL_10CM -seltimestep,1/5 wrfout_d02_2016-06-23_06_00_00 wrfsub_cdo.nc

临时文件

cdo命令行的链式操作可以忽略中间临时文件的输出,从而节省了不必要的空间存储python-cdo也提供了临时文件的处理。

当不指定 output 参数时,当前文件夹下是不会生成输出文件的,但是从输出结果可以看出,输出文件存放到了临时文件夹下。

In [28]: %time cdo.selname("SCW,SCTOT,SCH,SCS,REFL_10CM",input = "-seltimestep,1/5 " + "wrfout_d02_2016-06-23_06_00_00")CPU times: user 3.05 ms, sys: 4.09 ms, total: 7.14 msWall time: 38.2 sOut[28]: '/tmp/cdoPy_f_c2j0l'

类似临时文件的处理方式,当需要处理大量数据时,可以控制输出文件的输出,从而节省大量的时间(前提是不需要输出文件或是输出文件本身已经存在了)。可以通过以下两种方式控制输出文件的输出:

设置全局属性

cdo.forceoutput  =  True/False 

操作符选项

cdo.selname("SCW", input = "wrfout_d02_2016-06-23_06_00_00", force = False)

多线程处理

python-cdo提供了多线程处理方式,可以处理能并行执行的任务。比如:

from cdo import *import multiprocessing

def showlevel(arg):    return cdo.showlevel(input=arg)

cdo       = Cdo()cdo.debug = Trueifile     = '../wrfsub.nc'pool      = multiprocessing.Pool(1)results   = []

for i in range(0,5):    results.append(pool.apply_async(showlevel, [ifile]))

pool.close()pool.join()

for res in results:    print(res.get())

python-cdo最重要的更新之一就是支持 numpy/narray 数组操作。通常有3种方式来获取数据:

文件句柄

使用文件句柄可以非常方便的获取变量,属性,维度等信息。可以使用 returnCdf 关键词或 readCdf 方法。比如:

In [50]: t = cdo.seltimestep("1/3", input = "wrfout_d02_2016-06-23_06_00_00", options = "-f nc", returnCdf = True).variables["T"][:]

In [51]: t.shapeOut[51]: (3, 59, 201, 240)

In [46]: ff = cdo.readCdf("wrfout_d02_2016-06-23_06_00_00")

In [47]: t = ff.variables["T"]

In [48]: t.shapeOut[48]: (36, 59, 201, 240)

numpy/narray 对象

当需要读取特定变量时可使用此方式

In [52]: t = cdo.seltimestep("1/3", input = "wrfout_d02_2016-06-23_06_00_00", options = "-f nc", returnArray = "T")

In [53]: t.shapeOut[53]: (3, 59, 201, 240)

掩膜数组

如果目标变量含有缺省值,即有FillValue之类表示缺省值的属性,则会影响返回结果。比如:对海洋区域数据进行掩膜。

oro = cdo.setrtomiss(-10000, 0, input =  cdo.topo( options =  '-f nc'), returnMaArray =  'topo')

setrtomiss 表示将在 [-10000, 0]之间的数设置为缺省值。

绘图

能够直接操作 numpy/narray 数据的好处之一就是处理好之后既可以直接进行绘图。当然,cdo也可以编译为支持 Magics++,然后在操作之后进行绘图操作,但是仍没有在python 中利用 matplotlib 等绘图库要方便。

由于变量 t 在上面已经获取并且处理了,因此此处直接使用。

In [62]: import matplotlib.pyplot as plt

In [63]: plt.contourf(t[1, 6, :, :])Out[63]: <matplotlib.contour.QuadContourSet at 0x7fc6832142b0>

In [64]: plt.colorbar()Out[64]: <matplotlib.colorbar.Colorbar at 0x7fc6831896a0>

In [65]: plt.show()

关于python-cdo中提供的方法的使用方式,可以查看帮助。如果帮助看不明白,可以查看单元测试脚本,单元测试脚本中基本上包含了所有使用方式,相比于官方文档信息可能更全,但是需要仔细斟酌理解。

最后,值得一提的是,cdo 和 xarray  能够有效的集成,从而可以很好的利用 xarray  所营造的数据处理生态,更高效的进行数据处理、分析和可视化

使用手册下载

在好奇心Log公众号后台回复CDO获取PPT说明文档及PDF使用手册

不看的原因

确定内容质量低不看此公众号
(0)

相关推荐

  • UC头条:竟然可以这样学python! !

    本人最近刚刚学习了python,想要了解python的朋友可以跟我一起学哦~ 点击加载图片 先来个最简单的程序 print('Hello World!') 其实python也是支持中文版的,可以直接使 ...

  • 什么是Python表达式?Python基础入门

    初学Python的时候,大家都会接触到各种专业术语,比如说表达式.语句等,那么你知道什么是Python表达式吗?Python表达式由什么构成呢?想要知道,这篇文章你一定要看. Python表达式由什么 ...

  • 学Python需要哪些工具?五大工具推荐!

    Python是一门非常友好.功能强大的编程语言,学习之后Python可以从事多个领域,可以为我们未来开启无限可能.当然了想要学习好Python,必不可少的就是Python开发工具,今天小编为大家介绍几 ...

  • Python能在手机上运行吗?工具推荐!

    Python可以在手机上运行吗?近期有很多人都咨询小编这个问题,在这里想要告诉大家的 是,Python是可以在手机上运行的. QPython,就是一个帮助你在手机上运行Python的神器. QPyth ...

  • 【推荐】Python图像处理工具有哪些?

    对比其他编程语言,Python更适合图像处理,因为Python有好多工具包应用于图像处理当中,既能提高效率,也能节省时间.那么Python图像处理工具有哪些?本文为大家介绍10个Python图像处理工 ...

  • Python编译器哪些好用?学习工具推荐!

    学习Python的过程中肯定少不了IDE或者代码编译器,这些工具可以帮助我们更好地加快开发效率,那么学Python用什么编译器呢?我们来看看吧. Python语言常用的编译器有两种: 第一种是Pyth ...

  • Python图像管理工具有哪些?常用工具推荐!

    python这门编程语言大家都非常熟悉,在进行图像处理的时候python是非常合适的选择,而且随着这门语言的日益普及,还可以提供很多实用的图像处理工具.那么python常用的图像处理工具有哪些? 1. ...

  • python工具推荐 | 天气与气候检验工具

    好奇心Log 今天 以下文章来源于气象学家 ,作者pangeo-data 有许多与计算初始化地球科学预测的指标有关的软件包.但是,我们没有找到任何一个包可以统一我们的所有需求. 地球系统预测回报(也叫 ...

  • Python图像处理工具有哪些?五大工具推荐!

    使用Python进行图像处理的时候,肯定避免不了工具,今天小编向大家推荐五款Python图像处理工具,有需求的小伙伴快来看看吧. 1 scikit-image 是一个开源的Python包,适用于num ...

  • 推荐!Python常用工具!

    python是编程入门不错的选择,现在很多人转行学编程都会选择学习python.当然,在学习python的过程中,如果没有第一时间找到好工具,会吃不少苦头,毕竟好的工具能够大大提高编程效率,那么pyt ...

  • Python编程哪些工具好用?常用工具推荐!

    Python是一门适合新手入门学习的编程语言,简单.优雅.语法清晰,学习Python还可以提高我们的工作效率,因此受到很多人喜欢.那么用Python编程会用到哪些软件?我们一起来看看吧. 1.Upte ...