ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件


数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

输出结果

name      object
ID        object
age       object
sex       object
hobbey    object
dtype: object
   name    ID  age   sex hobbey
0   Bob     1  NaN     男    打篮球
1  LiSa     2   28     女   打羽毛球
2  Mary         38     女   打乒乓球
3  Alan  None       None
-----------------------------------------
输出数据形状: (3, 6)
导出数据成功!
     0     1    2    3    4     5
1  0.0   Bob    1  NaN    男   打篮球
3  2.0  Mary        38    女  打乒乓球
4  3.0  Alan  NaN  NaN  NaN   NaN

实现代码

import pandas as pd
import numpy as np

contents={"name": ['Bob',        'LiSa',                     'Mary',                       'Alan'],
          "ID":   [1,              2,                         ' ',                          None],    # 输出 NaN
          "age":  [np.nan,        28,                           38 ,                          '' ],    # 输出
#           "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),        ''],  # 输出 NaT
          "sex":  ['男',          '女',                        '女',                        None,],    # 输出 None
          "hobbey":['打篮球',     '打羽毛球',                   '打乒乓球',                    '',],    # 输出
          }
data_frame = pd.DataFrame(contents)
data_frame.to_excel("data_Frame.xls")
print(data_frame.dtypes)
print(data_frame)
print('-----------------------------------------')
data_frame_temp=data_frame.copy()

file_path_in='data_Frame.xls'
file_path_out='data_Frame_Sampling.xls'
# ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

import pandas as pd
data_all = pd.read_excel(file_path_in, header=None)         # 取消读取csv或txt时默认第一行为列名
data_all_Sampling=data_all.sample(n=3,random_state=123)   # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2
print("输出数据形状:",data_all_Sampling.shape)
data_all_Sampling.to_csv(file_path_out)
print('导出数据成功!')
print(data_all_Sampling)

(0)

相关推荐