ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
输出结果
name object
ID object
age object
sex object
hobbey object
dtype: object
name ID age sex hobbey
0 Bob 1 NaN 男 打篮球
1 LiSa 2 28 女 打羽毛球
2 Mary 38 女 打乒乓球
3 Alan None None
-----------------------------------------
输出数据形状: (3, 6)
导出数据成功!
0 1 2 3 4 5
1 0.0 Bob 1 NaN 男 打篮球
3 2.0 Mary 38 女 打乒乓球
4 3.0 Alan NaN NaN NaN NaN
实现代码
import pandas as pd
import numpy as np
contents={"name": ['Bob', 'LiSa', 'Mary', 'Alan'],
"ID": [1, 2, ' ', None], # 输出 NaN
"age": [np.nan, 28, 38 , '' ], # 输出
# "born": [pd.NaT, pd.Timestamp("1990-01-01"), pd.Timestamp("1980-01-01"), ''], # 输出 NaT
"sex": ['男', '女', '女', None,], # 输出 None
"hobbey":['打篮球', '打羽毛球', '打乒乓球', '',], # 输出
}
data_frame = pd.DataFrame(contents)
data_frame.to_excel("data_Frame.xls")
print(data_frame.dtypes)
print(data_frame)
print('-----------------------------------------')
data_frame_temp=data_frame.copy()
file_path_in='data_Frame.xls'
file_path_out='data_Frame_Sampling.xls'
# ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
import pandas as pd
data_all = pd.read_excel(file_path_in, header=None) # 取消读取csv或txt时默认第一行为列名
data_all_Sampling=data_all.sample(n=3,random_state=123) # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2
print("输出数据形状:",data_all_Sampling.shape)
data_all_Sampling.to_csv(file_path_out)
print('导出数据成功!')
print(data_all_Sampling)
赞 (0)