7.数据清洗

2024-05-05 04:02:36

以此为例

一.重复数据处理

1.drop_duplicates

参数名	接收	意义	默认
subset	String / sequence	去重的序列	None（全部列）
keep	String	重复时保留第几个数据 first ：保留第一个 last ：保留最后一个 false ：不保留	first（保留第一个）
inplace	Boolean	是否在原表上操作	False

DataFrame.drop_duplicates()

示例

二.缺失值处理

1.dropna删除法（减少样本）

参数名	接收	意义	默认
axis	0/1	0为删除记录特征为行 1为删除记录特征为列	0
how	String	any只要存在缺失就删除 all全部缺失才删除	any
subest	array	进行去重的行/列	None
inplace	Boolean	是否在原表上操作	Flash

DataFrame.dropna()

示例

2.fillna替换法（影响标准差）

参数名	接收	意义	默认
value	Scalar dict series Dataframe	表示用于替换的值	无
method	Stirng	Backfill/bfill 使用下一个缺失值来填补 Pad/ffil使用上一个缺失值填补	None
axis	0/1	轴向	1
inplace	Boolean	是否原表操作	False
limit	Int	填补缺失值的个数上限	None

DataFrame.fillna()

示例

3.interpolater()插值法

参数method选择添加	参数
默认	'Linear'
数据增长速率越来越快	'quadratic'
数据集呈现出累计分布	'pchip'
平滑绘图为目标	'akima'

DataFrame.interpolater()

示例

三.异常值处理

1.散点图查看异常值

可知异常为1
示例

2.箱线图查看异常值

可知异常为1
示例

3.处理方法借鉴缺失值处理

四.标准化

1.离差标准化

将数据映射到[0.1]的区间，处理线性变换数据
公式：

\[x=(x-min)/(max-min) \]

def lcbzh(DataFrame):
    DataFrame=(DataFrame-DataFrame.max())/(DataFrame.max()-DataFrame.min())
    return DataFrame

示例

2.标准差标准

处理数据均值为0，标准差为1的数据
公式:

\[x=（x-x.mean()）/x.std() \]

3.小数定点标准化数据

用于移动小数点的位置至[-1,1]
公式：

\[x=x/10^{np.ceil ( np.log10( x.abs().max() ) )} \]

python-13-pandas的常用操作

皮皮冰燃 2020-10-22 17:49:19 56 收藏分类专栏: python3 文章标签: python 版权 (1)获取数据 (2)数据处理:处理缺失数据,可视化 (3)特征工程 (4)算 ...
Python数据分析库-Pandas在数据分析中的知识点（一）

各位客官姥爷好,欢迎回来.上节我们简单介绍了Pandas名称的由来,以及后续的安装工作.相信大家都有跟着一起安装,既然装好了那就用起来吧,本节我们来看看Pandas在数据分析过程会涉及到哪些常用的知识 ...
pandas映射与数据转换

在 pandas 中提供了利用映射关系来实现某些操作的函数,具体如下: replace() 函数:替换元素: map() 函数:新建一列: rename() 函数:替换索引. 一.replace() ...
pandas笔记（5）

在Python中,dataframe可以使用默认行列索引,也可以自行设置索引. 查看索引新建一个DataFrame import pandas as pddf = pd.DataFrame ([[' ...
pandas DataFrame的新增行列，修改、删除、筛选、判断元素以及转置操作

pandas DataFrame的新增行列，修改、删除、筛选、判断元素以及转置操作
使用Python对Excel多sheet合并与数据集读取

使用Python对Excel多sheet合并与数据集读取
Pandas 必知必会的18个实用技巧，值得收藏！

干净整洁的数据是后续进行研究和分析的基础.数据科学家们会花费大量的时间来清理数据集,毫不夸张地说,数据清洗会占据他们80%的工作时间,而真正用来分析数据的时间只占到20%左右. 所以,数据清洗到底是在 ...
Pandas 使用教程

Pandas 基础使用教程(1) Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取.转换.过滤.分析等一系列操作.除此之外,Pandas 拥有强大的缺失数据处理与数据透 ...
数据清洗很有用，年薪三万不是梦

今天咱们要处理的表格是这样的,有点眼熟吧? A列是带有合并单元格的部门名称,右侧是各部门的人员姓名,每个部门的人数也没有规律.咱们要实现的最终效果是,将各个部门的人员合并到同一个单元格,并使用逗号隔开 ...
菜鸟记166-浅谈数据清洗的几个思路

注:拍于2019年春节广西南宁青秀山关键词:EXCEL2016:TRIM函数:替换:操作难度*** 身为教学管理人员,经常要处理大量的数据,小菜最头疼的是其他来源的数据表,由于各种原因,往往会有一些 ...
利用Pyhon进行数据清洗和预处理(7)

利用Pyhon进行数据清洗和预处理(7)
陈根：数据清洗机器人，MIT首发

文/陈根当前,数据量的快速增长已经成为了IT管理部门所面对的最难于解决的问题之一.数据量的增长严重降低了应用程序的性能,降低了应用程序的稳定性,并且消耗了大量的投资,同时对备份与恢复也增加了巨大的负 ...
硬核数据清洗技巧，8.5%的人没用过

今天咱们要处理的表格是这样的: A列是带有合并单元格的部门名称,右侧是各部门的人员姓名,每个部门的人数也没有规律. 接下来老祝就以Excel 2016为例,来说说具体的操作方法: 步骤一: 依次单击[ ...
Excel数据清洗实例智能填充应用

Excel数据清洗实例智能填充应用
【数据清洗】从一列数据中自动获取行标题

今天我们要处理的数据是这样的: 我们希望的结果是这样的: 老规矩,转换必须是自动的,因此,我们还是使用Power Query. 01 实现方法首先,选中数据区域的任意单元格,然后在数据选项卡中,点击 ...
互助问答第467期：关于数据清洗的问题

关于数据清洗的问题请教各位老师2个问题: 1.拿到一个原始数据,应当如何清洗数据,大致思路是如何? 2.怎样的标准说明数据大致清洗的比较干净了,可以用了?谢谢! 第一,数据处理之前,你需要有自己的思 ...
Python数据分析：数据清洗教学

数据清洗是数据分析关键的一步,直接影响之后的处理工作数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 ...