python-数据处理
本文最后更新于:July 15, 2022 am
一、缺失值处理
1 |
|
删除记录 数据插补 不处理
1 |
|
1 |
|
1 |
|
缺失值插补
几种思路: 均值 中位数 众数插补 临近值插补 插值法
均值 中位数 众数插补
1 |
|
1 |
|
1 |
|
拉格朗日插值法的应用步骤:
1、 创建数据
2、 缺失值的数量
3、 密度图查看确实的情况 (直接生成图会自动删除相应的缺值)
4、 直接拿缺失值的前5个和后五个数据就可以完成
1 |
|
二、异常值处理
1 |
|
# 异常值(离群值)
1 |
|
1 |
|
三、数据归一化处理
1 |
|
数据标准化
0-1 标准化
将数据的最大值记录下来,并通过max-min作为基数(0,1)进行数据的归一处理
x = (x - min) / (max - min)
1 |
|
数据标准化(变成正态分布)
(2) Z-score标准化
Z分数是一个分数与平均数的差再除以标准差的过程
以标准差为计算单位,在原始分数低于平均值Z为负,反之则为正
一个给定分数距离平均数多少标准差
什么情况用Z-score标准化:
在分类、聚类算法中,需要使用距离来度量相似度的时候,会表现更好
相似性 平均水平
1 |
|
案例
八类产品两个指标value1(权重为0.6),value2(权重为0.4),
判断哪一个产品指标状况最好
1 |
|
四、连续数据离散值处理
1 |
|
1 |
|
1 |
|
1 |
|
本文作者: 水寿先生
本文链接: http://chen320.github.io/2022/07/15/%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!