离语
首页

第287章 衣裙

异常等对于这些情况Y如果不加以处理Y就会直接影

响到最终挖掘模型的使用效果Y甚至会使得创建模型任务失败因此Y

在数据挖掘过程中Y数据清洗是第一步。

数据质量管理数据质量管理贯穿数据生命周期的全过程在

数据生命周期中Y可以通过数据质量管理的方法和手段Y在数据生成

使用消亡的过程里Y及时发现有缺陷的数据Y然后借助数据管理手

段Y将数据正确化和规范化Y从而达到符合要求的数据质量标准总

体而言Y数据质量管理覆盖质量评估数据去噪数据监控数据探

查数据清洗数据诊断等方面Y而在这个过程中Y数据清洗是决定

数据质量好坏的重要因素。

数据清洗按照实现方式Y可以分为手工清洗和自动清洗

?

1?手工清洗X手工清洗是通过人工方式对数据进行检查Y发现数据中

的错误这种方式比较简单Y只要投入足够的人力物力财力Y也能

发现所有错误Y但效率低下在大数据量的情况下Y手工清洗数据几乎

是不可能的

?

2?自动清洗X自动清洗是通过专门编写的计算机应用程序来进行数据

清洗这种方法能解决某个特定的问题Y但不够灵活Y特别是在清理过

程需要反复进行时?一般来说,数据清理一遍就达到要求的很少?Y程序

复杂Y清理过程变化时工作量大而且Y这种方法也没有充分利用目前

数据库提供的强大的数据处理能力。

数据清洗主要是对缺失值重复值异常值和数据类型有误的数据

进行处理Y数据清洗的内容主要包括四点

?

1?缺失值处理由于调查编码和录入误差Y数据中可能存在

一些缺失值Y需要给予适当的处理常用的处理方法有X估算

整例删除变量删除和成对删除

?

2?异常值处理根据每个变量的合理取值范围和相互关系Y检

查数据是否合乎要求Y发现超出正常范围逻辑上不合理或者相

互矛盾的数据。

数据清洗主要是对缺失值重复值异常值和数据类型有误的数据

进行处理Y数据清洗的内容主要包括四点

本章未完,请点击下一页继续阅读! 第2页 / 共4页

相关小说

分手当天,财阀继承人倒贴上门 都市 /
分手当天,财阀继承人倒贴上门
黑森林西米露
分手当天,财阀继承人倒贴上门是由作者黑森林西米露著,免费提供分手当天,财阀继承人...
1003208字03-15
东京喰种:噬魂搜查官 都市 /
东京喰种:噬魂搜查官
枫叶飘飞雪
七八小说免费提供作者(枫叶飘飞雪)的经典小说:《东京喰种:噬魂搜查官》最新章节...
666273字06-28
龙族:我的老爹是昂热 都市 /
龙族:我的老爹是昂热
阳光老豆
七八小说免费提供作者(阳光老豆)的经典小说:《龙族:我的老爹是昂热》最新章节全...
481643字06-26
都市逍遥小神医 都市 /
都市逍遥小神医
花小楼
都市逍遥小神医是由作者花小楼著,免费提供都市逍遥小神医最新清爽干净的文字章节在...
726505字12-21
开局无天赋?但我能召唤神明! 都市 /
开局无天赋?但我能召唤神明!
破碎的长明灯
七八小说免费提供作者(破碎的长明灯)的经典小说:《开局无天赋?但我能召唤神明!...
771914字06-26
从蒙德开始的格斗进化 都市 /
从蒙德开始的格斗进化
天下闻名的七月
七八小说免费提供作者(天下闻名的七月)的经典小说:《从蒙德开始的格斗进化》最新...
1446541字07-05