第300章丸辣

缺点二：由于完全忽略特征之间的相关性，均值填补法会大大弱化特征之间的相关性随机填补随机填补是在均值填补的基础上加上随机项，通过增加缺失值的随机性来改善缺失值分布过于集中的缺陷。

这章没有结束，请点击下一页继续阅读！

等距离散化（Equal-Width Discretization）：将数据划分为等宽间隔的区间，这种方法需要先确定区间的个数n，再根据最小值min和最大值max计算出每个区间的间隔长度（max-min）/n，相邻两个区间的宽度都是相同的。等频率离散化（Equal-Frequency Discretization）：将数据划分为相同的数量级别，每个区间包含的记录数相等。这种方法首先将数据按照大小排序，然后将排序后的数据分成n等份，每份个数为数据总数/n，在每个区间的边界处划分数据。基于聚类的离散化：将数据分成若干个簇，簇内的数据相似度高，簇间数据相似度低。具体实现时可以使用聚类算法如k-means、DBSCAN等。自适应离散化：通过迭代的方式，不断根据数据的特性调整区间的边界，以达到最优的离散化效果。下面分别以等距离散化、等频率离散化、基于聚类的离散化和自适应离散化为例子，分别列出具体的例题：等距离散化假设我们有一个包含1000个学生身高数据的数据集，我们想将身高离散化成10个等宽的区间，以下是离散化方法：计算身高的最小值和最大值，假设最小值为140cm，最大值为200cm。计算每个区间的宽度，假设共10个区间，每个区间的宽度为(200-140)/10 = 6cm。根据每个学生的身高，将其分入相应的区间。等频率离散化假设我们有一个包含200家公司的财务数据的数据集，我们想将每个公司的营业收入离散化成5个等频率的区间，以下是离散化方法：将所有公司的营业收入升序排序。计算每个区间的数据数量，在本例中，因为共有200个公司，所以每个区间包含40个公司。找到每个区间的边界，比如第一个区间的最小值和第二个区间的最大值，这两个值之间的所有公司的营业收入都属于第一个区间。

喜欢离语请大家收藏：(www.qibaxs10.cc)离语七八小说更新速度全网最快。

相关小说

都市 /

龙戒的使命: 缘来灬如此; 七八小说免费提供作者(缘来灬如此)的经典小说：《龙戒的使命》最新章节全文阅读服...; 773405字11-13

都市 /

透视不赌石,你又在乱看: 迟暮流年; 七八小说免费提供作者(迟暮流年)的经典小说：《透视不赌石,你又在乱看》最新章节全...; 4147110字04-17

都市 /

战神王爷夜夜来爬墙,王妃她怒了: 微茫的砂砾; 七八小说免费提供作者(微茫的砂砾)的经典小说：《战神王爷夜夜来爬墙,王妃她怒了》...; 1244383字06-14

都市 /

你透视眼不去赌石,乱看什么呢！: 迟暮流年; 【小人物逆袭+透视+赌石+鉴宝+捡漏+神豪】秦朝阳,一个普通大学毕业生,社会晃荡两年...; 3795767字10-02

都市 /

热血：用拳头称霸世界: 爱吃油泼黄骨鱼的炎铭; 七八小说免费提供作者(爱吃油泼黄骨鱼的炎铭)的经典小说：《热血：用拳头称霸世界...; 711248字12-20

都市 /

重回80：全村把我当财神: 牡丹一度; 七八小说免费提供作者(牡丹一度)的经典小说：《重回80：全村把我当财神》最新章节...; 4428604字12-17

第300章 丸辣

相关小说

第300章丸辣