数据清理三类大题

Awan大约 3 分钟Data mining

数据清理：（由于讲的太多，而且难以详细整理，故而只能迫于应试而只记录做题方法）

一.清理噪声数据步骤：
1.步骤

2.类型：

3.练习：

1.已知一组价格数据：10、19、26、12、7、21、15、36、27、42、38、
3、16、30，现用等深（深度为5）分箱方法对其进行平滑（向下取整）。
2.已知一组价格数据： 10、19、26、12、7、21、15、36、27、42、38、
3、16、30 ，现用等宽（宽度为10）分箱方法对其进行平滑（向下取整）。

4.总结：
先排序，再分箱，然后平滑。
深度即数量，宽度即距离

三.数据归约PCA：

（1）计算步骤：

1.计算均值
2.将原数据列向量化，然后将矩阵零均值化（每个数都减去对应的均值）
3.根据公式算出协方差
4.计算特征值以及特征向量
5.确定贡献率，选择大的那个对应的特征向量
6.将原数据投影到新的基（特征向量横着写与一开始的矩阵相乘）

（2）例题：

注：解答最后答案是错的，正确答案是[-3,-1.0,3,1]

ps：此外还有一些简单概念，例如3-4-5规则这类，详见PPT

一.FP-growth算法发现频繁项集的过程：
(1)构建FP树；
(2)从FP树中挖掘频繁项集。
FP-Tree：将事务数据表中的各个事务数据项按照支持度计数排序后，把每个事
务中的数据项按支持度计数的降序依次插入到一棵以NULL为根结点的树中，
同时在每个结点处记录该结点出现的支持度。
条件模式基：包含在FP-Tree中与后缀模式一起出现的前缀路径的集合，也就是
同一个频繁项在FP树中的所有节点的祖先路径的集合。
条件树：将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree子树。
二.例子：

步骤一：

步骤二：

步骤三：

数据清理三类大题

数据清理：（由于讲的太多，而且难以详细整理，故而只能迫于应试而只记录做题方法）

二.数据变换—规范化

三.数据归约PCA：

四.关联规则挖掘

1.Apriori算法：

2.FP Growth算法：