【数据挖掘】知识点整理(复习大纲)

发布于 2022-01-23 762 次阅读 预计阅读时间: 3 分钟


第一章:

1. 数据分析、数据挖掘、数据仓库、知识发现的概念(理解)

2. 数据挖掘的主要任务(理解)

3. 离群点检测的四种方法(简述)

4. 数据挖掘存在的主要问题(简述)

5. Python 数据挖掘常用的三大库(理解)

第二章:

6. Python 的数据类型(理解)

7. 流程控制(理解)

8. Python 的四种数据类型(掌握)

9. Numpy 数组对象创建、数据转换、数组变换、索引和切片、排序(掌握)

10. Pandas 两类数据结构的创建、查询、分组和聚合(掌握)

11. Matplotlib 常用的绘图函数、折线图、散点图、直方图、饼图(理解)

第三章:

12. 属性及其类型(理解)

13. 数据的中心趋势和散布度量指标(理解)

14. 数据属性的相似度度量(理解)

15. 数值属性的相似度度量欧氏距离、曼哈顿距离、切比雪夫距离(掌握)

第四章:

16. 数据预处理中,原始数据中存在的问题(理解)

17. 数据预处理中,对数据的质量要求是什么?(简述)

18. 数据的清洗方法中缺失值的处理方法(简述)

19. Pandas 进行数据缺失值处理(掌握)

20. 利用 Pandas 进行数据合并(理解)

21. 数据标准化、数据规约(理解)

第五章:

22. 回归分析的过程(理解)

23. 一元线性回归过程及 python 实现(理解)

24. 多元线性回归过程(理解)

第六章

25. 项集、频繁项集、闭频繁项集、最大频繁项集概念(理解)

26. 最小支持度、最小置信度、强关联规则(掌握)

27. Apriori 算法的过程,发现频繁项集和强关联规则(掌握)

第七章

28. 信息增益、信息增益率基尼系数(理解)

29. 分类器训练和预测过程(理解)

30. 决策树构造过程(掌握)

31. ID3 算法、C4.5 算法的计算过程(掌握)✤

32. K 近邻算法(理解)

33. 模型评估的相关概念(理解)

第八章

34. 聚类分析的概念(理解)

35. 聚类分析的基本方法(简述)

36. KMeans 聚类的基本原理(掌握)

37. Kmeans 聚类的 python 实现(理解)

第十章

38. 离群点的概念(理解)

39. 离群点的类型(简述)

40. 离群点检测的主要方法(简述)

此作者没有提供个人介绍
最后更新于 2023-01-26