大数据工程师数据挖掘经历哪些步骤
- 原创经验
- |
- 更新:
- |
数据发掘基本进程,数据发掘进程界说问题、树立数据发掘库、剖析数据、预备数据、树立模型、点评模型和实施。数据发掘经过剖析每个数据,从很多数据中寻找其规则的技术,那么大数据工程师数据挖掘经历哪些步骤呢?
具体内容
-
定义问题
在开始常识发现之前最先的也是最重要的要求便是了解数据和业务问题。有必要要对目标有一个清晰明确的界说,即决议究竟想干什么。比如,想进步电子信箱的利用率时,想做的可能是“进步用户使用率”,也可能是“进步一次用户使用的价值”,要处理这两个问题而树立的模型几乎是完全不同的,有必要做出决议。
-
树立数据发掘库
树立数据发掘库包括以下几个进程:数据搜集,数据描述,挑选,数据质量点评和数据清理,合并与整合,构建元数据,加载数据发掘库,维护数据发掘库。
-
剖析数据
剖析的意图是找到对预测输出影响最大的数据字段,和决议是否需求界说导出字段。如果数据集包含成百上千的字段,那么阅读剖析这些数据将是一件十分耗时和累人的工作,这时需求挑选一个具有好的界面和功能强大的工具软件来帮忙你完成这些工作。
-
预备数据
树立模型之前的最终一步数据预备工作。可以把此进程分为四个部分:挑选变量,挑选记录,创立新变量,转换变量。
-
树立模型
树立模型是一个反复的进程。需求仔细调查不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据树立模型,然后再用剩余的数据来测验和验证这个得到的模型。有时还有第三个数据集,称为验证集,由于测验集可能受模型的特性的影响,这时需求一个独立的数据集来验证模型的准确性。练习和测验数据发掘模型需求把数据至少分成两个部分,一个用于模型练习,另一个用于模型测验。
-
点评模型
模型树立好之后,有必要点评得到的结果、解说模型的价值。从测验集中得到的准确率只对用于树立模型的数据有意义。在实践应用中,需求进一步了解错误的类型和由此带来的相关费用的多少。