大数据工程师必修课:PCA降维

2020-11-22 00:00 17浏览 2720字数

大数据工程师报名、考试、查分时间 免费短信提醒

地区:

获取验证 立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

【导读】作为一名合格的大数据分析师,我们有必要知道了解且学会机器学习中的PCA降维,这也是数据挖掘的一个环节,机器学习这门技术是多种技术的结合。而在这个结合体中,如何进行数据分析处理是最核心的内容。通常在机器学习中,我们指的数据分析是,从一大堆数据中,筛选出一些有意义的数据,推断出一个潜在的可能结论。得出这个不知道正确与否的结论,下面让我们一起来了解一下大数据工程师必修课之PCA降维吧!

其经过的步骤通常是:

1、预处理:把数据处理成一些有意义的特征,这一步的目的主要是为了降维。

2、建模:这部分主要是建立模型(通常是曲线的拟合),为分类器搭建一个可能的边界。

3、分类器处理:根据模型把数据分类,并进行数据结论的预测。

本文讲的主要是数据的预处理(降维),而这里采用的方式是PCA。

PCA的个人理论分析:

假设有一个学生信息管理系统,里面需要存储人性别的字段,我们在数据库里可以有M、F两个字段,用1、0分别代表是、否。当是男学生的时候其中M列为1,F列为0,为女生时M列为0,F列为1。我们发现,对任意一条记录,当M为1,F必然为0,反之也是如此。因此实际过程,我们把M列或F列去掉也不会丢失任何信息,因为我们可以反推出结论。这种情况下的M、F列的关联比是最高的,是100%。

再举另外一个例子,小明开了家店铺,他每天在统计其店铺的访问量V和成交量D。可以发现,往往V多的时候,D通常也多。D少的时候,V通常也很少。可以猜到V和D是有种必然的联系,但又没有绝对的联系。此时小明如果想根据V、D来衡量这一天的价值,往往可以根据一些历史数据来计算出V、D的关联比。拍脑门说一个,如果关联比大于80%,那么可以取VD其中任意一个即可衡量当天价值。这样就达到了降维的效果。

当然降维并非只能在比如说2维数据V,D中选取其中的1维V作为特征值,它有可能是在V+D的情况下,使得对V, D的关联比最大。

但是PCA思想就是如此。简单点说:假设有x1、x2、x3…xn维数据,我们想把数据降到m维,我们可以根据这n维的历史数据,算出一个与x1…xn相关m维数据,使得这个m维数据对历史数据的关联比达到最大。

以上就是小编今天给大家整理发送的关于“大数据工程师必修课:PCA降维”的相关内容,希望对大家有所帮助。想了解更多关于人工智能就业岗位分析,关注小编持续更新。


2020年大数据工程师成绩查询入口

转载请联系作者获得授权,并标注“文章作者”。

后发表评论
0条评论
  • 赵聪

    19:00-20:30 19:00-20:30 12月02日 19:00-20:30

    中级考后如何进阶高经直播峰会

    高级经济师

  • 刘刘球

    15:00-15:45 15:00-15:45 12月03日 15:00-15:45

    【1元秒】双12医卫限时秒杀专场

    执业药师

  • 刘刘球

    15:00-15:45 15:00-15:45 12月03日 15:00-15:45

    【1元秒】双12医卫限时秒杀专场

    临床执业医师

环球网校移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球网校快问 · 文章RSS订阅 · 问答RSS订阅 · 最新文章 · 最新问题 · 快问经验
Copy 2018 https://wenda.hqwx.com/ All Rright Reserved. 京ICP备16038139号-3 / Smrz 京ICP备16038139号-3/ 举报电话:400-678-3456 /