大数据工程师的日常工作内容
- 原创经验
- |
- 更新:
- |
小编刚看到数据两个字觉得大数据工程师应该就是做数据的,整理起来,然后进行分析这样。后来深入了解了下,其实不然,虽然可大致可以分为:数据信息采集 -> 数据字段清洗 -> 数据分析存储 -> 数据分析统计 -> 数据可视化 等几个方面但还是不一样的呢。没有想象的那么容易的呢,现在就跟着小编一起来看看大数据工程师的日常工作内容到底是干嘛的?
具体工作
-
数据信息采集:
业务系统的埋点代码时刻会产生一些分散的原始日志,也就是散乱的数据,可以用Flume监控接收到这些分散的原始日志,实现原始分散日志的聚合,即称之为数据信息采集。
-
数据字段清洗:
原始的日志,数据是千奇百怪的,是非常散乱的,还有可能是异常取值,行业人称脏数据。为了保证这些数据下面环节的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。多余的字段也会进行相应的删除,当然敏感的字段信息也会进行打码处理,用'*'字符替换。
-
数据分析存储:
清洗筛查后的数据可以落地入到数据仓库中,供下面环节做离线分析。如果下面环节的"数据分析统计"对实时性要求比较高,则可以把日志记录入到固定的文件中。这个阶段就称之为数据分析存储。
-
数据分析统计:
数据分析是数据流的下游,消费来自上游的数据,之前环节都是为了给它做准备的。其实就是从日志记录里头统计出各种各样的报表数据,会有一些公司专门设立一个岗位来做这个事情。
-
数据可视化:
这个就很好理解了,就是将原始的杂乱无章的数据,用数据表格、数据图等直观的形式展示出来,也就是上面环节"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。
注意事项
-
当然,大数据平台搭建与维护,也可能是大数据工程师工作内容的一部分喔~这个就比较高深了,我们一般人也接触不到啦。不过 通过学习,小编了解到对于未来,大数据必定会带来崭新的格局。所以,亲爱的小伙伴们,有对大数据感兴趣的,赶紧行动起来吧。