首页 直播 App
当前位置: 首页 > 大学生热门技能 > 大学生热门技能文章 > 大数据工程师需要掌握哪些基础知识?

大数据工程师需要掌握哪些基础知识?

发布时间:2019-12-25 14:35 来源:环球网校 点击量: 631

大学生热门技能报名、考试、查分时间 免费短信提醒

地区:

获取验证 立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

想要成为大数据工程师需要掌握的知识很多,毕竟大数据并不是一个多带带的概念,他更像是一个方法论,一个集合,因此要掌握的知识很多。首先的话你应该先学习java开发语言,以及linux,这两个知识是大数据的基础。像你说的spark、spark、hbase等知识都是需要学些和掌握的。下面,我们不妨来具体的分析一下,该如何学习。

大数据工程师

1、Java

大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下。

2、Hadoop

这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。

3、Zookeeper

这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

4、Sqoop

这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

5、Hive

这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

6、Oozie

既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

7、Hbase

这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

8、Spark

它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

当然,这是简单的罗列了一下,很多细节的知识点这里并没有强调。你可以在学习的过程中不断的积累和补充。在终身学习的年代里,不断的学习必须成为每个人的常态。最后,希望我的回答能够对你有所帮助,知乎专栏从头学习大数据也供你参考学习。


资料下载 精选课程 真题练习

大学生热门技能相关文章推荐

|

大学生热门技能最新文章推荐

|

大学生热门技能最新经验推荐

  • 张君

    19:00-20:30 19:00-20:30 05月10日 19:00-20:30

    一建120天高效备考峰会

    一级建造师

出版物经营许可证|京B2-20210770| 京公网安备 11010802033350号|京ICP备16038139号|节目制作经营许可证(京)字20130号|京网文(2021)2566-713号
知春路校区:北京市海淀区知春路7号致真大厦D座4层北区(地铁10号线西土城出A口)|邮编:100191
版权所有 2003-2021 北京环球创智软件有限公司|联系客服|营业执照