关于大数据的认识误区有哪些

  • 原创经验
  • |
  • 更新:
  • |

当一个新的数据洞察或者大数据应用出现的时候,很多人都认为拥有数据,特别是拥有大量的数据就是大数据。这绝对不是真的,那么大数据到底是什么呢?什么是大数据呢?如何定义的?下面我们就来一下关于大数据的认识误区有哪些?


具体如下

  1. 1

    关于大数据的认识误区有哪些

    1、大数据误区——大数据≠拥有数据

    很多人认为拥有数据,尤其是拥有大量数据,就是大数据。这绝对不是真的。大量的数据并不是大数据。但是,保险公司可以利用气象大数据预测自然灾害,调整自然灾害相关的保险费率,从而发展其他商业价值,形成大数据的商业环境。因此,利用大数据,甚至关联、交流,都能产生真正的价值,形成DT时代独特的大数据业务。

    2、大数据误区——大数据≠报告平台

    有很多公司建立了自己的报告中心,或者大屏幕演示中心,然后马上宣布他们已经实现了大数据,但这还不够。虽然报告也是大数据的一种形式,但真正的大数据业务并不是生成报告供人们指导,而是隐藏在大数据表象下的一套报告系统。在大数据的闭环系统中,一切都是数据的生产者和用户。通过自动智能闭环系统、自动学习和智能调节,提高了整体生产效率。

    3、大数据误区——大数据≠计算平台

    我看过一篇报道,是关于一家金融机构建立了自己的大数据系统。稍后进一步观察会发现,它已经设置了一个拥有数百台机器的Hadoop集群。大数据计算平台作为大数据应用的技术基础,是大数据闭环中非常重要和不可缺少的一部分。但是,不能说有了计算平台就有了大数据。例如,如果我买了一个锅,我不能说我有一个盘子。从锅到菜,我还需要原材料(数据),工具(加工工具)和厨师(数据处理)来完成最后的制作。

    4、大数据误区——大数据≠精准营销

    我见过很多创业公司在做大数据。如果你仔细观察,你会发现他们所做的是一个基于大数据、广告投资等的推荐引擎。这是大数据吗?他们所做的就是大数据的应用,可以说是大数据的一种。只是大数据的整个生态系统不能这样表达。就像大象的耳朵是大象的一部分一样,它们并不代表大象。

    关于大数据的认识误区有哪些

  2. 2

    大数据生态技术体系有哪些?

    1、大数据生态技术体系——Hadoop

    由Apache基金会开发的分布式系统基础设施。Hadoop框架的核心设计是HDFS和MapReduce。HDFS提供海量数据的存储,MapReduce提供海量数据的计算。Hadoop是一个基本框架,它可以托管许多其他东西,比如Hive。不想用编程语言开发MapReduce的人可以使用Hive进行离线数据处理和分析。例如,HBase作为面向列的数据库在HDFS上运行,而HDFS缺乏读和写操作,这就是为什么HBase是一个分布式的、面向列的开源数据库。

    2、大数据生态技术体系——的火花

    也是一个开源项目Apache基金会的另一个重要的分布式计算系统开发的加州大学伯克利分校的实验室。最大的火花和Hadoop的区别是Hadoop使用硬盘来存储数据,而火花使用内存来存储数据,因此火花可以提供超过100次的计算速度。Spark可以通过YARN(另一个资源协调器)在Hadoop集群中运行,但是Spark现在也在进化成一个生态过程,希望通过一个技术栈实现上下游的集成。例如,Spark Shark VS Hadoop Hive, Spark Streaming VS Storm。

    3、大数据生态技术体系——风暴

    是一个由BackType团队作为Apache基金会孵化器开发的分布式计算系统。它提供了基于Hadoop的实时计算特性,可以实时处理大型数据流。与Hadoop和Spark不同,Storm不收集和存储数据。它通过网络直接实时接收和处理数据,然后通过网络直接实时返回结果。Storm擅长直播。例如,日志,就像网络购物的点击流一样,是连续的、连续的、永远不会结束的,所以当数据通过像Kafka一样的消息队列传入时,Storm就会发挥作用。Storm本身并不收集或存储数据,而是在数据到达时进行处理,并在运行时输出数据。

    上面的模块只是基于大型分布式计算的通用框架,通常由计算引擎描述。除了计算引擎,我们还需要IDE开发、作业调度系统、大数据同步工具、BI模块、数据管理、监控和报警等平台工具。与计算引擎一起,形成了大数据的基础平台。

    关于大数据的认识误区有哪些

注意事项

  • 以上就是小编今天给大家整理的关于“关于大数据的认识误区有哪些”的相关内容,希望对大家有所帮助。


作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。