大数据如何存储

  • 原创经验
  • |
  • 更新:
  • |

“大数据” 通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据,大数据如何存储?


大数据如何存储

  1. 1

    对传统的单机文件系统来说,横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem),你可以通过横跨上千甚至上万台机器来完成大量数据得存储,同时这些数据全部都能归属在同一个文件系统之下。你可以通过引用一个文件路径获取存储在许多台机器上的数据文件。作为一个使用者,你完全不用去计较文件具体存储的位置,这个文件系统会为你搞定一切。

    大数据如何存储

  2. 2

    我们当然不是为了搜集数据而进行存储,我们还要用数据做一些事情。虽然我们通过HDFS存下了横跨上千台机器的数据,我们依然面临一个问题——这些数据过于庞大,如果只交给一台机器处理,我们可能得等上几周甚至更长。这些可能以T甚至于P来计量单位的数据,只靠一台机器真的能跑到地老天荒。

    对于很多公司,这是无法接受的事情——我们都知道有各种热度排行,加入一台机器处理这个数据、计算热度、进行发布,可能一周之后出来结果,但大家早已经不关心了。

    所以使用大量机器进行处理是必然的选择。在大量机器处理过程中,必须处理一些事务:任务分配、紧急情况处理、信息互通等等,这时候必须引入MapReduce / Tez / Spark 。这其中,前者可以成为计算引擎的第一代产品,后两者则是经过优化后的下一代。MapReduce采用了非常简单的计算模型设计,可以说只用了两个计算的处理过程,但是这个工具已经足够应付大部分的大数据工作了。

注意事项

  • 以上就是大数据如何存储的全部内容,不可否认的是,大数据管理和存储正在迅速脱离物理机器的范畴,并迅速进入数字领域。除了所有技术的发展,大数据增长得更快,以这样的速度,世界上所有的机器和仓库都无法完全容纳它。


作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。