大数据如何存储

原创经验
|
更新： 2021-09-14 21:54:33
|

“大数据” 通常指的是那些数量巨大、难于收集、处理、分析的数据集，亦指那些在传统基础设施中长期保存的数据，大数据如何存储?

大数据如何存储

1

对传统的单机文件系统来说，横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem)，你可以通过横跨上千甚至上万台机器来完成大量数据得存储，同时这些数据全部都能归属在同一个文件系统之下。你可以通过引用一个文件路径获取存储在许多台机器上的数据文件。作为一个使用者，你完全不用去计较文件具体存储的位置，这个文件系统会为你搞定一切。
2

我们当然不是为了搜集数据而进行存储，我们还要用数据做一些事情。虽然我们通过HDFS存下了横跨上千台机器的数据，我们依然面临一个问题——这些数据过于庞大，如果只交给一台机器处理，我们可能得等上几周甚至更长。这些可能以T甚至于P来计量单位的数据，只靠一台机器真的能跑到地老天荒。

对于很多公司，这是无法接受的事情——我们都知道有各种热度排行，加入一台机器处理这个数据、计算热度、进行发布，可能一周之后出来结果，但大家早已经不关心了。

所以使用大量机器进行处理是必然的选择。在大量机器处理过程中，必须处理一些事务：任务分配、紧急情况处理、信息互通等等，这时候必须引入MapReduce / Tez / Spark 。这其中，前者可以成为计算引擎的第一代产品，后两者则是经过优化后的下一代。MapReduce采用了非常简单的计算模型设计，可以说只用了两个计算的处理过程，但是这个工具已经足够应付大部分的大数据工作了。

注意事项

以上就是大数据如何存储的全部内容，不可否认的是，大数据管理和存储正在迅速脱离物理机器的范畴，并迅速进入数字领域。除了所有技术的发展，大数据增长得更快，以这样的速度，世界上所有的机器和仓库都无法完全容纳它。

作者声明：本篇经验系本人依照真实经历原创，未经许可，谢绝转载。

大数据如何存储

大数据如何存储

注意事项

相关经验

环球网校