Hadoop

Big Data概述

three types of big data

大数据的四个特征

大数据带来的技术变革

大数据的常用技术

大数据的典型应用

Hadoop概述

Hadoop:提供分布式的存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算,是一个分布式的系统基础架构,用户可以在不了解分布式底层细节的情况下进行使用。

模块

优势

历史

https://www.infoq.cn/article/hadoop-ten-years-interpretation-and-development-forecast

生态圈

hadoop_eco

常用版本

HDFS

Hadoop File System,负责分布式存储。

HDFS是GFS的克隆版,GFS源于Google的论文,发表于2003年。

特点:扩展性,容错性,海量数据存储。

举例:一个文件(200M),切分成两个块block(128M+72M),存在3个副本node上。即使一个node宕机,也不影响系统可用性。

node1:blk1
node2:blk2
node3:blk1  blk2

基本架构如下:

hadoop_arch

Map Reduce

Map Reduce,负责分布式计算。

Map Reduce是Google Map Reduce的克隆版,源自Google Map Reduce论文,发表于2014年。

特点:扩展性,容错性,海量数据离线处理。

经典案例word count:

hadoop_mapreduce

Yarn

Yet Another Resource Negotiator,负责整个集群资源的管理和调度。

特点:扩展性,容错性,多框架资源统一调度。

hadoop_yarn

Fork me on GitHub