位置:学校首页 > 学校动态>广州学线上区块链哪家专业
本章学习目标
l 熟悉Hadoop的安装模式
l 掌握用Shell命令和Java 程序操作HDFS
l 理解HDFS架构的原理
l 理解Yarn架构的原理
Hadoop是一个开源框架,也是大数据主要框架之一。Hadoop核心的设计是:HDFS和MapReduce。其中,HDFS为海量数据提供了存储,MapReduce为海量数据提供了计算。Hadoop可以让用户在不了解分布式底层细节的情况下,根据需求进行应用程序开发。
3.1 Hadoop简介
3.1.1 什么是Hadoop
1. Hadoop概念
Hadoop是一个大数据分布式存储和分析框架。Hadoop旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储,充分体现了大数据集群进行高速运算和存储的特点。
2. Hadoop的产生和发展
Hadoop早起源于Nutch。Nutch
是一个Java实现的开源搜索引擎。Nutch的设计目标是构建一个大型的全网搜索引擎,这个搜索引擎包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的问题——如何存储数十亿个网页和对信息建立索引。
2003年、2004年谷歌发表的两篇论文为以上问题提供了解决方案。论文内容主要涉及以下两个框架。
(1)分布式文件系统(GFS),主要用于海量数据的存储。
(2)分布式计算框架(MapReduce),主要用于海量数据的索引计算问题。
Nutch的开发人员根据谷歌的GFS和MapReduce,完成了开源版本的NDFS和MapReduce。2006年2月,Nutch的NDFS和MapReduce发展成独立的项目Hadoop。
2008年,Hadoop成为Apache的项目。同年,Hadoop成为快的TB级数据排序系统。自此以后,Hadoop逐渐被企业应用于生产,处理大数据的速度越来越快。目前,Hadoop已经被主流企业广泛使用。
3.1.2
3.1.4 Hadoop生态圈的相关组件
除了HDFS、MapReduce 、Yarn核心组件,Hadoop生态圈的其他组件主要有Zookeeper、MySQL、Hive、Hbase、Flume、Sqoop。Hadoop生态圈各组件的含义,