广州学线上区块链哪家专业

本章学习目标

l 熟悉Hadoop的安装模式

l 掌握用Shell命令和Java 程序操作HDFS

l 理解HDFS架构的原理

l 理解Yarn架构的原理

Hadoop是一个开源框架，也是大数据主要框架之一。Hadoop核心的设计是：HDFS和MapReduce。其中，HDFS为海量数据提供了存储，MapReduce为海量数据提供了计算。Hadoop可以让用户在不了解分布式底层细节的情况下，根据需求进行应用程序开发。

3.1 Hadoop简介

3.1.1 什么是Hadoop

1. Hadoop概念

Hadoop是一个大数据分布式存储和分析框架。Hadoop旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储，充分体现了大数据集群进行高速运算和存储的特点。

2. Hadoop的产生和发展

Hadoop早起源于Nutch。Nutch

是一个Java实现的开源搜索引擎。Nutch的设计目标是构建一个大型的全网搜索引擎，这个搜索引擎包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的问题——如何存储数十亿个网页和对信息建立索引。

2003年、2004年谷歌发表的两篇论文为以上问题提供了解决方案。论文内容主要涉及以下两个框架。

(1)分布式文件系统(GFS)，主要用于海量数据的存储。

(2)分布式计算框架(MapReduce)，主要用于海量数据的索引计算问题。

Nutch的开发人员根据谷歌的GFS和MapReduce，完成了开源版本的NDFS和MapReduce。2006年2月，Nutch的NDFS和MapReduce发展成独立的项目Hadoop。

2008年，Hadoop成为Apache的项目。同年，Hadoop成为快的TB级数据排序系统。自此以后，Hadoop逐渐被企业应用于生产，处理大数据的速度越来越快。目前，Hadoop已经被主流企业广泛使用。

3.1.2

3.1.4 Hadoop生态圈的相关组件

除了HDFS、MapReduce 、Yarn核心组件，Hadoop生态圈的其他组件主要有Zookeeper、MySQL、Hive、Hbase、Flume、Sqoop。Hadoop生态圈各组件的含义，

领取试听课

温馨提示：为不影响您的学业，来校区前请先电话或QQ咨询，方便我校安排相关的专业老师为您解答

在线客服为您服务

目录导航