广州兄弟连教育

试听课 + 活动课
填写信息优先获取试听课

位置:学校首页 > 学校动态>广州学线上区块链哪家专业

广州学线上区块链哪家专业

本章学习目标

l 熟悉Hadoop的安装模式

l 掌握用Shell命令和Java 程序操作HDFS

l 理解HDFS架构的原理

l 理解Yarn架构的原理

Hadoop是一个开源框架,也是大数据主要框架之一。Hadoop核心的设计是:HDFS和MapReduce。其中,HDFS为海量数据提供了存储,MapReduce为海量数据提供了计算。Hadoop可以让用户在不了解分布式底层细节的情况下,根据需求进行应用程序开发。


3.1 Hadoop简介

3.1.1 什么是Hadoop

1. Hadoop概念

Hadoop是一个大数据分布式存储和分析框架。Hadoop旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储,充分体现了大数据集群进行高速运算和存储的特点。

2. Hadoop的产生和发展

Hadoop早起源于Nutch。Nutch

是一个Java实现的开源搜索引擎。Nutch的设计目标是构建一个大型的全网搜索引擎,这个搜索引擎包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的问题——如何存储数十亿个网页和对信息建立索引。

2003年、2004年谷歌发表的两篇论文为以上问题提供了解决方案。论文内容主要涉及以下两个框架。

(1)分布式文件系统(GFS),主要用于海量数据的存储。

(2)分布式计算框架(MapReduce),主要用于海量数据的索引计算问题。

Nutch的开发人员根据谷歌的GFS和MapReduce,完成了开源版本的NDFS和MapReduce。2006年2月,Nutch的NDFS和MapReduce发展成独立的项目Hadoop。

2008年,Hadoop成为Apache的项目。同年,Hadoop成为快的TB级数据排序系统。自此以后,Hadoop逐渐被企业应用于生产,处理大数据的速度越来越快。目前,Hadoop已经被主流企业广泛使用。

3.1.2

3.1.4 Hadoop生态圈的相关组件

除了HDFS、MapReduce 、Yarn核心组件,Hadoop生态圈的其他组件主要有Zookeeper、MySQL、Hive、Hbase、Flume、Sqoop。Hadoop生态圈各组件的含义,

领取试听课
温馨提示:为不影响您的学业,来校区前请先电话或QQ咨询,方便我校安排相关的专业老师为您解答
版权所有:搜学搜课(www.soxsok.com) 技术支持:搜学搜课网