西安博为峰Java培训学校

试听课 + 活动课
填写信息优先获取试听课

位置:学校首页 > 学校动态>西安有专业的大数据培训机构比较好吗

西安有专业的大数据培训机构比较好吗

ApacheSpark生态系统的组件

ApacheSpark生态系统由各种ApacheSpark组件组成,这些组件负责ApacheSpark的功能。有时会在ApacheSpark的组件中进行一些修改。这是构成ApacheSpark生态系统的ApacheSpark的5个组件。

SparkCore

Spark平台的主要执行引擎称为SparkCore。ApacheSpark的所有工作和功能都取决于SparkCore,包括内存管理,任务调度,故障恢复等。它支持在内存中处理和引用外部存储系统中的大数据。SparkCore负责通过API定义RDD(弹性分布式数据集),该API是Spark的编程抽象。

SparkSQL和DataFrames

SparkSQL是Spark的主要组件,可与结构化数据一起使用并支持结构化数据处理。SparkSQL附带了一个称为DataFrames的抽象数据集合。SparkSQL通过SQL和HQL(Hive查询语言,SQL的ApacheHive版本)对数据执行查询。SparkSQL使开发人员能够将SQL查询与不同语言的RDD支持的经处理的编程数据结合在一起。SQL与计算介质的这种集成将SQL与复杂的分析结合在一起。

SparkStreaming

此Spark组件负责实时流数据处理,例如生产Web服务器创建的日志文件。它提供用于处理数据流的API,从而使学习ApacheSpark项目变得容易。它还有助于从一个应用程序切换到另一个执行实时操作和存储数据的应用程序。与SparkCore一样,此组件还负责吞吐量,可伸缩性和容错能力。

MLlib

MLlib是Spark的内置库,其中包含机器学习功能,即MLlib。它提供了各种ML算法,例如聚类,分类,回归,协作过滤和支持功能。MLlib还包含许多底层的机器学习原语。SparkMLlib比基于ApacheApacheMahout的基于Hadoop磁盘的版本快9倍。

GraphX

GraphX是启用图形计算的库。GraphX还通过允许用户使用边和顶点的任意属性生成有向图来提供执行图形计算的API。除了用于处理图形的库外,GraphX还为图形计算提供了许多运算符。


领取试听课
温馨提示:为不影响您的学业,来校区前请先电话或QQ咨询,方便我校安排相关的专业老师为您解答
版权所有:搜学搜课(www.soxsok.com) 技术支持:搜学搜课网