0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MapReduce和Spark概要介绍

RG15206629988 来源:行业学习与研究 2023-03-20 09:24 次阅读

一、MapReduce

(1)MapReduce概要介绍

MapReduce是一种编程模型,可用于大规模数据集(数据量大于1TB的数据集)的并行运算(根据百度百科:并行运算是一种一次可执行多个指令的算法,可提高计算速度)。MapReduce可使程序的并行运算更加简单。

Map(映射)是于各个节点对本地数据的预处理操作。 Reduce(归约)是将Map预处理操作后的数据汇总。Reduce可使编程人员不必关心如何实现分布式并行程序,基于Reduce,编程人员可只关注业务数据处理。

(2)处理模型

MapReduce框架负责处理并行计算中的复杂问题,包括:分布式存储、作业调度、负载均衡、容错处理、网络通信等。

MapReduce的处理流程如图一所示。

首先,数据在数据节点被划分为数据块(个人理解:数据块即图一中的split),MapReduce确定待处理的数据块数量并确定每个记录(个人理解:此处记录可被理解关系数据库的一行数据)在数据块中的位置;

然后,划分后的数据块作为Map的输入;

再然后,Map的输出数据需要经过sort(个人理解:分类)、copy(个人理解:复制)、merge(个人理解:合并)操作成为Reduce的输入,Reduce的输入数据间没有交集,系统中处于Reduce运行的节点的数量等于merge操作后的数据数量;

最后,输出Reduce运行后的数据。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》

二、Spark

(1)Spark概要介绍

Spark是针对大规模数据处理的快速通用引擎,其功能是类似MapReduce的计算引擎。

(2)Spark的特点

1)计算速度快。Spark计算速度是Hadoop计算速度的一百倍。

2)可用性高。Spark可使用JavaPython、R、SQL等编程语言。

3)通用性。Spark由一系列解决处理复杂问题的组件构成,可处理多种类型有关数据库的复杂问题。

4)可运行于多种环境中,运行环境包括Hadoop等。

图片来源:学堂在线《大数据导论》

(3)Spark的体系架构

1)Cluster Manager:Cluster Manager是主节点,控制整个集群,监控 Worker Node。

2)Worker Node:Worker Node是从节点,负责控制计算节点,启动Executor 或者Driver

3)Driver:运行Application(个人理解:此处Application指某一应用)的main()函数

4)Executor:为Application运行Worker Node上的一个进程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

(4)RDD

RDD(Resilient Distributed Dataset)被称为弹性分布式数据集,利用SparkContext实例(根据网络资料理解:每个SparkContext实例是Spark的一个应用)创建的对象均为RDD。RDD是不可变、可分区、其内部元素可并行计算的集合,数据可在RDD中运行RDD的自有函数。

RDD的函数被称为RDD算子,RDD算子分为Transformation和Action两种类型。Transformation具有类似于MapReduce的功能,Action的功能包括:触发RDD计算、统计RDD元素个数等。

RDD的特点包括:自动容错、位置感知性调度、可伸缩性(个人理解:数据量的多少对RDD的运行影响较小)、可在已有RDD的基础上创建新的RDD、延迟执行(延迟执行即Transformation只有在Action被触发后才执行)。

另外,RDD允许用户在执行多个查询时可将工作集缓存在内存中,后续的查询可重用工作集,可提升查询速度。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    763

    浏览量

    44125
  • 编程语言
    +关注

    关注

    10

    文章

    1944

    浏览量

    34728
  • RDD
    RDD
    +关注

    关注

    0

    文章

    7

    浏览量

    7972
  • SPARK
    +关注

    关注

    1

    文章

    105

    浏览量

    19902
  • MapReduce
    +关注

    关注

    0

    文章

    45

    浏览量

    6299

原文标题:大数据相关介绍(22)——MapReduce和Spark

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IEEE2030.5概要

    IEEE 2030.5IEEE 2030.5(Smart Energy Profile 2.0,SEP2)是一种智慧能源管理通信协议,最早由ZigBee联盟开发。2013年IEEE在SEP2基础上开发了IEEE2030.5。IEEE2030.5是一个应用层协议,支持TCP/IP。IEEE2030.5支持多种物理层接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 从Phase 2开始规定:电网运营商和分布式能源之间互操作需要通信支持,以保障公用事业单位能够远程管理和控制分布式能源。加州 Rule 21规定采用IEEE2030.5协议进行通信。IEEE2030.5 CSIP为采用IEEE230.5的详细实施指南。SunSpec Alliance负责CA Rule 21 Certification Program,即IEEE2030.5 CSIP实施指南的认证。
    的头像 发表于 11-21 14:44 256次阅读
    IEEE2030.5<b class='flag-5'>概要</b>

    spark为什么比mapreduce快?

    spark为什么比mapreduce快? 首先澄清几个误区: 1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的 2;DAG计算模型
    的头像 发表于 09-06 09:45 263次阅读

    PGA309正常只校准一个温度点大概要多久时间呢?

    目前我采用的PGA309USB-EVM单个校准压力传感器,我只校准一个常温25摄氏度的温度,我发现校准的时候全部过程都要跑一遍,这样时间需要花费几分钟(不需要等温度达到25 的时间),请问正常只校准一个温度点大概要多久时间呢?盼回复。感谢!
    发表于 08-16 07:13

    广汽能源与泰国Spark EV签订合作框架协议

    近日,广汽能源科技(泰国)有限公司与Spark EV Co.Ltd.宣布达成重要合作,双方共同签署了一项合作框架协议,旨在泰国境内全面布局并运营超级充电场站,为新能源汽车的普及与发展注入强劲动力。
    的头像 发表于 07-19 17:08 864次阅读

    spark运行的基本流程

    前言: 由于最近对spark的运行流程非常感兴趣,所以阅读了《Spark大数据处理:技术、应用与性能优化》一书。通过这本书的学习,了解了spark的核心技术、实际应用场景以及性能优化的方法。本文旨在
    的头像 发表于 07-02 10:31 405次阅读
    <b class='flag-5'>spark</b>运行的基本流程

    Spark基于DPU的Native引擎算子卸载方案

    1.背景介绍 Apache Spark(以下简称Spark)是一个开源的分布式计算框架,由UC Berkeley AMP Lab开发,可用于批处理、交互式查询(Spark SQL)、实
    的头像 发表于 06-28 17:12 579次阅读
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸载方案

    关于Spark的从0实现30s内实时监控指标计算

    前言 说起Spark,大家就会自然而然地想到Flink,而且会不自觉地将这两种主流的大数据实时处理技术进行比较。然后最终得出结论:Flink实时性大于Spark。 的确,Flink中的数据计算
    的头像 发表于 06-14 15:52 444次阅读

    Spark+Hive”在DPU环境下的性能测评 | OLAP数据库引擎选型白皮书(24版)DPU部分节选

    在奇点云2024年版《OLAP数据库引擎选型白皮书》中,中科驭数联合奇点云针对Spark+Hive这类大数据计算场景下的主力引擎,测评DPU环境下对比CPU环境下的性能提升效果。特此节选该章节内容,与大家共享。
    的头像 发表于 05-30 16:09 522次阅读
    “<b class='flag-5'>Spark</b>+Hive”在DPU环境下的性能测评 | OLAP数据库引擎选型白皮书(24版)DPU部分节选

    2024 Allegro X 23.1.1 版本更新——亮点概要

    近日,AllegroX软件最新发布了一系列的产品更新(23.1.1)。接下来,我们将陆续介绍各个产品更新亮点。之后每周更会通过实例讲解、视频演示让您详细、深入
    的头像 发表于 05-25 08:12 6054次阅读
    2024 Allegro X 23.1.1 版本更新——亮点<b class='flag-5'>概要</b>

    如何利用DPU加速Spark大数据处理? | 总结篇

    一、总体介绍 1.1 背景介绍 近年来,随着存储硬件的革新与网络技术的突飞猛进,如NVMe SSD和超高速网络接口的普及应用,I/O性能瓶颈已得到显著改善。然而,在2020年及以后的技术背景下,尽管
    的头像 发表于 04-02 13:45 1054次阅读
    如何利用DPU加速<b class='flag-5'>Spark</b>大数据处理? | 总结篇

    Spark基于DPU Snappy压缩算法的异构加速方案

    一、总体介绍 1.1 背景介绍 Apache Spark是专为大规模数据计算而设计的快速通用的计算引擎,是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些不同之处使
    的头像 发表于 03-26 17:06 794次阅读
    <b class='flag-5'>Spark</b>基于DPU Snappy压缩算法的异构加速方案

    RDMA技术在Apache Spark中的应用

    背景介绍 在当今数据驱动的时代,Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源的分布式计算系统,Spark因其高效的大数据处理能力而在各行各业中广受欢迎。无论是金融服务
    的头像 发表于 03-25 18:13 1537次阅读
    RDMA技术在Apache <b class='flag-5'>Spark</b>中的应用

    基于DPU和HADOS-RACE加速Spark 3.x

    背景简介 Apache Spark(下文简称Spark)是一种开源集群计算引擎,支持批/流计算、SQL分析、机器学习、图计算等计算范式,以其强大的容错能力、可扩展性、函数式API、多语言支持(SQL
    的头像 发表于 03-25 18:12 1348次阅读
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x

    MA35D1 buildroot编译大概要多长时间?

    请问一下,buildroot编译大概要多长时间? yocto编译大概要多长时间?
    发表于 01-15 06:17

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行
    的头像 发表于 01-09 10:41 585次阅读
    米哈游大数据云原生实践