0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析中Spark,Hadoop,Hive框架该用哪种开源分布式系统

算法与数据结构 来源:算法与数据结构 作者:算法与数据结构 2020-09-17 13:17 次阅读

众所周知,大数据开发和分析、机器学习、数据挖掘中,都离不开各种开源分布式系统。最常见的就是 Hadoop、Hive、Spark这三个框架了。最近不少朋友有问到关于这些的问题:

大厂里还有在用 Hadoop 吗?感觉都在用 Spark,有些慌!

SQL boy 大厂面试都问什么?Hadoop、Spark、Flink 都搞过!

听说百度只用 Hadoop,为什么不用业界都在用的 Spark !

为什么百度不用SQL支持数据处理,还在写一堆 Hadoop 脚本!

Java 开发需要对大数据了解多少,Hbase、Hive、Spark 这些吗?

不同的业务场景决定了不同的系统架构选型。Hadoop 用于分布式存储和 Map-Reduce 计算,Spark 用于分布式机器学习,Hive 则是分布式数据库。Hive 和 Spark 是大数据领域内为不同目的而构建的不同产品。二者都有不可替代的优势。Hive 是一个基于Hadoop 的分布式数据库,Spark 则是一个用于数据分析的框架。

这就要求技术人不得不掌握各种开源的技术框架。这就会造成顾此失彼,学完易忘、易混淆的情况。为了解决这个问题,这里推荐给大家一个高效学习和开发的宝藏:一份大数据/分布式开发速查表。内容涵盖:Spark、Hadoop及Hive等日常工作中几乎所有的技术知识点。

对比详细却冗长的技术文档,速查表要显得更加便捷与直观。可以帮大家很轻松的从上面找到具体某项技术的快捷命令与语法,相信能大幅提升开发效率,同时,一些遗忘的知识点也都能通过速查表来快速获取。

由于篇幅原因,下面只展示了速查表的部分内容。无论你是学习进阶,还是日后温习,这套速查表资料都值得好好珍藏。



1.大数据内存计算框架之Spark 必知必会

学习 Spark ,从大方向说,算子大致可以分为以下两类: (1)Transformation 变换 / 转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发。 (2)Action 行动算子:这类算子会触发 SparkContext 提交 job 作业,并将数据输出到 Spark 系统。

Spark 必知必会:Transformation 算子

Spark 必知必会:Action算子

2.大数据分布式文件系统之Hadoop 必知必会

内容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 两种风格,都可使用,效果相同。

Hadoop 必知必会:Hadoop Shell

3.大数据分布式数据库之Hive必知必会

Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行,并可以针对数据仓库进行分布式交互查询。 内容包括:Hive 内置函数速查表,具体有关系、数学及逻辑运算符、数值计算、日期函数、条件函数、字符串函数、聚合函数、高级函数及窗口函数等。

Hive 必知必会:关系运算符

Hive 必知必会:数值计算

Hive 必知必会:字符串函数

原文标题:在百度,Spark,Hadoop,Hive ,哪个更香?

文章出处:【微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    764

    浏览量

    44127
  • 机器学习
    +关注

    关注

    66

    文章

    8416

    浏览量

    132616
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    15982
  • SPARK
    +关注

    关注

    1

    文章

    105

    浏览量

    19903
  • hive
    +关注

    关注

    0

    文章

    12

    浏览量

    3850

原文标题:在百度,Spark,Hadoop,Hive ,哪个更香?

文章出处:【微信号:TheAlgorithm,微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

    提供了async版本供该场景使用。 当前,wantParams“sessionId”字段在迁移流程中被系统占用,建议开发者在wantParams定义其他key值存储该分布式
    发表于 12-24 09:40

    raid 在大数据分析的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分
    的头像 发表于 11-12 09:44 247次阅读

    云计算在大数据分析的应用

    云计算在大数据分析的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析应用的介绍: 一、存储和处
    的头像 发表于 10-24 09:18 450次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化的作用 1.流量分析 大数据分析可以对网络的流量进行实时监测和分析
    的头像 发表于 10-09 15:32 235次阅读
    IP 地址<b class='flag-5'>大数据分析</b>如何进行网络优化?

    基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

    处理超大数据集。 Hadoop的生态系统非常丰富,包括许多相关工具和技术,如Hive、Pig、HBase等,这些工具可以方便地构建复杂的大数据
    的头像 发表于 10-08 15:12 156次阅读
    基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大数据</b>应用构建-提升<b class='flag-5'>数据</b>价值利用效能

    大数据从业者必知必会的Hive SQL调优技巧

    大数据从业者必知必会的Hive SQL调优技巧 摘要 :在大数据领域中,Hive SQL被广泛应用于数据仓库的
    的头像 发表于 09-24 13:30 255次阅读

    Spark基于DPU的Native引擎算子卸载方案

    1.背景介绍 Apache Spark(以下简称Spark)是一个开源分布式计算框架,由UC Berkeley AMP Lab开发,可用于
    的头像 发表于 06-28 17:12 580次阅读
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸载方案

    大数据分析平台网站

    大数据分析平台是一种用于处理和分析大规模数据集的系统,旨在从海量数据中提取有价值的信息和洞察。以下是大数
    的头像 发表于 06-28 15:46 666次阅读

    讯维分布式KVM坐席管理系统数据中心管理的应用与案例分析

    讯维分布式KVM坐席管理系统数据中心管理的应用,极大地提高了数据中心的运维效率和安全性。该系统
    的头像 发表于 05-16 16:27 522次阅读

    RDMA技术在Apache Spark的应用

    背景介绍 在当今数据驱动的时代,Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源
    的头像 发表于 03-25 18:13 1538次阅读
    RDMA技术在Apache <b class='flag-5'>Spark</b><b class='flag-5'>中</b>的应用

    大数据时代的存储革命:理解分布式存储系统

    管理的效率极低。因此,分布式存储系统应运而生。 分布式存储就是将数据存储在众多的服务器或网络节点上,而不是集中在单个位置。这种方式的好处包括:方便扩容、
    的头像 发表于 03-07 15:40 425次阅读

    分布式存储与计算:大数据时代的解决方案

    分布式存储和计算技术应运而生,并迅速成为处理大数据的首选方案。本文将深入探讨分布式存储和计算的概念、优势及其在各个领域的应用情况。 1.分布式存储和计算的概念与优势
    的头像 发表于 03-07 14:42 770次阅读

    Hadoop是什么?其核心由两大部分组成,分别是什么?

    Hadoop是一个开源分布式计算框架,它可以处理大规模数据集并能够在通常由计算机集群或者计算机网络上的数千台计算机上并行运行。
    的头像 发表于 02-05 10:52 1837次阅读

    分布式大屏控制系统的工作原理

    分布式大屏控制系统是一种基于分布式计算、云计算和大数据技术的控制系统,具有高效、稳定、灵活的特点。该系统
    的头像 发表于 01-29 14:24 755次阅读

    分布式IO工业自动化数据采集与分析的核心

    代替人工操纵机器和机器体系进行加工生产的趋势,分布式I/O可以与各种传感器、执行器和控制系统相连接,实现生产线的自动化控制。通过实时采集和传输数据分布式I/O能够精确控制生产过程
    发表于 12-28 14:47