首页编程正文内容

将Spark的技术框架讲明白了

编程

更新时间：2025-07-27 03:59:04 53

admin 管理员组

文章数量: 1087976

2024年6月11日发(作者：html怎么在图片上添加文字)

Spark是加州大学伯克利分校的AMP实验室开源的类似MapReduce的通用并行

计算框架，拥有MapReduce所具备的分布式计算的优点。但不同于MapReduce

的是，Spark更多地采用内存计算，减少了磁盘读写，比MapReduce性能更高。

同时，它提供了更加丰富的函数库，能更好地适用于数据挖掘与机器学习等分析算

法。

Spark在Hadoop生态圈中主要是替代MapReduce进行分布式计算，如下

图所示。同时，组件SparkSQL可以替换Hive对数据仓库的处理，组件Spark

Streaming可以替换Storm对流式计算的处理，组件Spark ML可以替换

Mahout数据挖掘算法库。

Spark在Hadoop生态圈中的位置

01

Spark的运行原理

如今，我们已经不再需要去学习烦琐的MapReduce设计开发了，而是直接上

手学习Spark的开发。这一方面是因为Spark的运行效率比MapReduce高，

另一方面是因为Spark有丰富的函数库，开发效率也比MapReduce高。

首先，从运行效率来看，Spark的运行速度是Hadoop的数百倍。为什么会有

如此大的差异呢？关键在于它们的运行原理，Hadoop总要读取磁盘，而

Spark更多地是在进行内存计算，如下图所示。

Hadoop的运行总是在读写磁盘

前面谈到，MapReduce的主要运算过程，实际上就是循环往复地执行Map与

Reduce的过程。但是，在执行每一个Map或Reduce过程时，都要先读取磁

盘中的数据，然后执行运算，最后将执行的结果数据写入磁盘。因此，

MapReduce的执行过程，实际上就是读数据、执行Map、写数据、再读数

据、执行Reduce、再写数据的往复过程。这样的设计虽然可以在海量数据中减

少对内存的占用，但频繁地读写磁盘将耗费大量时间，影响运行效率。

本文标签：计算运行磁盘

版权声明：本文标题：将Spark的技术框架讲明白了内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1718100115a717010.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

linux服务器磁盘满了怎么办

编程

6月前

方法一步骤一：遇到磁盘空间不足的报错时候，首先使用df -h查看磁盘空间使用情况，如图homezhang目录磁盘空间达到100%。步骤二：进入

【原创】简单介绍 Windows XP 中的chkdsk（checkdisk磁盘检查）工具

编程

6月前

起因电脑一开开机。哎哟我去，这什么情况？猛然发现电脑好像蓝屏了。难道我的电脑中病毒了？仔细一看，这个跟蓝屏的颜色好像不太一样。蓝屏的颜色是深蓝色，而我这次电脑开机的蓝屏好像是浅蓝色。。。有点意思这个上面貌似有个倒计时5秒，5秒完

【转】解决双系统下Ubuntu无法访问windows磁盘的问题

编程

5月前

作者：widiot8023 来源：CSDN 原文：https:blog.csdnWhite_Idiotarticledetails78014925 问题描述在U

磁盘显示RAW格式，格式化磁盘时显示磁盘写保护（已解决）

编程

5月前

遇到了这个问题，就简单记录一下，（注意，此方法会导致磁盘数据丢失，谨慎使用） 首先开始菜单找到Window

Linux磁盘与文件系统管理

编程

5月前

磁盘与文件系统管理这部分内容太多，看了两遍，东西是弄明白了，但东西太多写的时候无从下手，网上查了半天也找不到好的文章参考，看到的还

Linux(CentOS)磁盘与文件系统管理

编程

5月前

磁盘与文件系统管理这部分内容太多，看了两遍，东西是弄明白了，但东西太多写的时候无从下手，网上查了半天也找不到好的文章参考，看到的还

让chatGPT当我的老师如何？通过和chatGPT交互式学习，了解在ES中，一条JSON数据是如何写到磁盘上的

编程

5月前

最近一直有一个问题，如鲠在喉。争取早一天解决，早一天踏踏实实的睡觉。问题是：在ES中，一条JSON数据是如何写入到磁盘上的？ 如

重装系统win10提示磁盘布局不受UEFI固件支持怎么办

编程

5月前

原因分析： Win10系统新增UEFI检测机制，在BIOS开启了UEFI时，如果硬盘分区表格式不是GPT，则会提示无法重装系统win10&#x

mac high sierra开机按option怎么只有一个磁盘_Mac重装系统系列教程(二)：网络在线重装系统...

编程

5月前

今天我们先来解决第二个问题：网络在线重装怎么操作？ 在介绍具体操作步骤之前，为了方便大家理解我的表达，我们先来达成几个「共识」：

操作系统（四）补充---DOS微软磁盘操作系统

编程

5月前

dos，是磁盘操作系统的缩写，是个人计算机上的一类操作系统。从1981年直到1995年的15年间，磁盘操作系统在IBM PC 兼容机市场中占有举足轻重的地位。而且&#

Mac装双系统选择不了磁盘

编程

5月前

错误：在安装Mac双系统时，出现了无法选择安装磁盘的情况；总结：在安装双系统时，除了FAT格式的安装盘外，不要再插入其他硬盘等，电脑会识别不了，出现选择不了磁盘的问题；文件>应用程序>实用工具>bootcam

关于删除双系统时误删Windows的boot，引导修复时磁盘被锁的解决方案

编程

5月前

前言笔者之前因为要学习Ubuntu的开发，装了双系统，现在想使用虚拟机觉得方便一些，于是昨晚准备删除Ubuntu的系统，在最后删除启动程序时&

centos检测不到磁盘_CentOS下磁盘坏道的检测及修复

编程

5月前

用badblocks检测硬盘坏道硬盘是一个损耗设备，当使用一段时间后可能会出现坏道等物理故障。电脑硬盘出现坏道后，如果不及时更换或进行技术处理，坏道就会越来越多&#

文件损坏无法删除怎么使用chkdsk磁盘修复工具

编程

5月前

有时候我们会遇到文件无法删除的问题，该如何解决。对于专业人士可能比较简单。对于小白，就够折腾人的了。下面分享下我是怎么做的。很简单很实用。现象：此时哪里有损坏&

电脑修复后，一直进行磁盘检查，导致启动很慢（已解决）

编程

5月前

原因：昨天由于电脑没有正常关机，再次开机直接进入了bois，今天修复了过来，但是傍晚重启的时候发现每次启动都需要磁盘检查，这就很难

U盘、移动硬盘突然提示磁盘结构损坏且无法读取怎么办？

编程

5月前

问题背景：买电子设备被送了一个USB2.0的U盘（可能本身质量较差），在插拔使用5,6次之后突然提示----（如下图‘位置不可用’

安装window10出错：选中的磁盘具有 MBR 分区表。在 EFI 系统上，Windows只能安装到GPT磁盘。

编程

4月前

title: Windows无法安装到这个磁盘。选中的磁盘具有 MBR 分区表。在 EFI 系统上，Windows只能安装到GPT磁盘。 date: 2020-03-30 tags: 随笔 categories: 生活

硬盘分区工具王者争霸！10大「磁盘黑科技」实战测评：一键扩容加密救数据，零门槛玩转10TB大硬盘

编程

3月前

🏆全能分区双雄：新手闭眼入 🔧 ‌奇客分区大师‌ ✅ ‌小白友好度MAX‌：自带交互式教程，手把手教你分区合并 ✅ ‌SS

Linux 与windows之间目录或磁盘映射操作

编程

3月前

一、将Linux中的目录映射为Windows中的磁盘 1、实现windows访问普通Linux共享目录 step1 安装smba step2 配置一个windows通过samba访问Linux目录时，需要用到的用户名

U盘启动盘安装系统，使用Diskpart命令对磁盘进行分区

编程

2月前

步骤一：点击修复计算机步骤二：点击命令提示符步骤三：在命令提示符窗口内输入【diskpart】命令并按下【Enter】键，输入以下命令&#x

发表评论

全部评论 0

暂无评论

推荐文章

php - Differences: View Page Source vs. View in Firebug - Stack Overflow

javascript - Fabric JS: Set X Y Coordinates in Canvas Image | Set Position in Canvas Image - Stack Overflow

探索高效之旅：华为擎云L410系统安装指南全解析

华为路由器远程登陆之ssh

Windows下pc-lint下载安装以及搭建环境检查Linux下开发的工程代码

热门文章

最新文章