一、Spark框架概述

1.1 spark是什么

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。
弹性分布式数据集RDD:RDD 是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也是整个 Spark 的核心数据结构，Spark 整个平台都围绕着RDD进行。

1.2 spark的运行模式

1.3 spark的运行角色

二、环境搭建

1.首先打开hadoop102号虚拟机，进入到 /opt/software 目录下上传下载好的 Miniconda3-py39_4.10.3-Linux-x86_64.sh 安装包和 spark-3.2.0-bin-hadoop3.2.tgz 压缩包。
2.执行命令： sh ./Miniconda3-py39_4.10.3-Linux-x86_64.sh 命令下载miniconda，然后按回车，出现一堆授权信息，不用看直接按空格直到出现询问是否接受授权信息，然后输入yes并回车，同意后它会继续询问你miniconda的安装位置，输入位置 /opt/software/miniconda3 并回车，等待安装，成功后会询问你是否对miniconda进行初始化，输入yes回车，出现 Thank you for installing Miniconda3! 即为安装成功！
3.然后咱们关闭虚拟机再重新打开虚拟机，即可看到base环境了，输入python即可查看到python的版本，输入命令 exit() 后退出，创建一个名为pyspark的虚拟环境供我们学习使用。首先输入命令： conda create -n pyspark python=3.8 , 出现提示后输入 y ，等待一会后即创建虚拟环境成功。然后输入命令 conda activate pyspark 检验虚拟环境能否切换，进入成功即可。
4.(注意在pyspark的环境下执行)现在开始安装spark，首先进入到目录 /opt/software/ 下输入命令： tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz 命令，进行解压。解压好后输入命令： mv spark-3.2.0-bin-hadoop3.2/ spark-3.2.0 进行改名方便后续配置环境变量。

标签：入门,pyspark,3.2,回车,spark,Spark,输入
From： https://www.cnblogs.com/konglong-cm/p/17591232.html

实时嵌入式Linux设备基准测试快速入门3实时嵌入式Linux
第3章实时嵌入式Linux计算机系统与环境之间的交互通常是实时发生的，因此，对于作为计算机系统一部分的嵌入式设备来说，有关实时操作系统的讨论也是一个重要话题。本章将讨论实时系统的特点，介绍在Linux嵌入式设备上实现实时性的主要方法。具体来说，本章将重点分析PREEMPT_RT内核补丁，该......
正点原子Ubuntu入门016---shell脚本条件判断、函数和循环
一、shell脚本的条件判断虽然可以通过&&和||来实现简单的条件判断，但是稍微复杂的就不行了shell脚本呢提供了if then 条件判断语句，写法：if条件判断；then//判断条件成立要做的事情fi ifthenelse语法 if条件判断；then//判断条件成立要做的事情e......
python数据分析师入门-学习笔记（第十节数据获取）
工具使用Anaconda官网下载安装一路next(默认就行)Chrome默认安装就行打开jupyternotebook打开anacondaprompt输入jupyternotebook系统自动打开一个网页快手掌握开发工具模式：代码模式markdown模式快捷键h查看所有快捷键esc编辑状态切换......
python数据分析师入门-学习笔记（第九节爬虫的核心流程）
学习链接：Python数据分析师入门爬虫的核心流程明确目标汽车成交量汽车评论信息汽车提车分享信息搜寻哪些网站或APP有我们要的资源汽车之家懂车帝易车分析数据所在位置，加载方式直接加载的额外的网络请求数据获取使用代码驱动APP或浏览器自己分析请求......
python数据分析师入门-学习笔记（第八节 python爬虫的准备工作）
学习链接：Python数据分析师入门python爬虫的准备工作一台电脑尽量windows电脑语言环境编程语言爬虫并不是python独有Python开发环境Anaconda了解爬虫的实现和原理用代码去控制终端用代码直接发送请求CS(客户端服务器)/BS(浏览器服务器)模型CS/BS浏览......
科研入门 | 用心做学术
修改论文工具：latexdiff；文献管理软件：Zotero/Endnote；知识管理软件： Obsisdan很好用；另外，在修改论文时，为了提高效率，不妨考虑使用在线版本控制软件：Overleaf或腾讯文档。（前者更适用于用LaTex写的文章，后者适合用其他办公软件写的文章。）......
HTML入门学习
前言HTML5是HTML规范的最新版本，是一系列用来制作现代web内容技术的总称。其中最重要的三项技术是HTML5核心规范、CSS、Javascript。本文章将从HTML基础入手。一、HTML是什么？HTML（HyperTextMarkupLanguage，超文本标记语言）是用来描述网页的一种语言，它不是一种编程语言，而是一种标记......
python数据分析师入门-学习笔记（第七节爬虫如何搞钱）
学习链接：Python数据分析师入门爬虫如何搞钱入职企业，找一份爬虫工程师的岗位抢购最火的茅台电商平台秒杀羊毛出自猪身上看小说（投放广告）引流比价购物助手点赞、收藏、刷粉丝、刷评论、刷播放量核心资源的整合......
CDP7环境下使用SparkSQL Shell方式
相信很多在用CDP7的小伙伴都遇到了Spark里面不再支持spark-sql的问题这里给出两种解决方案：spark-submit与spark-shellcloudera官方给的解决方案https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/developing-spark-applications/topics/spark-sql-example.html基于这个方案，......
python数据分析师入门-学习笔记（第六节爬虫合法吗）
学习链接：Python数据分析师入门爬虫合法吗机器人协议robots.txt协议中规定了哪些内容可以获取，哪些内容不能获取通常协议中会标明哪些不让爬baidu.com/robots.txttaobao.com/robots.txt君子协议未标注是否可以爬取历史上哪些工程师被抓有一家公司被一锅端工程......

Spark入门

一、Spark框架概述

1.1 spark是什么

1.2 spark的运行模式

1.3 spark的运行角色

二、环境搭建

相关文章

赞助商

阅读排行