首页 > 其他分享 >PySpark本地开发环境搭建

PySpark本地开发环境搭建

时间:2024-11-06 20:16:28浏览次数:6  
标签:__ 路径 conf pyspark PySpark environ 本地 os 搭建

一.前置事项

请注意,需要先实现Windows的本地JDK和Hadoop的安装。

二.windows安装Anaconda

资源:Miniconda3-py38-4.11.0-Windows-x86-64,在window使用的Anaconda资源-CSDN文库

右键以管理员身份运行,选择你的安装路径,但是请注意最好文件路径不要有空格或者中文,并且要自己找得到。

然后傻瓜式安装即可。

三.Anaconda中安装PySpark

进入黑窗口,操作如下:

进入base环境中:
conda activate base
安装pyspark [此时的pyspark和pyspark命令不是一会儿事儿]
pip install pyspark==3.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

也可以使用阿里云的源:https://mirrors.aliyun.com/pypi/simple

中间如果遇到输入y或者n,就输入y

检查是否安装成功:

可以通过conda list或者pip list检查是否包含:py4j和 pyspark两个包。

 四.Pycharm中创建工程

如图:

大概介绍一下目前为止都在干什么:

Annaconda : 这个软件它包含了Python,并且可以安装各种环境,比如pyspark

PySpark : pip install pyspark==3.1.2 首先这个是pyspark的开发环境,这个软件安装在了 Annaconda里面,所以Annaconda 安装在了哪个盘,你这个pyspark 就在哪个盘。

pycharm: 这个是一个IDE工具,IDE工具关联了 本地的Annaconda,你这个Annaconda 里面有什么工具,pycharm 中就可以使用什么工具。

假如我没有在黑窗口安装这个pyspark ,就关联了pycharm ,请问,这个pycharm 如何才能有pyspark的环境?

那么继续,创建项目后来检查一下:

 看一下如下文件夹里面是否有py4j和pyspark:

有的话恭喜没有问题,那么继续下一步:

创建四个文件夹:
main :用于存放每天开发的一些代码文件
resources :用于存放程序中需要用到的配置文件
datas :用于存放每天用到的一些数据文件
test :用于存放测试时的一些代码文件 

 main和resource的创建后:

同理test选择test sources root,一样的操作不再放图了。

好的,那么准备工作已经完成,来写一个代码测试一下:

在main里新建一个Python文件然后:

import os

if __name__ == '__main__':
    print("你好")
    os.environ['JAVA_HOME'] = 'D:/Program Files/Java/jdk1.8.0_271'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'

请改成自己电脑里的配置。
获取SparkContext对象:
Spark中的核心类,任何一个Spark的程序都必须包含一个SparkContext类的对象

import os
# 导入pyspark模块
from pyspark import SparkContext,SparkConf

if __name__ == '__main__':
	# 配置环境
	os.environ['JAVA_HOME'] = 'D:/Program Files/Java/jdk1.8.0_271'
	# 配置Hadoop的路径,就是前面解压的那个路径
	os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1/hadoop-3.3.1'
	# 配置base环境Python解析器的路径
	os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径
	os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'

	# 获取 conf 对象
	# setMaster  按照什么模式运行,local  bigdata01:7077  yarn
	#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核
	#  appName 任务的名字
	conf = SparkConf().setMaster("local[*]").setAppName("第一个Spark程序")
	# 假如我想设置压缩
	# conf.set("spark.eventLog.compression.codec","snappy")
	# 根据配置文件,得到一个SC对象,第一个conf 是 形参的名字,第二个conf 是实参的名字
	sc = SparkContext(conf=conf)
	print(sc)


	# 使用完后,记得关闭
	sc.stop()

运行结果如下:

可见非常明显的问题,每次都要写入这固定的环境配置,非常麻烦,那么我们将它模板化:

配置完成后记得是要点击:

再退出,否则没有保存的话肯定用不了,

然后再次进行新建的时候:

就可以直接选择我们的模板了。非常的方便。

标签:__,路径,conf,pyspark,PySpark,environ,本地,os,搭建
From: https://blog.csdn.net/yyzzyyds/article/details/143578468

相关文章

  • Spark on YARN:Spark集群模式之Yarn模式的原理、搭建与实践
    Spark的介绍与搭建:从理论到实践-CSDN博客Spark的Standalone集群环境安装与测试-CSDN博客PySpark本地开发环境搭建与实践-CSDN博客Spark程序开发与提交:本地与集群模式全解析-CSDN博客目录一、SparkonYARN的优势(一)统一化资源管理(二)YARN调度机制的优势二、Spark......
  • Next 设置字体文件cdn 或者本地
    @font-face{font-family:'font-ali-bold';src:url('https://cdnurl/Alibaba-PuHuiTi-Bold.woff2')format('woff2');font-weight:normal;font-style:normal;}tailwind设置fontFamily 直接使用变量,  直接在className上写  font......
  • 有道领世视频课程下载工具,如何在电脑端下载有道领世视频课程到本地?
    一.安装有道领世课程下载器1.获取学无止下载器https://www.xuewuzhi.cn/ydshengxue_downloader2.下载安装后,然后点击桌面快捷方式运行即可。注意:杀毒软件可能会阻止外部exe文件运行,并将其当做成病毒,直接添加信任即可,本软件绝对没有木马病毒。二.使用说明1.学无止下载器介......
  • 跨区域大型医院的网络设计与搭建(网络工程毕业设计-拓扑+配置代码+文档)
    文章目录1.前言2.详细设计3.介绍3.1设计简介3.2拓扑图3.2路由协议选择3.2详细配置代码3.3安全性优化设计3.4故障恢复与冗余设计3.5总结4.获取设计1.前言......
  • 新媒体矩阵搭建:这七点一定要注意
    一、矩阵类型1、横向矩阵在同一个平台搭建多个账号。比如:在某音搭建多个不同的账号,把一个品类占领,客户只要一搜索品类关键词就会看见你。2、纵向矩阵在不同平台搭建账号,不同平台的用户受众不同,利于吸引不同群体,扩大影响力。每个平台的内容类型不同:有的重文章、有的......
  • Windows系统搭建ELK日志收集(详细版)
    一、ELK是什么?ELK是由Elasticsearch、Logstash、Kibana这3个软件的首字母缩写。ELK的大致工作顺序:应用程序产生log日志-->Logstash收集日志-->Logstash整理输出到Elasticsearch-->通过Kibana展示。ELK(Elasticsearch,Logstash,Kibana)是一个强大的开源数据分析和可视化平台,......
  • 利用本地docker镜像压缩包部署若依前后端分离框架
    前言:利用本地docker镜像压缩包部署若依前后端分离框架(制作镜像压缩包看上一篇文章),掌握docker基本操作,熟悉若依前后端分离部署一、部署环境1、把所需压缩包上传到ubuntu上,并加载为docker镜像链接:https://pan.baidu.com/s/15b2FkhUZhYECuGoClbltVg提取码:mv3h分别执行......
  • VS引用本地的NuGet包
    Step1.打包先选择项目/类库,进行打包。在输出中,找到打包的目录和文件。 Step2.本地创建一个文件夹用于放打包文件。Step3.添加包源打开VS-->工具 --> NuGet包管理器 --> 管理解决方案的NuGet程序包选择右上方:程序包源右侧的齿轮按钮在程序包源中,新增一条。名称:自......
  • 用nginx来实现搭建Hexo个人博客
    一、配置基础环境1.1关闭防火墙systemctlstopfirewalldsetenforce02.2配置阿里云yum源mkdirshell#创建shell目录cdshell#进入目录vialiyun.sh#创建名字为aliyun的文件名的shell脚本cataliyun.sh#查看,将以下内容填入#!/bin/bashr......
  • Docker搭建kafka集群
    Docker搭建kafka集群kafka中的基本概念broker:消息中间件处理节点,一个broker就是一个kafka节点,一个或者多个broker就组成了一个kafka集群topic:kafka根据topic对消息进行归类,发布到kafka集群的每个消息,都要指定一个topicproducer:消息生产者,向broker发送消息的客户端consumer:消......