windows 安装pyspark环境及pycharm配置

时间：2023-10-11 17:46:30浏览次数：45

标签：pyspark windows anaconda conda https pyspark3.6 pycharm 安装

1.安装JDK

https://www.cnblogs.com/whiteY/p/13332708.html

2.安装hadoop2.7

下载hadoop2.7.1安装包

链接: https://pan.baidu.com/s/1saGhaKbcvwrE4P3F5_UhZQ

提取码: 1234

解压到指定位置

3.下载winutils

链接: https://pan.baidu.com/s/1L1iRZQcmaw9voQEJzO4bmA

提取码: 1234

解压到指定位置

下载完成后找到相应的Hadoop版本，这里我们安装的是2.7.1

进入该目录，将bin目录下的所有内容复制，粘贴到Hadoop安装目录的bin目录下，添加或替换一些文件

配置Hadoop环境变量

首先配置HADOOP_HOME

然后配置Path，点击新建，浏览Hadoop目录

修改hadoop.env.cmd文件JAVA_HOME

打开Hadoop安装目录，我的是E:\pyspark_environment\hadoop-2.7.1\hadoop-2.7.1\etc\hadoop

找到hadoop.env.cmd文件，用记事本打开，修改下面的内容，可以使用相对路径，也可以使用绝对路径，这里使用绝对路径。

由于默认的jdk目录Program Files 有空格，所以修改为以上内容，点击保存。

4.安装python3.6

由于版本问题，使用Hadoop2.7和spark2.4版本只能使用python3.6，所以需要安装python3.6

下载路径

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

安装步骤

https://zhuanlan.zhihu.com/p/511233749

配置环境变量

创建虚拟环境并激活

conda create -n pyspark3.6 python=3.6

conda activate pyspark3.6

激活虚拟环境报错指南
https://blog.csdn.net/Pang_Yue__Fairy/article/details/103803645

测试

 conda --version

设置清华镜像


conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

5.下载spark

解压到指定位置

配置环境变量

同之前一样，需要配置SPARK_HOME和Path

拷贝pyspark

进入spark安装目录，我的是E:\pyspark_environment\spark-2.4.3-bin-hadoop2.7\spark-2.4.3-bin-hadoop2.7\python

将pyspark复制到Anaconda下的pyspark3.6目录下，我的是E:\anaconda\envs\pyspark3.6

6.安装py4j

在cmd进入scripts目录，我的是E:\anaconda\envs\pyspark3.6\Scripts，安装py4j

7.测试pyspark环境

打开cmd，输入spark-shell，出现以下内容说明配置成功。

或者打开pyspark

这里注意，首先要进行python版本切换，即切换到之前提到过的pyspark3.6环境

输入activate 环境名，可以看到左边有个括号，里面显示pyspark3.6，这就表明进入了3.6的环境

直接输入pyspark

8、PyCharm配置

创建项目

PyCharm的配置很简单，首先新建一个项目

起好名字之后，选择interpreter，这里选择Existing interpreter
找到pyspark3.6中的python.exe

测试代码（单词计数）

新建一个word.txt文件，里面随便写几个单词，用空格分隔

新建一个python文件，输入如下代码


from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("WordCount").setMaster("local")
sc = SparkContext(conf=conf)
inputFile = "word.txt"
textFile = sc.textFile(inputFile)
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
wordCount.foreach(print)

右键运行结果如下

标签：pyspark,windows,anaconda,conda,https,pyspark3.6,pycharm,安装
From： https://www.cnblogs.com/whiteY/p/17757780.html

安装windows11时卡在网络连接界面无法继续进行系统配置的处理方法
1、问题描述：windows11安装后第一次开机,系统在联网界面出现如下图情况，无法继续下一步。 2.解决方法1、断电重启电脑2、按shift+F10弹出管理员命令行窗口3、输入oobe\bypassnro回车，电脑重启4、在到联网界面时，点击“我没有Internet连接选项”就可以继续进行系统设置5、进......
Windows打开：控制面板\网络和 Internet\网络连接显示空白怎么办？
Windows打开：控制面板\网络和Internet\网络连接显示空白怎么办？最近有用户反馈遇到这个问题，问题产生原因：在卸载某个软件的时候，系统提示需要重新启动计算机，但是，启动之后，就出现了电脑不能联网，而且在控制面板\网络和Internet\网络连接中，显示为空白，正常情况下，这里面应该是有东西的......
linux服务器中文文件名打包之后到windows上解压乱码
0：背景，服务器文件名是gbk编码，使用tarczf 打包，然后在windows上解包其中的中文文件名乱码。1：最终方式 #zip-r20231010.zip20231010 在服务器上压缩整个目录（里面有中文文件名）在windows上使用360压缩进行解压。就可以解决乱码问题。2：踩过的坑2.1 不能使用tarczf 创建*t......
Qt_C++读写NFC标签Ntag支持windows国产linux操作系统
本示例使用的发卡器：ntag2标签存储结构说明#include"mainwindow.h"#include"./ui_mainwindow.h"#include<QDebug>#include"QLibrary"#include"QMessageBox"//本示例可在windows、linux系统内编译、运行//判断windows、linux系统，声明动态库函数---------------......
Windows更换默认远程端口3389
直接上方法：1、打开注册表2、打开路径“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer\Wds\rdpwd\Tds\tcp”，修改“PortNumber”4、打开路径“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer\WinStations\RDP-Tcp”，修改“Port......
MySQL5.7 windows安装
安装Mysql前： 1、如果：你（曾经安装过)，需要（先卸载干净），否则是（装不上）的。所以先谈（卸载）2、如果：你没有（安装过），这是（第一次安装），请直接看（第2部分）Mysql安装教程。1、Mysql彻底卸载分为三个步骤： 1、卸载Mysql(软件) 2、删除Mysql(残留文件) 3、删除mysql(注册表) 4、重启电......
在DC上使用管理员账号，激活系统时出现““Windows 无法访问指定设备、路劲或文件。你可
1.在增加语言选择是，也会遇到类似错误：2.在管理工具中，找到“本地安全策略”：3.进入本地策略->安全选项->用户帐户控制：用于内置管理员帐户的管理员批准模式 ->启用......
windows11获取不到IPv6的解决方法
「技巧」记录一下Win10系统更新后，无法获取IPv6的解决方法-知乎(zhihu.com)同时干了另一件事，就是升级了VMwarePlayer到最新版。重启后，获取到了IPv6......
winform-Windows控件概述
控件分类:文本类控件、选择类控件、分组控件、菜单控件、工具栏控件、状态栏控件控件命名规范: 控件的相关操作添加控件1、在窗口上绘制控件2、将控件拖拽到窗体上3、以编程的方式向窗体添加控件 ......
Windows下Cmake编译Poco库
C++Windows下使用Cmake编译Poco库1.编译前准备：先配置OpenSSL环境(opensslversion-a查看)如果openssl是1.0.*版本，Poco版本最高用1.9.4。如果1.1或者更高，用最新版本。2.编译命令(演示使用VS2022编译v140版本Win32的库)：cd..mkdircmake_build_x86cdcmake......

windows 安装pyspark环境及pycharm配置

1.安装JDK

2.安装hadoop2.7

3.下载winutils

配置Hadoop环境变量

修改hadoop.env.cmd文件JAVA_HOME

4.安装python3.6

测试

5.下载spark

配置环境变量

拷贝pyspark

6.安装py4j

7.测试pyspark环境

8、PyCharm配置

创建项目

测试代码（单词计数）

相关文章

赞助商

阅读排行