首页 > 系统相关 >windows 安装pyspark环境及pycharm配置

windows 安装pyspark环境及pycharm配置

时间:2023-10-11 17:46:30浏览次数:45  
标签:pyspark windows anaconda conda https pyspark3.6 pycharm 安装

1.安装JDK

https://www.cnblogs.com/whiteY/p/13332708.html

2.安装hadoop2.7

下载hadoop2.7.1安装包

链接: https://pan.baidu.com/s/1saGhaKbcvwrE4P3F5_UhZQ

提取码: 1234

解压到指定位置

3.下载winutils

链接: https://pan.baidu.com/s/1L1iRZQcmaw9voQEJzO4bmA

提取码: 1234

解压到指定位置

下载完成后找到相应的Hadoop版本,这里我们安装的是2.7.1

进入该目录,将bin目录下的所有内容复制,粘贴到Hadoop安装目录的bin目录下,添加或替换一些文件

配置Hadoop环境变量

首先配置HADOOP_HOME

然后配置Path,点击新建,浏览Hadoop目录

修改hadoop.env.cmd文件JAVA_HOME

打开Hadoop安装目录,我的是E:\pyspark_environment\hadoop-2.7.1\hadoop-2.7.1\etc\hadoop

找到hadoop.env.cmd文件,用记事本打开,修改下面的内容,可以使用相对路径,也可以使用绝对路径,这里使用绝对路径。

由于默认的jdk目录Program Files 有空格,所以修改为以上内容,点击保存。

4.安装python3.6

由于版本问题,使用Hadoop2.7和spark2.4版本只能使用python3.6,所以需要安装python3.6

下载路径

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

安装步骤

https://zhuanlan.zhihu.com/p/511233749

配置环境变量

创建虚拟环境并激活

conda create -n pyspark3.6 python=3.6

conda activate pyspark3.6 

激活虚拟环境报错指南
https://blog.csdn.net/Pang_Yue__Fairy/article/details/103803645

测试

 conda --version

设置清华镜像


conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

5.下载spark

解压到指定位置

配置环境变量

同之前一样,需要配置SPARK_HOME和Path

拷贝pyspark

进入spark安装目录,我的是E:\pyspark_environment\spark-2.4.3-bin-hadoop2.7\spark-2.4.3-bin-hadoop2.7\python

将pyspark复制到Anaconda下的pyspark3.6目录下,我的是E:\anaconda\envs\pyspark3.6

6.安装py4j

在cmd进入scripts目录,我的是E:\anaconda\envs\pyspark3.6\Scripts,安装py4j

7.测试pyspark环境

打开cmd,输入spark-shell,出现以下内容说明配置成功。

或者打开pyspark

这里注意,首先要进行python版本切换,即切换到之前提到过的pyspark3.6环境

输入activate 环境名 ,可以看到左边有个括号,里面显示pyspark3.6,这就表明进入了3.6的环境

直接输入pyspark

8、PyCharm配置

创建项目

PyCharm的配置很简单,首先新建一个项目

起好名字之后,选择interpreter,这里选择Existing interpreter
找到pyspark3.6中的python.exe

测试代码(单词计数)

新建一个word.txt文件,里面随便写几个单词,用空格分隔

新建一个python文件,输入如下代码


from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("WordCount").setMaster("local")
sc = SparkContext(conf=conf)
inputFile = "word.txt"
textFile = sc.textFile(inputFile)
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
wordCount.foreach(print)


右键运行结果如下

标签:pyspark,windows,anaconda,conda,https,pyspark3.6,pycharm,安装
From: https://www.cnblogs.com/whiteY/p/17757780.html

相关文章

  • 安装windows11时卡在网络连接界面无法继续进行系统配置的处理方法
    1、问题描述:windows11安装后第一次开机,系统在联网界面出现如下图情况,无法继续下一步。 2.解决方法1、断电重启电脑2、按shift+F10弹出管理员命令行窗口3、输入oobe\bypassnro回车,电脑重启4、在到联网界面时,点击“我没有Internet连接选项”就可以继续进行系统设置5、进......
  • Windows打开:控制面板\网络和 Internet\网络连接 显示空白怎么办?
    Windows打开:控制面板\网络和Internet\网络连接  显示空白怎么办?最近有用户反馈遇到这个问题,问题产生原因:在卸载某个软件的时候,系统提示需要重新启动计算机,但是,启动之后,就出现了电脑不能联网,而且在控制面板\网络和Internet\网络连接中,显示为空白,正常情况下,这里面应该是有东西的......
  • linux服务器中文文件名打包之后到windows上解压乱码
    0:背景,服务器文件名是gbk编码,使用tarczf 打包,然后在windows上解包其中的中文文件名乱码。1:最终方式 #zip-r20231010.zip20231010 在服务器上压缩整个目录(里面有中文文件名)在windows上使用360压缩进行解压。就可以解决乱码问题。2:踩过的坑2.1 不能使用tarczf 创建*t......
  • Qt_C++读写NFC标签Ntag支持windows国产linux操作系统
    本示例使用的发卡器:ntag2标签存储结构说明#include"mainwindow.h"#include"./ui_mainwindow.h"#include<QDebug>#include"QLibrary"#include"QMessageBox"//本示例可在windows、linux系统内编译、运行//判断windows、linux系统,声明动态库函数---------------......
  • Windows更换默认远程端口3389
    直接上方法:1、打开注册表2、打开路径“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer\Wds\rdpwd\Tds\tcp”,修改“PortNumber”4、打开路径“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer\WinStations\RDP-Tcp”,修改“Port......
  • MySQL5.7 windows安装
    安装Mysql前:​ 1、如果:你(曾经安装过),需要(先卸载干净),否则是(装不上)的。所以先谈(卸载)​2、如果:你没有(安装过),这是(第一次安装),请直接看(第2部分)Mysql安装教程。1、Mysql彻底卸载分为三个步骤: 1、卸载Mysql(软件) 2、删除Mysql(残留文件) 3、删除mysql(注册表) 4、重启电......
  • 在DC上使用管理员账号,激活系统时出现““Windows 无法访问指定设备、路劲或文件。你可
    1.在增加语言选择是,也会遇到类似错误:2.在管理工具中,找到“本地安全策略”:3.进入本地策略->安全选项->用户帐户控制:用于内置管理员帐户的管理员批准模式 ->启用......
  • windows11获取不到IPv6的解决方法
    「技巧」记录一下Win10系统更新后,无法获取IPv6的解决方法-知乎(zhihu.com)同时干了另一件事,就是升级了VMwarePlayer到最新版。重启后,获取到了IPv6......
  • winform-Windows控件概述
    控件分类:文本类控件、选择类控件、分组控件、菜单控件、工具栏控件、状态栏控件控件命名规范:         控件的相关操作添加控件1、在窗口上绘制控件2、将控件拖拽到窗体上3、以编程的方式向窗体添加控件      ......
  • Windows下Cmake编译Poco库
    C++Windows下使用Cmake编译Poco库1.编译前准备:先配置OpenSSL环境(opensslversion-a查看)如果openssl是1.0.*版本,Poco版本最高用1.9.4。如果1.1或者更高,用最新版本。2.编译命令(演示使用VS2022编译v140版本Win32的库):cd..mkdircmake_build_x86cdcmake......