首页 > 其他分享 >jupyter notebook中运行pyspark代码

jupyter notebook中运行pyspark代码

时间:2022-12-28 15:33:06浏览次数:41  
标签:jupyter pyspark SparkSession rdd notebook spark


前提是windows下安装pyspark

​​设置连接​​

用jupyter notebook编写pyspark代码

from pyspark.sql import SparkSession
# 环境配置
spark = SparkSession.builder.master("local").appName("test").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
# 测试是否成功
rdd = sc.parallelize([("hello", 1)])
rdd.collect()


标签:jupyter,pyspark,SparkSession,rdd,notebook,spark
From: https://blog.51cto.com/u_14009243/5975089

相关文章

  • Python学习笔记--PySpark的基础学习(二)
    filter方法(过滤想要的数据进行保留)具体实现(保留奇数):具体实现(保留偶数):distinct方法(对RDD进行去重,返回新的RDD)且无需传参具体实现(去重):sortBy方法(排序,基于我们制定的......
  • 接下来几期将会使用 Jupyter Notebook 进行编写
    JupyterNotebook官方文档JupyterNotebook安装教程【此处感谢知乎@豆先生】......
  • 【jupyter-lab】实战经验积累(二)
    ‘line’:lineplot(default)#折线图‘bar’:verticalbarplot#条形图。stacked为True时为堆叠的柱状图‘barh’:horizontalbarplot#横向条形图‘hist......
  • Python学习笔记--PySpark的相关基础学习(一)
    PySpark包的下载下载PySpark第三方包:构建PySpark的执行环境入口对象PySpark的编程模型数据输入对于SparkContext对象里面的成员方法parallelize,支持:示例:读......
  • 远程访问Jupyter配置
    生成配置文件$jupyternotebook--generate-config会返回一个存放jupyter_notebook_config.py的路径生成密码打开ipython,创建一个密文的密码:[root@datanode1~]#ip......
  • 15个节省时间的Jupyter技巧
    JupyterNotebooks使用非常简单并且对于任何面向python的任务都可以非常方便的使用。只要它的内核处于活动状态,就可以用数据子集运行和测试脚本,而不用每次重启程序,这样可以......
  • 修改Jupyter默认打开路径
    本文内容在平时使用Python过程中,发现PyCharm每次都要新建项目,对于一些较小的文件来说不是那么友好。于是打算采用JupyterNotebook来解决一些较小规模的Python运......
  • 大数据--pyspark远程连接hive
    上一篇文章介绍了python连接hive的过程,通过地址+端口号访问到hive并对hive中的数据进行操作,这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机......
  • 【jupyter-lab】实战经验积累
    #导入需要的包importnumpyasnpimportpandasaspdimportseabornassnsimportmatplotlibasmplimportmatplotlib.pyplotasplt%matplotlibinline#读取......
  • 【794】Jupiter notebook扩展功能(感叹号,terminal使用)
    参考:增强JupyterNotebook的功能,这里有四个妙招参考:4AwesomeTipsforEnhancingJupyterNotebooksJupyterNotebookshavebeenanawesometoolforalldeveloper......