首页 > 编程语言 >python-pyspark数据输入

python-pyspark数据输入

时间:2024-01-17 12:46:06浏览次数:31  
标签:SparkContext parallelize pyspark python print collect rdd sc 输入

数据容器转rdd对象

通过SparkContext对象的parallelize成员方法,将python数据容器转为rdd对象

from pyspark import SparkConf,SparkContext


conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)

data1 = [1, 2, 3, 4, 5]
data2 = (1, 2, 3, 4, 5)
data3 = {1, 2, 3, 4, 5}
data4 = "abcdefg"
data5 = {"key1":"value1", "key2":"value2"}

rdd1 = sc.parallelize(data1)
rdd2 = sc.parallelize(data2)
rdd3 = sc.parallelize(data3)
rdd4 = sc.parallelize(data4)
rdd5 = sc.parallelize(data5)

print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop()     读取文本文件转rdd对象 通过SparkContext的textfile成员方法,读取文本文件得到rdd对象 from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)

rdd = sc.textFile("D:\WordCount\input\data.txt")
print(rdd.collect())

sc.stop()

标签:SparkContext,parallelize,pyspark,python,print,collect,rdd,sc,输入
From: https://www.cnblogs.com/wjzohou/p/17969760

相关文章

  • (Python)每日代码||2024.1.17||函数中给列表形参默认值时,该默认列表在函数中的改变会
    deff(x,li=[1]):print(id(li))li.append(x)print(li)f('a')#第一次调用函数print()f('b')#第二次调用函数print()f('a',[])#第三次调用函数print()f('b',[2,2])#第四次调用函数print()f('a')#第五次调用函数'''输出14......
  • python 连接mysql 报错 打包 报错
    mysql.connector.connect(auth_plugin='mysql_native_password',host=lis[0],database=lis[1],user=lis[2],password=lis[3])auth_plugin='mysql_native_password'Python连接MySQL报错:mysql.connector.errors.NotSupportedError:Authenticationplugin......
  • python循环语句
    while循环与其他语言不同的是python中的while循环没有dowhile语句,要么直接使用while循环,或者使用whileelse语句,其基本格式如下:while<expr>:<statement(s)>else:<additional_statement(s)>for循环遍历循环格式如下(将序列中的元素依次赋值给变量,再通过循环体处......
  • python 在排序数组中查找元素的第一个和最后一个位置 多种解法
    二分查找:基于二分查找的算法可以在O(logn)的时间复杂度内解决该问题。具体实现方式是,先使用二分查找找到该元素的位置,然后向左和向右扩展,直到找到第一个和最后一个位置。代码如下:defsearchRange(nums,target):defbinarySearch(nums,target,lower):left,righ......
  • python实现抓取表情网站图片
    1:效果图2:代码importosimportrequestsfrombs4importBeautifulSoupifnotos.path.exists('./images/'):os.mkdir('./images/')headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(K......
  • [oeasy]python005_退出游乐场_重启游乐场_系统态shell_应用态_quit
    退出终端_重启游乐场_shell_quit......
  • 通过Power BI实现数据的实时刷新与展示2-使用Python Code无限实时刷新数据源
    上一篇讲了使用DirectQueryMode来实现数据自动刷新,但是DirectMode只能适用于Database这种数据源,很多其它的源都不行。对于其它类型的数据源,就只能另想办法了。PBI刷新可以用以下2种方式:1,在PBIDesktop中点击刷新,然后刷新完成后,再Publish2,将报告发布到WorkSpace中,然后在选中D......
  • [oeasy]python005_退出游乐场_重启游乐场_系统态shell_应用态_quit
    退出终端_重启游乐场_shell_quit......
  • Python切片
    下面我们以列表为例来介绍下Python的切片操作  一.切片  一个完整的切片表达式包含两个:,用于分割列表参数,写法如下:list[start_index:end_index:step]1start_index:起始位置end_index:结束位置step:步进,为正数的时候表示从前向后,负数表示从后往前,决定了切片的方向,step参数可......
  • Python pickle 二进制序列化和反序列化 - 数据持久化
    模块pickle实现了对一个Python对象结构的二进制序列化和反序列化。"pickling"是将Python对象及其所拥有的层次结构转化为一个字节流的过程,而"unpickling"是相反的操作,会将(来自一个binaryfile或者bytes-likeobject的)字节流转化回一个对象层次结构。pickling(和unp......