python-pyspark数据输入

时间：2024-01-17 12:46:06浏览次数：31

标签：SparkContext parallelize pyspark python print collect rdd sc 输入

数据容器转rdd对象

通过SparkContext对象的parallelize成员方法，将python数据容器转为rdd对象

from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)

data1 = [1, 2, 3, 4, 5]
data2 = (1, 2, 3, 4, 5)
data3 = {1, 2, 3, 4, 5}
data4 = "abcdefg"
data5 = {"key1":"value1", "key2":"value2"}

rdd1 = sc.parallelize(data1)
rdd2 = sc.parallelize(data2)
rdd3 = sc.parallelize(data3)
rdd4 = sc.parallelize(data4)
rdd5 = sc.parallelize(data5)

print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop() 读取文本文件转rdd对象通过SparkContext的textfile成员方法，读取文本文件得到rdd对象 from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)

rdd = sc.textFile("D:\WordCount\input\data.txt")
print(rdd.collect())

sc.stop()

标签：SparkContext,parallelize,pyspark,python,print,collect,rdd,sc,输入
From： https://www.cnblogs.com/wjzohou/p/17969760

(Python)每日代码||2024.1.17||函数中给列表形参默认值时，该默认列表在函数中的改变会
deff(x,li=[1]):print(id(li))li.append(x)print(li)f('a')#第一次调用函数print()f('b')#第二次调用函数print()f('a',[])#第三次调用函数print()f('b',[2,2])#第四次调用函数print()f('a')#第五次调用函数'''输出14......
python 连接mysql 报错打包报错
mysql.connector.connect(auth_plugin='mysql_native_password',host=lis[0],database=lis[1],user=lis[2],password=lis[3])auth_plugin='mysql_native_password'Python连接MySQL报错：mysql.connector.errors.NotSupportedError:Authenticationplugin......
python循环语句
while循环与其他语言不同的是python中的while循环没有dowhile语句，要么直接使用while循环，或者使用whileelse语句，其基本格式如下：while<expr>:<statement(s)>else:<additional_statement(s)>for循环遍历循环格式如下（将序列中的元素依次赋值给变量，再通过循环体处......
python 在排序数组中查找元素的第一个和最后一个位置多种解法
二分查找：基于二分查找的算法可以在O(logn)的时间复杂度内解决该问题。具体实现方式是，先使用二分查找找到该元素的位置，然后向左和向右扩展，直到找到第一个和最后一个位置。代码如下：defsearchRange(nums,target):defbinarySearch(nums,target,lower):left,righ......
python实现抓取表情网站图片
1：效果图2：代码importosimportrequestsfrombs4importBeautifulSoupifnotos.path.exists('./images/'):os.mkdir('./images/')headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(K......
[oeasy]python005_退出游乐场_重启游乐场_系统态shell_应用态_quit
退出终端_重启游乐场_shell_quit......
通过Power BI实现数据的实时刷新与展示2-使用Python Code无限实时刷新数据源
上一篇讲了使用DirectQueryMode来实现数据自动刷新，但是DirectMode只能适用于Database这种数据源，很多其它的源都不行。对于其它类型的数据源，就只能另想办法了。PBI刷新可以用以下2种方式：1，在PBIDesktop中点击刷新，然后刷新完成后，再Publish2，将报告发布到WorkSpace中，然后在选中D......
[oeasy]python005_退出游乐场_重启游乐场_系统态shell_应用态_quit
退出终端_重启游乐场_shell_quit......
Python切片
下面我们以列表为例来介绍下Python的切片操作一.切片一个完整的切片表达式包含两个:，用于分割列表参数，写法如下：list[start_index:end_index:step]1start_index：起始位置end_index：结束位置step：步进，为正数的时候表示从前向后，负数表示从后往前，决定了切片的方向，step参数可......
Python pickle 二进制序列化和反序列化 - 数据持久化
模块pickle实现了对一个Python对象结构的二进制序列化和反序列化。"pickling"是将Python对象及其所拥有的层次结构转化为一个字节流的过程，而"unpickling"是相反的操作，会将（来自一个binaryfile或者bytes-likeobject的）字节流转化回一个对象层次结构。pickling（和unp......

python-pyspark数据输入

相关文章

赞助商

阅读排行