首页 > 其他分享 >寒假生活指导25

寒假生活指导25

时间:2024-02-02 14:00:46浏览次数:25  
标签:__ 25 df 指导 寒假 sql import spark

#coding:utf8
#三种创建DataFramed的方法
import pandas as pd
from  pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StringType,IntegerType
if __name__ =='__main__':
    # spark=SparkSession.builder.appName("create_df").master("local[*]").getOrCreate()
    #
    # sc = spark.sparkContext
    # rdd=sc.textFile("../../data/input/sql/input/people.txt").\
    #     map(lambda x:x.split(',')).\
    #     map(lambda x:[x[0],int(x[1])])
    #
    # df=spark.createDataFrame(rdd,schema=['name','age'])
    # df.printSchema()
    # df.show()
    #
    # df.createTempView("tt")
    # spark.sql("select * from tt where age<30").show()
# ---------------------------------------------------------------------
    # spark=SparkSession.builder.\
    #     appName("create_df").\
    #     config("spark.sql.shuffle.partitions","4").\
    #     getOrCreate()
    #
    # sc=spark.sparkContext
    # rdd=sc.textFile("../../data/input/sql/input/stu_score.txt").\
    #     map(lambda x:x.split(',')).\
    #     map(lambda x:(int(x[0]),x[1],int(x[2])))
    #
    # schema=StructType().\
    #     add("id",IntegerType(),nullable=False). \
    #     add("name", StringType(), nullable=True). \
    #     add("score", IntegerType(), nullable=False)
    #
    # df=spark.createDataFrame(rdd,schema=schema)
    # df.printSchema()
    # df.show()
    #
    # df.createTempView("score")
    # df2=spark.sql("select * from score where name = '数学' ")
    # df2.show()
# ---------------------------------------------------------------------rdd转化为DataFrame对象
#     spark=SparkSession.builder.\
#         appName("create_df").\
#         config("spark.sql.shuffle.partitions","4").\
#         getOrCreate()
#
#     sc=spark.sparkContext
#
#     rdd=sc.textFile("../../data/input/sql/input/stu_score.txt").\
#         map(lambda x:x.split(',')).\
#         map(lambda x:(int(x[0]),x[1],int(x[2])))
#
#     schema=StructType(). \
#         add("id",IntegerType(),nullable=False). \
#         add("name", StringType(), nullable=True). \
#         add("score", IntegerType(), nullable=False)
#
#     df=rdd.toDF(['id','subject','score'])
#     df.printSchema()
#     df.show()
#
#     df=rdd.toDF(schema=schema)
#     df.printSchema()
#     df.show()
    # ---------------------------------------------------------------------panda创建DataFrame对象
    # spark =SparkSession.builder.\
    #     appName("create_df").\
    #     master("local[*]").\
    #     getOrCreate()
    # sc=spark.sparkContext
    # pdf=pd.DataFrame({
    #     "id":[1,2,3],
    #     "name":["张大仙","吕德华","夫赖"],
    #     "age":[30,30,30]
    # })
    # df=spark.createDataFrame(pdf)
    # df.printSchema()
    # df.show()
    # 读取text文件创建Data Frame对象
    spark = SparkSession.builder.appName("test").master("local[*]").config("spark.sql.shuffle.partitions",2).getOrCreate()
    # schema=StructType().add("name",StringType(),nullable=True)
    # df=spark.read.format("text")\
    #     .schema(schema=schema)\
    #     .load("../../data/input/sql/input/people.txt")
    # df.show()
#读取json文件创建Data Frame对象
    df=spark.read.format("json").\
        load("../../data/input/sql/input/people.json")

    df.printSchema()
    df.show()
    # 读取csv文件创建Data Frame对象
    df2=spark.read.format("csv")\
        .option("sep",";")\
        .option("header",False)\
        .option("encoding","utf-8")\
        .schema("name STRING,age INT,job STRING")\
        .load("../../data/input/sql/input/people.csv")
    df2.printSchema()
    df2.show()

创建DataFrame对象

 

标签:__,25,df,指导,寒假,sql,import,spark
From: https://www.cnblogs.com/syhxx/p/18003066

相关文章

  • 寒假day1 2.2
    讲师:杨宁远,NOI2022Au,rk20,from成都七中。概括:基础算法。6:30起来和bec跑步,就跑了5min,还是很抽象的。无调试网络,无qblt!正题枚举、搜索方式:dfsbfs(迭代加深)剪枝A*迭代加深:bfs的一种,每次所有x步在队列里,判断是否有终止局面,没有则进入下一层A*:剪枝的一种,估价函数,判断......
  • Windows Server 2025 Active Directory 新变化
    自WindowsServer2016以来,ADDS尚未收到任何重大更新,并且Server2019/2022中的功能级别没有增加。随着长期服务渠道(LTSC)中操作系统的下一个版本的发布,该版本暂且被称为WindowsServer2025。WindowsServer2025新功能级别提升域或林的功能级别通常是为了利用相应服务......
  • 寒假碎碎念01
    让我想想这段时间都做了什么…周二之前的几天和实验室其他几个队员(chy、fa、lyy)还有教练讨论了一些对训练方式的改革,23号白天匆忙整理完PPT,晚上和大家讲了一下寒假训练的事项。周三周四做了一些题,一方面是想起来傅老师之前跟我说,“感觉你没有走出你的舒适圈”,于是就一拍脑门,加了......
  • CF125D 题解
    思路首先可以发现前三个数中的两个数一定为一个等差数列中,所以我们对于前三个数枚举哪两个数是一个等差数列中的,设这两个数的差为\(w\),在原数列中找到一个最长的公差为\(w\)的等差数列,记为\(A\),剩下的数记为\(B\),此时有三种可能。\(|B|=0\),此时可以知道原数组就是等差数列......
  • 2.1寒假每日总结23
    最最简单的超级马里奥训练过程fromnes_py.wrappersimportJoypadSpaceimportgym_super_mario_brosfromgym_super_mario_bros.actionsimportSIMPLE_MOVEMENTimporttimefrommatplotlibimportpyplotaspltfromstable_baselines3importPPOenv=gym_super_mario......
  • ADS1256读取到的24位有符号数据处理
    ADS1256通过SPI读取到的数据为24位有符号数据[0,23],第23位为符号位,1为负,0为正。但是在STM32中,我们常用int32或者uint32来存放这个数据,如果直接赋值赋过去就会出现意想不到的后果,如下:这就是直接赋值之后绘出来的图,因此我们需要将24为有符号变量转换为32位有符号变量,但在此处很容......
  • oracle 报错ORA-12514: TNS:listener does not currently know of service requested
    oracle报错ORA-12514:TNS:listenerdoesnotcurrentlyknowofservicerequestedinconnec 在使用navicat上连接oracle正确用户名和密码,oracle常用服务也启动的情况下依然无法建立连接。但是sqlPus上输入用户名和密码可以连接通过,百思不得其解(菜鸟本质好奇)。这种......
  • nvm安装Nodejs时报错,Could not retrieve https://npm.taobao.org/mirrors/node/latest
    1.首先要使用管理员运行命令2.在安装nvm的目录下找到settings.txt,没有就手动增加一个node_mirror:https://npm.taobao.org/mirrors/node/npm_mirror:https://npm.taobao.org/mirrors/npm/这个地方有点奇怪,安装18的时候把上面的Https://去掉以后就下载成功了3.安装19以及......
  • 寒假生活指导24
    #coding:utf8#指定源代码编码格式为UTF-8frompyspark.sqlimportSparkSession#导入SparkSession类,用于创建和管理Spark应用上下文frompyspark.sql.functionsimportconcat,expr,col#导入SparkSQL中的函数,这里并未使用但可能在后续操作中用于数据转换或计算f......
  • [转帖]Open JDK 8.0_152-b16 崩溃 : [libzip.so+0x12522] newEntry+0x62
    一.问题描述在执行spark任务的时候,JVM崩溃.崩溃dump日志:##AfatalerrorhasbeendetectedbytheJavaRuntimeEnvironment:##SIGBUS(0x7)atpc=0x00007f9adacb9522,pid=107874,tid=0x00007f9add417700##JREversion:Java(TM)SERuntimeEnvironme......