寒假生活指导25

时间：2024-02-02 14:00:46浏览次数：28

标签：__ 25 df 指导寒假 sql import spark

#coding:utf8
#三种创建DataFramed的方法
import pandas as pd
from  pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StringType,IntegerType
if __name__ =='__main__':
    # spark=SparkSession.builder.appName("create_df").master("local[*]").getOrCreate()
    #
    # sc = spark.sparkContext
    # rdd=sc.textFile("../../data/input/sql/input/people.txt").\
    #     map(lambda x:x.split(',')).\
    #     map(lambda x:[x[0],int(x[1])])
    #
    # df=spark.createDataFrame(rdd,schema=['name','age'])
    # df.printSchema()
    # df.show()
    #
    # df.createTempView("tt")
    # spark.sql("select * from tt where age<30").show()
# ---------------------------------------------------------------------
    # spark=SparkSession.builder.\
    #     appName("create_df").\
    #     config("spark.sql.shuffle.partitions","4").\
    #     getOrCreate()
    #
    # sc=spark.sparkContext
    # rdd=sc.textFile("../../data/input/sql/input/stu_score.txt").\
    #     map(lambda x:x.split(',')).\
    #     map(lambda x:(int(x[0]),x[1],int(x[2])))
    #
    # schema=StructType().\
    #     add("id",IntegerType(),nullable=False). \
    #     add("name", StringType(), nullable=True). \
    #     add("score", IntegerType(), nullable=False)
    #
    # df=spark.createDataFrame(rdd,schema=schema)
    # df.printSchema()
    # df.show()
    #
    # df.createTempView("score")
    # df2=spark.sql("select * from score where name = '数学' ")
    # df2.show()
# ---------------------------------------------------------------------rdd转化为DataFrame对象
#     spark=SparkSession.builder.\
#         appName("create_df").\
#         config("spark.sql.shuffle.partitions","4").\
#         getOrCreate()
#
#     sc=spark.sparkContext
#
#     rdd=sc.textFile("../../data/input/sql/input/stu_score.txt").\
#         map(lambda x:x.split(',')).\
#         map(lambda x:(int(x[0]),x[1],int(x[2])))
#
#     schema=StructType(). \
#         add("id",IntegerType(),nullable=False). \
#         add("name", StringType(), nullable=True). \
#         add("score", IntegerType(), nullable=False)
#
#     df=rdd.toDF(['id','subject','score'])
#     df.printSchema()
#     df.show()
#
#     df=rdd.toDF(schema=schema)
#     df.printSchema()
#     df.show()
    # ---------------------------------------------------------------------panda创建DataFrame对象
    # spark =SparkSession.builder.\
    #     appName("create_df").\
    #     master("local[*]").\
    #     getOrCreate()
    # sc=spark.sparkContext
    # pdf=pd.DataFrame({
    #     "id":[1,2,3],
    #     "name":["张大仙","吕德华","夫赖"],
    #     "age":[30,30,30]
    # })
    # df=spark.createDataFrame(pdf)
    # df.printSchema()
    # df.show()
    # 读取text文件创建Data Frame对象
    spark = SparkSession.builder.appName("test").master("local[*]").config("spark.sql.shuffle.partitions",2).getOrCreate()
    # schema=StructType().add("name",StringType(),nullable=True)
    # df=spark.read.format("text")\
    #     .schema(schema=schema)\
    #     .load("../../data/input/sql/input/people.txt")
    # df.show()
#读取json文件创建Data Frame对象
    df=spark.read.format("json").\
        load("../../data/input/sql/input/people.json")

    df.printSchema()
    df.show()
    # 读取csv文件创建Data Frame对象
    df2=spark.read.format("csv")\
        .option("sep",";")\
        .option("header",False)\
        .option("encoding","utf-8")\
        .schema("name STRING,age INT,job STRING")\
        .load("../../data/input/sql/input/people.csv")
    df2.printSchema()
    df2.show()

创建DataFrame对象

标签：__,25,df,指导,寒假,sql,import,spark
From： https://www.cnblogs.com/syhxx/p/18003066

寒假day1 2.2
讲师：杨宁远，NOI2022Au，rk20，from成都七中。概括：基础算法。6:30起来和bec跑步，就跑了5min，还是很抽象的。无调试网络，无qblt！正题枚举、搜索方式：dfsbfs（迭代加深）剪枝A*迭代加深：bfs的一种，每次所有x步在队列里，判断是否有终止局面，没有则进入下一层A*：剪枝的一种，估价函数，判断......
Windows Server 2025 Active Directory 新变化
自WindowsServer2016以来，ADDS尚未收到任何重大更新，并且Server2019/2022中的功能级别没有增加。随着长期服务渠道(LTSC)中操作系统的下一个版本的发布，该版本暂且被称为WindowsServer2025。WindowsServer2025新功能级别提升域或林的功能级别通常是为了利用相应服务......
寒假碎碎念01
让我想想这段时间都做了什么…周二之前的几天和实验室其他几个队员（chy、fa、lyy）还有教练讨论了一些对训练方式的改革，23号白天匆忙整理完PPT，晚上和大家讲了一下寒假训练的事项。周三周四做了一些题，一方面是想起来傅老师之前跟我说，“感觉你没有走出你的舒适圈”，于是就一拍脑门，加了......
CF125D 题解
思路首先可以发现前三个数中的两个数一定为一个等差数列中，所以我们对于前三个数枚举哪两个数是一个等差数列中的，设这两个数的差为\(w\)，在原数列中找到一个最长的公差为\(w\)的等差数列，记为\(A\)，剩下的数记为\(B\)，此时有三种可能。\(|B|=0\)，此时可以知道原数组就是等差数列......
2.1寒假每日总结23
最最简单的超级马里奥训练过程fromnes_py.wrappersimportJoypadSpaceimportgym_super_mario_brosfromgym_super_mario_bros.actionsimportSIMPLE_MOVEMENTimporttimefrommatplotlibimportpyplotaspltfromstable_baselines3importPPOenv=gym_super_mario......
ADS1256读取到的24位有符号数据处理
ADS1256通过SPI读取到的数据为24位有符号数据[0,23]，第23位为符号位，1为负，0为正。但是在STM32中，我们常用int32或者uint32来存放这个数据，如果直接赋值赋过去就会出现意想不到的后果，如下：这就是直接赋值之后绘出来的图，因此我们需要将24为有符号变量转换为32位有符号变量，但在此处很容......
oracle 报错ORA-12514: TNS:listener does not currently know of service requested
oracle报错ORA-12514:TNS:listenerdoesnotcurrentlyknowofservicerequestedinconnec 在使用navicat上连接oracle正确用户名和密码，oracle常用服务也启动的情况下依然无法建立连接。但是sqlPus上输入用户名和密码可以连接通过，百思不得其解（菜鸟本质好奇）。这种......
nvm安装Nodejs时报错，Could not retrieve https://npm.taobao.org/mirrors/node/latest
1.首先要使用管理员运行命令2.在安装nvm的目录下找到settings.txt，没有就手动增加一个node_mirror:https://npm.taobao.org/mirrors/node/npm_mirror:https://npm.taobao.org/mirrors/npm/这个地方有点奇怪，安装18的时候把上面的Https://去掉以后就下载成功了3.安装19以及......
寒假生活指导24
#coding:utf8#指定源代码编码格式为UTF-8frompyspark.sqlimportSparkSession#导入SparkSession类，用于创建和管理Spark应用上下文frompyspark.sql.functionsimportconcat,expr,col#导入SparkSQL中的函数，这里并未使用但可能在后续操作中用于数据转换或计算f......
[转帖]Open JDK 8.0_152-b16 崩溃 : [libzip.so+0x12522] newEntry+0x62
一.问题描述在执行spark任务的时候,JVM崩溃.崩溃dump日志:##AfatalerrorhasbeendetectedbytheJavaRuntimeEnvironment:##SIGBUS(0x7)atpc=0x00007f9adacb9522,pid=107874,tid=0x00007f9add417700##JREversion:Java(TM)SERuntimeEnvironme......

寒假生活指导25

相关文章

赞助商

阅读排行