首页 > 数据库 >pyspark-sql

pyspark-sql

时间:2023-10-10 11:22:40浏览次数:35  
标签:__ pyspark df SparkSession sql spark

使用spark-sql操作文件进行sql查询

示例代码如下

if __name__ == '__main__':
#SparkSession用于SparkSQL编程作为入口对象
#用于SparkCore编程,可以通过SparkSession对象中获取到SparkContext
#也可以直接进入pyspark客户端省略该步骤./pyspark --master local[*],会自动创建sc

    spark = SparkSession.builder.\
        appName("test").\
        config("spark.sql.shuffle.partitions", 100).\
        getOrCreate()
    sc = spark.sparkContext
#读取文件并指定特定分隔符输出数据
    rdd = sc.textFile("/data/work/yqf/pyspark.csv").\
        map(lambda x: x.split(",")).\
        map(lambda x: (x[0],x[1],x[2])))
#rdd转df指定schema
    df = spark.createDataFrame(rdd, schema=['name', 'age','sex'])
#创建临时表
    df.createOrReplaceTempView("people")
#使用sql查询临时表数据
    spark.sql("SELECT * FROM people WHERE age < 30").show()

标签:__,pyspark,df,SparkSession,sql,spark
From: https://www.cnblogs.com/whiteY/p/17754195.html

相关文章

  • 《MySQL与MariaDB学习指南》高清高质量 原版电子书PDF+源码
    下载:https://pan.quark.cn/s/2392eb287424......
  • PostgreSQL学习(1)
    安装PostgreSQLsudoaptinstallpostgresqlpostgresql-contrib#如果您需要特定版本,请使用“postgresql-12”或类似版本,替换“postgresql”:postgresql-contrib软件包包含了一些有用的扩展和附加功能。登录PostgreSQL默认情况下,PostgreSQL安装后只允许本地连接,且只有postgr......
  • mysql 创建表分区 list分区
    CREATETABLE`goods`(`id`varchar(36)NOTNULL,`goods_name`varchar(256)NOTNULLCOMMENT'产品名称',`release_version`varchar(8)NOTNULL,PRIMARYKEY(`release_version`,`id`))ENGINE=InnoDBDEFAULTCHARSET=utf8mb4ROW_FORMAT=DYNAMIC;al......
  • Windows安装MySQL
    一、下载安装包1、下载地址:https://downloads.mysql.com/archives/community/二、解压并创建配置文件,创建数据目录1、步骤#1将下载的压缩包解压#2在bin目录同级下创建一个文件,命名为my.ini#3在bin目录同级下创建一个文件夹,命名为data三、编辑配置文件my.in......
  • clickhouse连接访问mysql
    创建MySQL表创建数据库test和表t1,并向t1表中插入几条数据CREATEdatabasetest;usetest;CREATEtablet1(idint,namevarchar(100));INSERTINTOt1values(1,'a'),(2,'b'),(3,'c');SELECT*FROMt1;ClickHouse连接访问MySQL方式1:数据库引擎MySQL用......
  • pytest + yaml 框架 -57.用例前置和后置操作执行sql
    前言前面一篇已经介绍在用例中可以查询以及在断言中实现sql,本篇讲解在用例的前置和后置操作中执行sql配置mysql环境,参考前面一篇https://www.cnblogs.com/yoyoketang/p/16977960.html有2内置的函数可以使用query_sql(sql)查询sql,查询无结果返回[],查询只有一个结果返......
  • Typecho博客网站迁移:MySQL ➡️ MarialDB
    目录1.引言2.Typecho的自定义配置迁移3.数据库迁移:MySQL->MarialDB3.1在原服务器中备份并导出数据库文件3.2将“backupdb.sql”文件拷贝至新服务器并导入数据4.Nginx配置5.Handsome主题操作1.引言由于服务、价格等因素更换云服务器是很常见的情况,本文记录了Typecho博......
  • MySQL数据库被锁表你有遇到过吗?
    1.被锁原因1、锁表发生在insertupdate、delete中;2、锁表的原理是数据库使用独占式封锁机制,当执行上面的语句时,对表进行锁住,直到发生commite或者回滚或者退出数据库用户;3、锁表的原因:3.1、A程序执行了对tableA的insert,并还未commite时,B程序也对tableA进行insert......
  • JXNU数据库_数据库基本SQL操作
    我永远的乌托邦frompixiv_水星领航员基本表的定义,删除和修改1.定义基本表(CREATETABLE):要在数据库中定义一个新的基本表,你可以使用CREATETABLE语句。以下是一个创建名为"Employees"的基本表的示例:CREATETABLEEmployees(EmployeeIDINTPRIMARYKEY,Fi......
  • openGauss学习笔记-94 openGauss 数据库管理-访问外部数据库-mysql_fdw
    openGauss学习笔记-94openGauss数据库管理-访问外部数据库-mysql_fdwopenGauss的fdw实现的功能是各个openGauss数据库及远程服务器(包括数据库、文件系统)之间的跨库操作。目前支持的远程服务器类型包括Oracle、MySQL(MariaDB)、openGauss(postgres_fdw)、file_fdw、dblink。mysql_f......