首页 > 其他分享 >大三寒假学习进度笔记10

大三寒假学习进度笔记10

时间:2024-01-19 21:48:02浏览次数:40  
标签:__ 10 score df column 寒假 id 大三 subject

今日学习SprackSQL的两种语言风格,分别是DLS风格和SQL风格,其中SQL风格的语句需要先将DataFrame注册成表才能使用

接下来是学习中使用到的部分代码

# coding:utf8

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd

if __name__ == '__main__':
    spark = SparkSession.builder. \
        appName("test"). \
        master("local[*]"). \
        getOrCreate()

    sc = spark.sparkContext
    df = spark.read.format("csv"). \
        schema("id INT, subject STRING, score INT"). \
        load("../data/input/stu_score.txt")

    # column对象的获取
    id_column = df['id']
    subject_column = df['subject']

    # DLS风格
    df.select(["id", "subject"]).show()
    df.select("id", "subject").show()
    df.select(id_column, subject_column).show()

    #filter API
    df.filter("score < 99").show()
    df.filter(df['score'<99]).show()

    #where API
    df.where("score < 99").show()
    df.where(df['score'] < 99).show()

    #Group By API
    df.groupby("subject").count().show()

    #SQL风格,需要先将dataFrame注册成表
    df.createTempView("score")#注册临时表
    df.createOrReplaceTempView("score_2")#注册或替换临时表
    df.createGlobalTempView("score_3")#注册全局临时表,可以跨SparkSession使用

    spark.sql("SELECT subject, COUNT(*) AS cnt FROM score GROUP BY subject")

 

标签:__,10,score,df,column,寒假,id,大三,subject
From: https://www.cnblogs.com/wrf1/p/17975692

相关文章

  • 寒假规划
          学习规划1.20到2.6重点备战数学建模美赛 期待收获:高数,线代,概率论的掌握(对打算法有帮助)matlab或者python,语言编程能力。神经网络的学习,遗传算法等的学习文献查找分析能力 然后根据团队选题,确认学习规划如果选系统类,就抽时间重点看......
  • (10)Powershell赋值运算符(一)
    (10)Powershell赋值运算符(一)上一节介绍了Powershell中的内置变量,细节使劲戳jiaerkuaier。本节介绍Powershell中的赋值运算符,赋值运算符可向一个变量赋予一个或多个值。赋值运算符可以在赋值之前对值执行数值运算。Powershell支持以下赋值运算符。运算符说明备注......
  • 寒假生活指导11
    importjsonimportjsonpathobj=json.load(open('073__爬虫_解析_jsonpath.json','r',encoding='utf-8'))#书店所有书的作者#author_list=jsonpath.jsonpath(obj,'$.store.book[*].author')#print(author_list)#所有的作者#author......
  • 2024.1.19寒假每日总结10
    算法题:2809.使数组和小于等于x的最少时间-力扣(LeetCode)spark广播器场景:本地集合对象和分布式集合对象(RDD)进行关联的时候需要将本地集合对象封装为广播变量可以节省:1.网络IO的次数2.Executor的内存占用 ......
  • Contest3376 - 2024寒假集训-排位赛竞赛(一)
    A:幂位和高精度。用高精度加法或乘法算出\(2^{1000}\),再将各位累加即为答案。#include<bits/stdc++.h>usingnamespacestd;#definecctieios::sync_with_stdio(0);cin.tie(0);cout.tie(0)stringAP_add(stringA,stringB)//高精度加法{intlena=A.size()......
  • 提速40%!江波龙推出XP2200系列M.2 2280规格SSD:疾速7100MB/s
    江波龙FORESEEXP2200系列PCIeSSD推出M.22280规格。产品搭载主流232层3DTLC闪存颗粒,并采用基于12nm工艺的4通道高性能主控芯片,支持HMB主机高速缓冲技术,能够提供高达2400MT/s的I/O速率,进一步释放产品潜能。产品所用的主控芯片减少了一半的读写通道数量,从而显著降低25%的功耗并......
  • Windows 10, version 22H2 (updated Jan 2024) 中文版、英文版下载
    Windows10,version22H2(updatedJan2024)中文版、英文版下载Windows1022H2企业版arm64x64请访问原文链接:https://sysin.org/blog/windows-10/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgWindows10更新历史记录Windows10,version22H2,alledit......
  • Nessus 10.6 Auto Installer for RHEL 9/AlmaLinux 9/Rocky Linux 9 (updated Jan 202
    Nessus10.6AutoInstallerforRHEL9/AlmaLinux9/RockyLinux9(updatedJan2024)发布Nessus试用版自动化安装程序,支持macOSSonoma、RHEL9和Ubuntu22.04请访问原文链接:https://sysin.org/blog/nessus-auto-install-for-rhel-9/,查看最新版。原创作品,转载请保留出处......
  • Nessus 10.6 Auto Installer for macOS Sonoma (updated Jan 2024)
    Nessus10.6AutoInstallerformacOSSonoma(updatedJan2024)发布Nessus试用版自动化安装程序,支持macOSSonoma、RHEL9和Ubuntu22.04请访问原文链接:https://sysin.org/blog/nessus-auto-install-for-macos/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org......
  • Nessus 10.6 Auto Installer for Ubuntu 22.04 (updated Jan 2024)
    Nessus10.6AutoInstallerforUbuntu22.04(updatedJan2024)发布Nessus试用版自动化安装程序,支持macOSSonoma、RHEL9和Ubuntu22.04请访问原文链接:https://sysin.org/blog/nessus-auto-install-for-ubuntu/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org......