首页 > 数据库 >DataFrame操作数据的两种方式(SQL和DSL)

DataFrame操作数据的两种方式(SQL和DSL)

时间:2022-08-29 20:55:21浏览次数:54  
标签:val 展示 DataFrame ----------------------- DSL dataFrame SQL println -------------

SQL方式

需要将DataFrame注册成为一张临时表,并给临时表起名字,通过SQL语句查询分析DataFrame中数据

  • 局部临时表、全局临时表
    [注意]:
    --1 如果我们注册的是全局表,查询全局表的时候,必须在表名前加上一个数据库的名字global_temp
    val frame = session.sql("select sex, count(*) as num from global_temp.student group by sex")
    --2 每次SQL操作完成都会返回一个新的DataFrame,这个DataFrame中就是我们处理分析完成的数据
    --3 如果我们DataFrame是从Hive中读取的数据,也可以使用这种方式去操作
  • 区别
局部临时表 全局临时表
方法字段 createTempViewdataFrame.createTempView("student") createOrReplaceGlobalTempViewdataFrame.createOrReplaceGlobalTempView("student")
作用域 作用于某个Spark应用程序的所有SparkSession会话 作用于某个特定的SparkSession会话如果同一个应用中不同的session需要重用一个临时表,那么不妨将该临时表注册为全局临时表,可以避免多余的IO,提高系统的执行效率,但是如果只是在某个session中使用,只需要注册局部临时表,可以避免不必要的内存占用
使用场景 局部临时表是和SparkSession挂钩的,SparkSession一旦停止,临时表就无法使用了 全局临时表是和Spark Application(SparkContext)挂钩的,只有当Spark应用程序停止了,全局表才无法访问

DSL方式

  1. 展示dataFrame的结构
    dataFrame.printSchema()
  2. 数据展示
println("-----------------------数据展示1开始-------------------------")
dataFrame.show()
println("-----------------------数据展示1结束-------------------------")

println("-----------------------数据展示2开始-------------------------")
val dataFrame1 = dataFrame.groupBy("sex").agg(Map("sex" -> "count")).select("*")
dataFrame1.show()
println("-----------------------数据展示2结束-------------------------")

println("-----------------------数据展示3开始-------------------------")
val dataFrame2 = dataFrame.groupBy("name", "age", "sex").agg(Map("age" -> "max", "age" -> "min", "age" -> "avg", "*" -> "count")).select("*")
dataFrame2.show()
println("-----------------------数据展示3结束-------------------------")
  1. 完整代码
package SparkSQL.DataFreamCreate.optdataframe

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
import scala.beans.BeanProperty

object DSLOper {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("dataFrameCreate").setMaster("local[*]")
    val sparkSession = SparkSession.builder().config(conf).getOrCreate()

    val seq:Seq[Student] = Array(Student("zs",20,"男"),Student("ls",21,"女"),Student("ww",22,"男"))
    val rdd:RDD[Student] = sparkSession.sparkContext.makeRDD(seq)
    val dataFrame:DataFrame = sparkSession.createDataFrame(rdd,classOf[Student])

    println("-----------------------展示结构开始-------------------------")
    dataFrame.printSchema()
    println("-----------------------展示结构结束-------------------------")
    println("-----------------------数据展示1开始-------------------------")
    dataFrame.show()
    println("-----------------------数据展示1结束-------------------------")

    println("-----------------------数据展示2开始-------------------------")
    val dataFrame1 = dataFrame.groupBy("sex").agg(Map("sex" -> "count")).select("*")
    dataFrame1.show()
    println("-----------------------数据展示2结束-------------------------")

    println("-----------------------数据展示3开始-------------------------")
    val dataFrame2 = dataFrame.groupBy("name", "age", "sex").agg(Map("age" -> "max", "age" -> "min", "age" -> "avg", "*" -> "count")).select("*")
    dataFrame2.show()
    println("-----------------------数据展示3结束-------------------------")
//    session.sparkContext.makeRDD(dataFrame)


  }
}
case class Student(@BeanProperty var name:String,@BeanProperty var age:Int,@BeanProperty var sex:String)

标签:val,展示,DataFrame,-----------------------,DSL,dataFrame,SQL,println,-------------
From: https://www.cnblogs.com/jsqup/p/16637273.html

相关文章

  • 基本的mysql语句
    基本的mysql语句  本节课先对mysql的基本语法初体验。操作文件夹(库)增createdatabasedb1charsetutf8;查#查看当前创建的数据库showcreatedatabase......
  • SqlServer定时备份数据库
    https://jingyan.baidu.com/article/75ab0bcb0f1a6497864db2ed.html1、打开SqlServer数据库,点击【管理】,右键【维护】,选择维护计划向导  2、输入计划名称,点击【更改......
  • MySQL(三)+测试题
    MySQL索引在MySQL中,创建MySQL的索引主要是为了提⾼MySQL查询的效率。但是添加太多的索引也是会降低更新表的速度的,因为对表进⾏DML操作的时候,MySQL的内部不仅仅要保存数......
  • MySQL(四)-补充
    1、内查询:2种表示方法以testdev数据库的goods表和shop表为例:查询出goods表的name和shop表的name、level:第1种方法:第2种方法:2、创建表:ifnotexistscreatetablei......
  • MySql面试题总结
    1、having和where的区别解答:having子句用于分组后筛选,where子句用于行条件筛选where条件子句中不能使用聚集函数,而having子句就可以。having只能用在groupby之后,where......
  • springboot定时同步数据,从sqlserver到mysql
    定时同步数据,从sqlserver到mysql 注意事项:一.primary:master #设置默认的数据源或者数据源组,默认值即为master二.@Scheduled()和 @DS("slave_1")注解 步骤:1.......
  • spring-boot-starter-data-jpa + SQLite简单例子(含全部代码)
    简介1.sqlite:SQLite是比Access更优秀的文件型数据库,支持复杂的SQL语句,支持索引、触发器,速度很快,开源等。2.jpa:SpringDataJPA是Spring基于ORM框架、JPA规范的......
  • MySQL4
    mysql5内链接   左连接1、先走内连接的逻辑2、再查询出左表所有的数据  select*fromgoodgleftjoinshopsong.id=s.good_id;  右链接  s......
  • Android sqlcipher 对于加密的Sqlite库在Mac上进行解密的正确姿势
    前言:说实话我平常对于工作中的一些所经历的问题很少记录成文,基本上都是一些学习笔记,这里打算备忘一篇,由于领导的要求,最近也刚好在大重构,需要对AndroidApp中应用使用的db......
  • sql中stuff函数的用法
    1.作用:删除指定字符串参数。 2.语法:stuff(character_expression,start,length,character_expression)四个参数:parm1,parm2,parm3,parm4pa......