首页 > 其他分享 >spark

spark

时间:2023-03-09 09:58:52浏览次数:25  
标签:show sql spark guid accessDF select

对hive表操作

spark-shell 进入界面

spark.sql("").show -----sql 语句

spark.table("").show 查看表

spark.sql("select guid,count(1) as num from phonec group by guid").show

image-20230308202850200

spark.sql("select guid,count(1) as num from phonec group by guid").filter("guid is not null").show

image-20230308203051032

spark.sql("select guid,count(1) as num from phonec group by guid").filter("guid is not null").write.saveAsTable("hive_table_1");

image-20230308203313712

 

然后再通过hive再把表导出即可

 

DataFream

import org.apache.hadoop.shaded.org.eclipse.jetty.websocket.common.frames.DataFrame;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


public class TopN {
  public static void main(String[] args) {
      var spark = SparkSession.builder().appName("TopN").master("local[2]").getOrCreate();

      Dataset<Row> accessDF = spark.read().
              format("csv").
              option("header","true").
              option("encoding","utf-8").
              load("E:\\333.csv");

      //输出结构信息
      accessDF.printSchema();

      //创建一个视图
      accessDF.createOrReplaceTempView("people");

      Dataset<Row> sqlDF = spark.sql("SELECT * FROM people");

      //输出内容信息 默认20条
      sqlDF.select(sqlDF.col("id"),sqlDF.col("差评率")).show();

      //查询某列
      accessDF.select("id","好评率").show();

      //查询所有
      accessDF.show(false);


      System.out.println("-------------------");
      viodeAccess(spark,accessDF);

      spark.stop();
      //下一步连接数据库 然后把数据写到数据库中 然后数据库提取
      //还有一个就是打包成jar 然后写 怎么写
       

  }

  /**
    *
    * @param sparkSession
    * @param dataFrame
    */
  public static void viodeAccess(SparkSession sparkSession, Dataset dataFrame)
  {
      dataFrame.createOrReplaceTempView("person");

      Dataset<Row> sql = sparkSession.sql("select * from person where id = '17118937440'");

      sql.show();
  }
}

标签:show,sql,spark,guid,accessDF,select
From: https://www.cnblogs.com/shuangshuangzi/p/17197195.html

相关文章

  • Spark性能调优
    1、概述在大数据领域,肯定有很多小伙伴跟笔者一样为了让生产中数据执行速度更快、性能更高而去使用Spark,当我们用Spark程序实现功能开发并使程序正常稳定运行起来的时候,一定......
  • Java应用【XIV】使用Apache Spark MLlib构建机器学习模型【下】
    如果您觉得本博客的内容对您有所帮助或启发,请关注我的博客,以便第一时间获取最新技术文章和教程。同时,也欢迎您在评论区留言,分享想法和建议。谢谢支持!​四、无监督学习4.1聚......
  • spark SQL 连接hive
    将hive的conf下的hive-site.xml复制到spark的conf下cp/usr/local/hive/apache-hive-1.2.2-bin/conf/hive-site.xml/usr/local/spark/spark-2.0.2-bin-hadoop2.6/conf/......
  • Java应用【XIII】使用Apache Spark MLlib构建机器学习模型【上】
    如果您觉得本博客的内容对您有所帮助或启发,请关注我的博客,以便第一时间获取最新技术文章和教程。同时,也欢迎您在评论区留言,分享想法和建议。谢谢支持!​​一、引言1.1Spark......
  • Spark系列 - (6) Spark 内存管理
    6.Spark内存管理在执行Spark的应用程序时,Spark集群会启动Driver和Executor两种JVM线程,前者为主控进程,负责创建Spark上下文,提交Spark作业(Job),并将作业转化为计算任务(Task),在......
  • spark运行架构
    spark的核心框架是一个计算引擎,它采用了标准的中从结构 Driverspark的驱动器节点,主要执行spark中的main方法,负责实际代码的执行工作 Driver可以理解为使整个应用......
  • spark 提交的参数说明
    以bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://linux1:7077\./examples/jars/spark-examples_2.12-3.0.0.jar\10为例1)--......
  • Spark系列 - (5) Spark Shuffle
    目前已经更新完《Java并发编程》,《JVM性能优化》,《Spring核心知识》《Docker教程》和《Spark基础知识》,都是多年面试总结。欢迎关注【后端精进之路】,轻松阅读全部文章。......
  • Hadoop&Spark-Lec-Something-New
    NarrowandWideTransformationsNarrowtransformation:Asingleoutputpartitioncanbecomputedfromasingleinputpartition不需要考虑数据分区eg.filter(),......
  • pyspark 结构化数据开发实例
    本文是一个基于pyspark的进行海量数据ETL和统计分析的代码示例,仅供参考要点:1,使用pyspark读取mysql表数据。2,使用rddapi对结构化数据做简单ETL,设置了简单的清洗......