spark

spark

时间：2023-03-09 09:58:52浏览次数：25

标签：show sql spark guid accessDF select

对hive表操作

spark-shell 进入界面

spark.sql("").show -----sql 语句

spark.table("").show 查看表

spark.sql("select guid,count(1) as num from phonec group by guid").show

spark.sql("select guid,count(1) as num from phonec group by guid").filter("guid is not null").show

spark.sql("select guid,count(1) as num from phonec group by guid").filter("guid is not null").write.saveAsTable("hive_table_1");

然后再通过hive再把表导出即可

DataFream

import org.apache.hadoop.shaded.org.eclipse.jetty.websocket.common.frames.DataFrame;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


public class TopN {
    public static void main(String[] args) {
        var spark = SparkSession.builder().appName("TopN").master("local[2]").getOrCreate();

        Dataset<Row> accessDF = spark.read().
                format("csv").
                option("header","true").
                option("encoding","utf-8").
                load("E:\\333.csv");

        //输出结构信息
        accessDF.printSchema();

        //创建一个视图
        accessDF.createOrReplaceTempView("people");

        Dataset<Row> sqlDF = spark.sql("SELECT * FROM people");

        //输出内容信息 默认20条
        sqlDF.select(sqlDF.col("id"),sqlDF.col("差评率")).show();

        //查询某列
        accessDF.select("id","好评率").show();

        //查询所有
        accessDF.show(false);


        System.out.println("-------------------");
        viodeAccess(spark,accessDF);

        spark.stop();
        //下一步连接数据库 然后把数据写到数据库中 然后数据库提取
        //还有一个就是打包成jar 然后写 怎么写
        

    }

    /**
     *
     * @param sparkSession
     * @param dataFrame
     */
    public static void viodeAccess(SparkSession sparkSession, Dataset dataFrame)
    {
        dataFrame.createOrReplaceTempView("person");

        Dataset<Row> sql = sparkSession.sql("select * from person where id = '17118937440'");

        sql.show();
    }
}

标签：show,sql,spark,guid,accessDF,select
From： https://www.cnblogs.com/shuangshuangzi/p/17197195.html

Spark性能调优
1、概述在大数据领域，肯定有很多小伙伴跟笔者一样为了让生产中数据执行速度更快、性能更高而去使用Spark，当我们用Spark程序实现功能开发并使程序正常稳定运行起来的时候，一定......
Java应用【XIV】使用Apache Spark MLlib构建机器学习模型【下】
如果您觉得本博客的内容对您有所帮助或启发，请关注我的博客，以便第一时间获取最新技术文章和教程。同时，也欢迎您在评论区留言，分享想法和建议。谢谢支持！四、无监督学习4.1聚......
spark SQL 连接hive
将hive的conf下的hive-site.xml复制到spark的conf下cp/usr/local/hive/apache-hive-1.2.2-bin/conf/hive-site.xml/usr/local/spark/spark-2.0.2-bin-hadoop2.6/conf/......
Java应用【XIII】使用Apache Spark MLlib构建机器学习模型【上】
如果您觉得本博客的内容对您有所帮助或启发，请关注我的博客，以便第一时间获取最新技术文章和教程。同时，也欢迎您在评论区留言，分享想法和建议。谢谢支持！一、引言1.1Spark......
Spark系列 - (6) Spark 内存管理
6.Spark内存管理在执行Spark的应用程序时，Spark集群会启动Driver和Executor两种JVM线程，前者为主控进程，负责创建Spark上下文，提交Spark作业（Job），并将作业转化为计算任务（Task），在......
spark运行架构
spark的核心框架是一个计算引擎，它采用了标准的中从结构 Driverspark的驱动器节点，主要执行spark中的main方法，负责实际代码的执行工作 Driver可以理解为使整个应用......
spark 提交的参数说明
以bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://linux1:7077\./examples/jars/spark-examples_2.12-3.0.0.jar\10为例1)--......
Spark系列 - (5) Spark Shuffle
目前已经更新完《Java并发编程》,《JVM性能优化》,《Spring核心知识》《Docker教程》和《Spark基础知识》，都是多年面试总结。欢迎关注【后端精进之路】，轻松阅读全部文章。......
Hadoop&Spark-Lec-Something-New
NarrowandWideTransformationsNarrowtransformation:Asingleoutputpartitioncanbecomputedfromasingleinputpartition不需要考虑数据分区eg.filter(),......
pyspark 结构化数据开发实例
本文是一个基于pyspark的进行海量数据ETL和统计分析的代码示例，仅供参考要点：1，使用pyspark读取mysql表数据。2，使用rddapi对结构化数据做简单ETL，设置了简单的清洗......

对hive表操作

DataFream

相关文章

赞助商

阅读排行