得帆中台数据中spark sql和hive sql的效率差异记录

时间：2024-08-23 10:04:10浏览次数：15

标签：得帆 47 08 sql update hive month time

在数据处理方面，spark sql的处理速度优于hive sql
场景1：在数据条数为491条时，使用spark sql 和hive sql在中台处理的时间，分别用时9s和55s

//使用的SQL语句
SELECT
  YEAR(update_time) AS year,
  month(update_time) as month
FROM
  dwd_tb_customer_store_appraise
WHERE
  YEAR(update_time) = 2023
GROUP BY
  YEAR(update_time),
  month(update_time)
ORDER BY
  year,
  month

spark sql结果：

    2024-08-23 09:47:28 get jobid:614507662721155072 
     2024-08-23 09:47:37 INFO Cost time is: +9.000+s 
     2024-08-23 09:47:37 INFO Current task status: SUCCESS

hive sql结果：
 2024-08-23 09:47:47 get jobid:614752808616329216 
 2024-08-23 09:47:47 INFO Current task status:RUNNING 
 2024-08-23 09:47:47 sql: 
 --Hive  

 SELECT 
   YEAR(update_time) AS year, 
   month(update_time) as month 
 FROM 
   dwd_tb_customer_store_appraise 
 WHERE 
   YEAR(update_time) = 2023 
 GROUP BY 
   YEAR(update_time), 
   month(update_time) 
 ORDER BY 
   year, 
   month 
 2024-08-23 09:48:42 INFO Cost time is: +55.000+s 
 2024-08-23 09:48:42 INFO Current task status: SUCCESS

结论：可看出在执行数据处理时，使用spark sql的效率要优于hive sql

标签：得帆,47,08,sql,update,hive,month,time
From： https://www.cnblogs.com/leo130-blogs/p/18375366

慢 SQL 是如何拖垮数据库的？
案发现场上午9:49，应用报警：错误码4103.ERR_ATOM_CONNECTION_POOL_FULL，提示数据库连接池已满。在上午9:49至10:08的这段时间内，又陆续接收到了多个数据库异常报警，包括4200.ERR_GROUP_NOT_AVAILABLE、4201.ERR_GROUP_NO_ATOM_AVAILABLE以及4202.ERR_SQL_QUERY_TIMEOUT等。鉴于数据......
P[ostgreSQL16在Windows下安装
1.官网下载安装包并安装2.安装时遇到问题Problemrunningpost-installstep.Installationmaynotcompletecorrectlty.Thedatabaseclusterinitialisationfailed.解决方法:安装完成后管理员启动cmd，cd到pg的bin目录输入D:\PostgreSQL\bin>initdb.exe-DD:\database......
MySQL 亿级数据平滑迁移实战
本文介绍了一次MySQL数据迁移的流程，通过方案选型、业务改造、双写迁移最终实现了亿级数据的迁移。一、背景预约业务是vivo游戏中心的重要业务之一。由于历史原因，预约业务数据表与其他业务数据表存储在同一个数据库中。当其他业务出现慢SQL等异常情况时，可能会直接影响......
SQL 查询优化之 WHERE 和 LIMIT 使用索引详解
奇怪的慢sql我们先来看2条sql第一条：第二条：表的索引及数据总情况：索引：acct_id，create_time分别是单列索引，数据库总数据为500w。通过acct_id过滤出来的结果集在1w条左右。查询结果：第一条要5.018s，第二条0.016s为什么会是这样的结果呢？第一，acct_id和create_time都有索引，不......
【面试】一文搞懂MySQL的分库分表！
MySQL分库分表是一种数据库优化手段，通常用于应对数据量巨大、并发量高的场景。随着系统数据的增长，单个数据库可能难以承受高负载，进而影响性能和可扩展性。分库分表的目标是将数据分散到多个库或表中，从而减少单一库或表的压力，提高系统性能。目录一我们为什......
2.SQL
SQL一.区分SQL二.基础运行逻辑1.建立客户端与服务端的链接2.查询过程三.库和表的增删改操作1.对于库的代码操作2.对于表的代码操作四.表的查询1.普通查询操作2.子查询和链接查询3.窗口函数【sum()over(partitionby字段orderby字段desc)】一.区分SQL mysql：......
MySQL面试问题（二）
MySQL面试问题（二）文章目录MySQL面试问题（二）为什么要使用索引索引是不是越多越好MySQL索引机制什么是聚簇索引没有主键innodb如何处理联合索引批量向MySQL中导入1000w数据如何优化分页时偏移量很大效率很差如何优化大数据量高并发访问数据库优化方法为什么要使用索引......
python 05-标准库：csv、json、sqlite3、datetime模块
csv模块importcsv#data.csv不存在时，会现在当前目录下创建一个data.csv文件withopen("data.csv","w",encoding='utf-8')asfile:writer=csv.writer(file)writer.writerow(["trasanction_id","product_id","pric......

得帆中台数据中spark sql和hive sql的效率差异记录

相关文章

赞助商

阅读排行