• 2024-07-01Hive基础及安装
    Hive基础了解HiveHive就像一个超级聪明的图书管理员,它住在一个很大的图书馆里(这个图书馆就是Hadoop),能帮助人们找到他们想要的信息。它用一种特别的语言(HiveSQL)来理解人们的问题,然后帮他们找到答案。但是,Hive不擅长做那些需要立刻回答的问题,它更喜欢帮助人们处理很多信息,然
  • 2024-06-30Hive 实操案例五:统计每个类别中 Top10 的视频热度
    一、数据表结构视频表t_video字段注释描述videoId视频唯一id(String)11位字符串uploader视频上传者(String)上传视频的用户名Stringage视频年龄(int)视频在平台上的整数天category视频类别(Array<String>)上传视频指定的视频分类length视频长度(Int)整形数字标识的视频长度vie
  • 2024-06-24Day11 —— 大数据技术之Spark
    Spark快速入门系列Spark的概述什么是Spark?Spark的主要特点Spark的主要组件Spark安装Spark三种运行模式SparkStandalone架构SparkStandalone的两种提交方式SparkOnYARN架构RDD算子转化算子行动算子SparkRDDRDD的创建从对象集合创建RDD从外部存储创建RDDSparkS
  • 2024-06-24111
    su-hadoopstart-dfs.shstart-yarn.shcd/export/server/hivenohupbin/hive--servicemetastore>>logs/metastore.log2>&1&nohupbin/hive--servicehiveserver2>>logs/hiveserver2.log2>&1&/export/server/zookeeper/bin/zkS
  • 2024-06-23Hadoop+Hive超全笔记 一站式搞定!!
    Hadoophadoop集群的组成hadoop常用端口HDFS常用shell命令HDFS的原理、机制块和副本edits和fsimage文件HDFS的三大机制HDFS数据上传、写入原理(写流程)【重点】HDFS数据读取(读流程)【重点】原数据存储流程【重点】安全模式归档机制(小文件)垃圾桶机制MapReduce底层原
  • 2024-06-23Spark SQL与Hive的整合
    在大数据时代,处理和分析海量数据集的能力变得至关重要。ApacheSpark和Hive作为两个强大的数据处理工具,在数据仓库和分析领域有着广泛的应用。本文将探讨如何将SparkSQL与Hive整合,以及如何利用这一整合来提高数据处理的效率和灵活性。SparkSQL简介SparkSQL是ApacheSpark的一
  • 2024-06-23数据仓库Hive
    ApacheHive安装、配置与基本操作指南ApacheHive是一个基于Hadoop的数据仓库工具,可以将结构化数据文件映射为一张表,并提供类SQL查询功能。本文将结合两篇详细的技术文档,介绍Hive的安装、配置以及基本操作。一、Hive的安装与配置1.环境准备在安装Hive之前,需要确保
  • 2024-06-23数据仓库之Hive
    ApacheHive是一个基于Hadoop的数据仓库软件,它提供了数据摘要、查询和分析的大数据能力。Hive通过类似于SQL的HiveQL语言,使用户能够在不深入了解MapReduce的情况下进行大数据处理和分析。以下是对Hive的详细介绍:1.核心概念HiveQL:Hive提供了一种类似于SQL的查询语言,称为Hiv
  • 2024-06-22Hive笔记-4
    240618-Hive笔记-44.2Insert4.2.1将查询结果插入表中1)语法INSERT (INTO |OVERWRITE)TABLE tablename[PARTITION (partcol1=val1,partcol2=val2...)]select_stamement;关键字说明:(1)INTO:将结果追加到目标表(2)OVERWRITE:用结果覆盖原有数据2)案例
  • 2024-06-20Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南
    目录在Tez上优化Hive查询的指南调优指南理解Tez中的并行化理解mapper数量理解reducer数量并发案例1:未指定队列名称案例2:指定队列名称并发的指南/建议容器复用和预热容器容器复用预热容器一般Tez调优参数在Tez上优化Hive查询的指南在Tez上优化Hive查询无法采用一刀切的方法。查询
  • 2024-06-20数据处理技术-Hive的表与数据类型
    Hive数据模型Hive的数据模型主要由表构成,包括内部表,外部表,分区表和桶表。我也将从这四个方面介绍。在这之前先介绍另外一个概念:DDL,DataDefinitionLanguage数据定义语言,是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言。核心语法由CREATE,ALTER,DROP
  • 2024-06-18数据分析与处理技术-题目测试
    搜集了一些简单的题目来测试Hadoop和Hive的基础知识掌握程度。用于复习或者自测都很合适。1EB等于多少TB?A.210
  • 2024-06-14hive笔记
    hive环境搭建基础环境准备由于centos7系统自带的mariadb数据库会和mysql冲突,所以首先要将它删掉。使用rpm命令sudorpm-qa|grep-imariadb查看是否还有mariadb数据库。如下图就是存在:根据显示的版本将对应mariadb数据库删除。仍是使用rpm的命令sudorpm-e--nodepsm
  • 2024-06-13hive函数学习
    复制粘贴到MD文档中查看更方便Hive函数学习目录Hive函数学习SQL练习Hive常用函数关系运算数值计算条件函数(主要使用场景是数据清洗的过程中使用,有些构建表的过程也是需要的)日期函数重点!!!字符串函数Hive中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战:实战1
  • 2024-06-13hive优化
    复制粘贴到md中查看Hive优化1.1 hive的随机抓取策略理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们省略掉了这个过程,把切片split的过程提前帮我们做了。sethive.fetch.task.conversion=none;(一旦进行这么设置,select字段名也是需要进行mapreduce
  • 2024-06-12HIVE从入门到精通------(1)hive的基本操作
    1.开启hive1.首先在master的/usr/local/soft/下启动hadoop:master:start-all.shstart-all.sh2.在另一个master(2)上监控hive日志:master(2):tail-F/tmp/root/hive.logtail-F/tmp/root/hive.log3.在master上启动元数据服务:
  • 2024-06-12Hive优化
    hive的随机抓取策略理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们省略掉了这个过程,把切片split的过程提前帮我们做了。sethive.fetch.task.conversion=none;(一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more)本地运行模式
  • 2024-06-08摸鱼大数据——Hive调优1-3
    hive官方配置url:ConfigurationProperties-ApacheHive-ApacheSoftwareFoundation1、调优方式hive参数配置的意义:开发Hive应用/调优时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践中经常遇到的一个问题是,为什
  • 2024-06-07hive性能优化系列-distinct-有限key
    案例方式1使用groupbyselects_age,count(1)from(selects_agefromstudent_tb_orcgroupbys_age)b方式2使用distinctselects_age,count(distincts_age)fromstudent_tb_orc分析数据量特别大方式1的代码在数据量特别大的情况下能够有效避免Reduce端的数据
  • 2024-06-07Spark读取http数据写入hive
    http请求hutool,json转换数据写入到rdd,之后转换为sparksqlSparkSessionspark=SparkSession.builder().master("yarn").appName("json2hive").config("hive.exec.dynamic.partition","true").config("
  • 2024-06-06Hive3.1.2概述与基本操作
    、Hive基本概念1.1 Hive简介Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。为什么使用Hive?如果直接使用hadoop的话,人员学习成本太高,项目要
  • 2024-06-06Hive3.1.2分区与排序(内置函数)
    1、Hive分区(十分重要!!)分区的目的:避免全表扫描,加快查询速度!在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分
  • 2024-06-06hive-3.1.2分布式搭建
    hive-3.1.2分布式搭建文档谷歌浏览器下载网址:GoogleChrome–Downloadthefast,securebrowserfromGoogle华为云镜像站:https://mirrors.huaweicloud.com/home1、上传解压配置环境变量#1、解压tar-zxvfapache-hive-3.1.2-bin.tar.gz-C/usr/local/s
  • 2024-06-06hive概述与基础操作
    Hive3.1.2概述与基本操作(此笔记使用MD文档写的,可直接复制到MD中,方便查看)1、Hive基本概念1.1 Hive简介Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce
  • 2024-06-04【数据库】StarRocks、Hive、ClickHouse、Tidb的对比及使用场景
    特性StarRocksHiveClickHouseTiDB数据存储列存储(ColumnarStorage)行存储(RowStorage)列存储(ColumnarStorage)混合存储(行存储和列存储)查询性能高低高高主要用途实时分析(Real-timeAnalytics)大数据批处理(BatchProcessing)实时分析(Real-timeAnalytics)OLTP与O