• 2024-09-08大数据毕业设计-基于大数据爬虫+hive的热门旅游景点数据分析平台设计和实现,基于hive的热门旅游景点数据分析平台和可视化推荐系统的设计和实现(源码+LW+部署文档+远程调试+代码讲解等)
    博主介绍:✌️码农一枚,专注于大学生项目实战开发、讲解和毕业
  • 2024-09-08Hive 比较BIGINT类型和Binary类型
    鱼弦:公众号:红尘灯塔,CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者(go-zero源码二次开发、游戏后端架构https://github.com/Peakchen)HiveBIGINT类型和Binary类型比较HiveBIGINT类型和Binary类型都是用于存储数字数据的类型。它们之间有以下区别:1.
  • 2024-09-07Hive的一些基本函数(二)
    一、窗口函数当查询的要求,既要明细查询又要统计查询的时候,这时候考虑开窗,通过over语法让两种查询同时执行比如:需求:查询每个订单的信息,以及订单的总数姓名,购买日期,购买数量saml,2018-01-01,10saml,2018-01-08,55tony,2018-01-07,50saml,2018-01-05,46tony,2018-01-04
  • 2024-09-05hive日期函数的使用
    hive日期函数的使用hive日期函数如下:current_datecurrent_timestampdate_formatdate_adddate_subdatediffdaydayofmonthdayofweekfloor_dayfloor_hourfloor_minutefloor_monthfloor_quarterfloor_secondfloor_week
  • 2024-09-05Hive DML(数据操作语言)操作指南
    目录DML(DataManipulationLanguage)数据操作 Load1)语法2)实操案例 Insert 将查询结果插入表中1)语法2)案例 将给定Values插入表中1)语法2)案例 将查询结果写入目标路径1)语法2)案例 Export&Import1)语法2)案例DML(DataManipulationLanguage)数据操作 Load
  • 2024-09-05Hive时间窗口函数保姆级教程(最全解析、应用和优化)(持续更新)
    目录第一章Hive时间窗口函数基础1.1时间窗口函数定义1.2Hive支持的时间窗口函数1.2.1ROW_NUMBER()1.2.2RANK()1.2.3DENSE_RANK()1.2.4LEAD()和LAG()1.2.5FIRST_VALUE()和LAST_VALUE()1.3时间窗口函数语法与参数1.3.1PARTITIONBY子句1.3.2ORDERBY
  • 2024-09-04ETL数据集成丨ETLCloud助力Doris至Hive的数据整合
    在现代企业数据架构中,数据整合是至关重要的一个环节,它不仅关乎数据的准确性与一致性,还直接影响到数据分析的有效性和业务决策的精确性。Doris(原名Palo)与Hive是两大在大数据处理领域内广泛应用的数据存储与分析系统,它们各有千秋,适用于不同的场景。将Doris数据整合至Hive数据库,旨
  • 2024-09-03Hive整合MySQL
     目录Hive整合MySQL 安装MySQL1)上传MySQL安装包以及MySQL驱动jar包2)解压MySQL安装包3)卸载系统自带的mariadb4)安装MySQL依赖5)安装mysql-client6)安装mysql-server7)启动MySQL8)查看MySQL密码配置MySQL1)用刚刚查到的密码进入MySQL(如果报错,给密码加单引号)2)设置复杂密
  • 2024-09-03Hive(三)查询
    查询[WITHCommonTableExpression(,CommonTableExpression)*](Note:OnlyavailablestartingwithHive0.13.0)SELECT[ALL|DISTINCT]select_expr,select_expr,...FROMtable_reference[WHEREwhere_condition][GROUPBYcol_list][ORDERBYcol_li
  • 2024-09-03Hive入门
    目录 Hive入门 什么是Hive1)Hive简介示例:统计单词出现个数2)Hive本质 Hive架构原理1)用户接口:Client说明:JDBC和ODBC的区别2)元数据:Metastore3)驱动器:Driver抽象语法树 逻辑计划与物理计划 4)Hadoop Hive入门 什么是Hive1)Hive简介Hive是由Facebook开源,基于H
  • 2024-09-02Hive(二)DML数据操作语言
    DML数据操作一、数据导入1、向表中装载数据hive>loaddata[local]inpath'路径'[overwrite]intotable表名[partition(partcol1=val1,…)];(1)loaddata:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表(3)inpath:表示加载数据的路径(4)overw
  • 2024-09-02Hive(一)数据类型以及DDL数据定义
    Hive数据类型一、基本数据类型Hive数据类型Java数据类型TINYINTbyteSMALINTshortINTintBIGINTlongBOOLEANbooleanFLOATfloatDOUBLEdoubleSTRINGstringTIMESTAMPBINARY对于Hive的String类型相当于数据库的varchar类型,该类型是
  • 2024-09-01暑假第六周
    1.深入学习Hadoop生态系统在下一周,我计划进一步深入了解Hadoop生态系统中的几个关键组件,以扩展我对Hadoop的理解和应用能力。具体而言,我将重点研究以下几个方面:HBase:作为一个分布式、可扩展的NoSQL数据库,HBase提供了强大的实时读写能力和高效的随机访问特性。我计划通过安装
  • 2024-08-30POA:已开源,蚂蚁集团提出同时预训练多种尺寸网络的自监督范式 | ECCV 2024
    1.概述ApacheHive是一款建立在Hadoop之上的数据仓库工具,它提供了类似于SQL的查询语言,使得用户能够通过简单的SQL语句来处理和分析大规模的数据。本文将深入分析ApacheHive的源代码,探讨其关键组件和工作原理,以便更好地理解其在大数据处理中的角色。2.内容在开始源代码分析之前
  • 2024-08-29Hive源码解析
    1.概述ApacheHive是一款建立在Hadoop之上的数据仓库工具,它提供了类似于SQL的查询语言,使得用户能够通过简单的SQL语句来处理和分析大规模的数据。本文将深入分析ApacheHive的源代码,探讨其关键组件和工作原理,以便更好地理解其在大数据处理中的角色。2.内容在开始源代码分析之前
  • 2024-08-28暑假第二周
    学习Hadoop数据库(第二周)本周工作总结深入学习Hadoop生态系统组件本周,我深入学习了Hadoop生态系统中的几个重要组件,包括Hive、Pig和HBase。通过阅读官方文档和相关教程,我掌握了Hive的数据仓库功能,它允许使用SQL-like语言进行数据查询和分析。Pig的脚本语言(PigLatin)也进行了学
  • 2024-08-28Hive用户定义函数 [单列函数UDF | 聚合函数UDAF]
    Hive中函数有4类:单行函数、聚合函数、炸裂函数、窗口函数用户定义函数(UDF:User-DefinedFunctions)按输入行数与输出行数的对应关系:UDF:普通函数,一进一出UDAF:聚合函数,多进一出UDTF:表生成函数,一进多出,如输入一行array类型,返回3行string类型一、单列函数(UDF-一进一出)1、字符串
  • 2024-08-26HIVE SQL 高频(持续更新)
    整理自数据分析常考面试题100题1.连续日期1、为日期排序 row_number()over(partitionbyuse_idorderbydate)asrank2、求日期和排序的差值3、求diff出现最多的次数 max(count(diff))例1:-每个用户一周活跃天数-SELECTuser_id,COUNT(1)ASactiv
  • 2024-08-25大数据开发工程师必懂的Hive调优与实战保姆指南
    目录第一章基于Hadoop的数据仓库Hive基础知识1.1概述一、数据仓库的定义与传统数据仓库的挑战二、Hive的诞生背景与作用三、Hive的主要特点四、Hive的实际应用场景五、Hive在大数据处理和分析领域的重要地位1.2Hive系统架构一、Hive系统架构的组成部分
  • 2024-08-24计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据
    流程:1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;3.hive建库建表导入.csv动漫数据;4.一半指标使用hive_sql分析得出,一半指标使
  • 2024-08-23得帆中台数据中spark sql和hive sql的效率差异记录
    在数据处理方面,sparksql的处理速度优于hivesql场景1:在数据条数为491条时,使用sparksql和hivesql在中台处理的时间,分别用时9s和55s//使用的SQL语句SELECTYEAR(update_time)ASyear,month(update_time)asmonthFROMdwd_tb_customer_store_appraiseWHEREYEAR(
  • 2024-08-20Hadoop学习总结
    除了HDFS和MapReduce,Hadoop生态系统还包含了许多其他强大且实用的工具和框架,它们在数据分析和处理领域中发挥了重要作用。其中,Hive、Pig和Spark是几个尤为重要的组件,它们为处理和分析大数据提供了更高层次的抽象和简化的操作流程。在这篇报告中,我将分享我对这些工具的探索与使用经
  • 2024-08-148.14
    1、navicat远程连接Hive数据库1、打开navicat里的mysql连接2、使用SSH隧道出现上面这个显示连接就是成功3、设置常规连接显示成功后点击确定,navicat远程连接Hive数据库成功
  • 2024-08-14week日期的函数
     如下是hive的函数 selectdayofweek('2022-02-27');--dayofweek展示的是周几共计7个值,6代表周五=1selectweekofyear('2022-12-22');--51   如下为mysql的语句:SELECTWEEK(purchase_date)-WEEK('2023-11-01')+1week_of_month,--用
  • 2024-08-13hive 正则表达
    .:匹配任意单个字符(除了换行符)sql复制代码SELECT*FROMmy_tableWHEREmy_columnRLIKE'a.b';匹配"a",任意一个字符,"b"形式的字符串,例如"a1b"或"a!b"。^:匹配输入的开始sql复制代码SELECT*FROMmy_tableWHEREmy_columnRLIKE'^start';