首页 > 其他分享 >hive ACID事务得应用场景

hive ACID事务得应用场景

时间:2023-11-08 20:01:08浏览次数:31  
标签:事务 场景 分区 hive Apache ACID ORC

 Hive的ACID语义可以完成以下使用场景:

1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。 这些工具都是每秒百万行级的数据写入,而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区会对表中的分区数量形成压力。当然可以事先创建好分区再将数据导入,但这样会引起脏读,而且目录下生成的小文件会对namenode造成很大的压力。而新特性可以很好的解决上述问题。

2、减少维度的变化。 减少多维表的变化。

3、数据的更新。INSERT, UPDATE。

4、通过SQL MERGE 批量的更新。

 

限制条件:

1、默认事务是关闭的,需要设置开启。(hive3.0之后默认创建表就是事务表)

2、要是使用这些特性,表必须是分桶的。

3、目前只支持ORC 的文件格式。参考:ORC File Format存储格式 和 ORC file format

4、BEGIN, COMMIT, ROLLBACK 暂时不支持,所有操作自动提交。

5、必须这是事务管理器 org.apache.hadoop.hive.ql.lockmgr.DbTxnManager ,否则事务表无法工作。

6、目前支持快照级别的隔离。就是当一次数据查询时,会提供一个数据一致性的快照。

7、LOAD DATA. 语句目前在事务表中暂时不支持。

标签:事务,场景,分区,hive,Apache,ACID,ORC
From: https://www.cnblogs.com/chong-zuo3322/p/17818169.html

相关文章

  • 基于hive旅游数据的分析与应用-计算机毕业设计源码+LW文档
    摘 要随着计算机技术发展,计算机系统的应用已延伸到社会的各个领域,大量基于网络的广泛应用给生活带来了十分的便利。所以把旅游数据管理与现在网络相结合,利用计算机搭建旅游数据的分析与应用系统,实现旅游数据的信息化。则对于进一步提高旅游数据管理发展,丰富旅游数据管理经验能起......
  • Redis使用场景
    核心知识点:1.Redis可以做什么:缓存、排行榜、消息队列、计数器和社交网络。2.Redis不适合做什么:不适合大数据规模的存储和冷数据的存储。 一、Redis可以做什么1.缓存缓存机制几乎在所有的大型网站都有使用,合理地使用缓存不仅可以加快数据的访问速度,而且能够有效地降低后端数据源地......
  • StarRocks 新一代极速全场景MPP数据库
    StarRocks介绍1.StarRocks介绍StarRocks是新一代极速全场景MPP数据库。StarRocks充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。StarRocks致力于构建极速统一......
  • Hive累积值、平均值、首尾值的计算学习
    Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM()、AVG()等使用;可以结合FIRST_VALUE()和LAST_VALUE(),返回窗口的第一个和最后一个值。如果只使用partitionby子句,未指定orderby的话,我们的聚合是分组内的聚合.使......
  • 视频直播场景下对象存储的应用
    本文分享自天翼云开发者社区《视频直播场景下对象存储的应用》,作者:王****宇视频直播是当前比较火的互联网应用场景,越来越多的人通过直播进行娱乐和营销带货。国家规定,直播带货类需提供不低于3年的存档回看能力,而其他直播内容也需要提供不低于60天的视频保存能力。具体要求可参看:......
  • 了解交换口的链路类型以及实际使用场景(access篇)
    作者:网络之路一天 首发公众号:网络之路博客(ID:NetworkBlog)VLAN在数据包中如何体现?在上一篇实际测试了,从PC2访问PC1的时候,ARP请求广播包,只从E0/0/2发送给E0/0/3,这是因为两个口都配置成了accessvlan10里面,那一个数据包过来交换机它具体是如何处理的呢?,这就要了解下VLAN以及access处理......
  • Apache Hudi Timeline:支持 ACID 事务的基础
    ApacheHudi维护在给定表上执行的所有操作的Timeline(时间线),以支持以符合ACID的方式高效检索读取查询的数据。在写入和表服务期间也会不断查阅时间线,这是表正常运行的关键。如果任何时间线操作出现混乱(由于多写入未配置锁提供程序等),则可能导致数据一致性问题(数据丢失或数据重......
  • Hivesql字符截取函数错用
    1.背景       最近在使用instr进行字符截取时出现了字符截断的情况,案例是需要获取出"红河哈尼族矫族自治州(xxxx(红河)有限公司)"里面的"xxxx(红河)有限公司"内容,结果获取到的内容是"xxxx(红河",该语句针对只有一对括号时没有问题,当出现这种有两个括号时就会出现截断的问题,......
  • 前端javasript——forEach、map、filter和reduce的使用场景
    (文章目录)⭐前言大家好,我是yma16,不止前端,本文分享关于前端javasript——forEach、map、filter、reduce区别与使用。自我介绍前端->全栈开发,csdn内容合伙人,2023csdn新星计划Node赛道Top1,csdn2023新星计划vue3+ts赛道导师,阿里云社区专家博主,华为云享专家,前端技术栈:vue2v......
  • uniapp小程序小bug,扫码进入小程序场景值为1001的情况之一。
    首先,这个问题原因是这样的用户第一次扫码进入小程序在app.vue的onLaunch下拿不到optiond的query对象的值场景值为1001,按照正常来说扫码进来应该是1047。排查原因只有用户在打开小程序的情况下没有杀掉进程只是切换页面到微信主页进行扫码进入小程序,结果就会出现扫码进入小程序的......