• 2024-06-11presto 查询调度流程 (Coordinator Scheduler)
    basedontag:0.287presto的scheduler是SqlQueryScheduler这个类控制的,这个class主要是负责调度物理执行计划。调度具体的每个SqlStageExecution.这个Stage可以当成Fragment的一个概念他会先把所有的stage创建一个schedule计划。一共有两种schedule计划,一个是all-at-on
  • 2024-04-22MIT6824 MapReduce总结
    MapReduce是一个分布式大任务计算框架,旨在可以方便Google内部的将大型任务拆分到集群环境下,以得到并行化的处理速度。在分布式情况下,多台机器协作完成一个大型任务需要考虑很多问题:整个分布式系统中都有哪些角色?可以预见的就是肯定有任务的拆分者负责拆分调度任务,有任务的实际
  • 2024-04-18Trino418版本动态加载catalog不需要重启集群修改思路及实现2
       原来没事的时候改了一个这样的功能,当时也没有仔细研究,后来也没继续弄。详细可以参考 https://www.cnblogs.com/liuzx8888/p/17635913.html当时有1个问题:新增数据源需要每一个节点都去调取API注册,这样非常麻烦,最近闲下来又研究了一下,在原先的基础上做了一些改造。具体流
  • 2024-03-22dremio 官方对于软件版ha 以及扩展部署的参考方案
    关于dremio实际大规模部署的记录,内容来自官方文档dremio组件架构参考图此图包含了dremio的ha以及扩展,包含了主备Coordinator(故障转移的)提高查询性能的Coordinator,以及进行实际查询的执行器此部署中依赖lb,共享存储(nfs类的),zk(协调选举的),分布式存储(当然也可以使用共享存储,但
  • 2024-02-03dremio cluster docker-compose 运行
    dremio社区版,集群安装比较简单,核心就是一个配置(zk,分布式存储),为了方便本地环境的测试我基于docker-compose提供了一个方便部署的环境,可以使用环境配置docker-compose version:"3"services:zk:image:zookeeperports:-2181:21
  • 2024-01-18计算引擎-Flink
    参考:https://mp.weixin.qq.com/s/RUS9w-bGan6fDcF9CVqvFwcheckpoint1.CheckpointCoordinator向所有source节点triggerCheckpoint.然后SourceTask会在数据流中安插CheckPointbarrierJobManager对每一个job都会产生一个CheckpointCoordinator向所有source节点触
  • 2023-11-20Kafka异常——The coordinator is not available
    之前架设了一个Kafka集群,跑了很久没有什么错误,最近开发的小伙伴跟我说部分kafka不能消费了,了解详细情况后,自己也赶紧作了个测试,发现是有报错...Causedby:rg.apache.kafka.common.errors.CoordinatorNotAvailableException:Thecoordinatorisnotavailable....报错在网上
  • 2023-09-165_1_天天向上_(葵花宝典第1章ZigBee无线网络和收发器)
    ZigBeeWirelessNetworksandTransceivers又是ZigBee界的葵花宝典,为了自己更好的学习,所以决定将比较多的时间拿出来做点有意义的事,虽然翻译水平不是很高,但是在翻译的过程中肯定能得到进步,最关键的就是检验自己的毅力,看看能否坚持。在这个过程中,如果还能帮到一些正在入门ZigBee的朋
  • 2023-08-25Hue时间参数设置
    Oozie常用的系统常量常量使用公式含义说明${coord:minutes(intn)}返回日期时间:从一开始,周期执行n分钟${coord:hours(intn)}返回日期时间:从一开始,周期执行n*60分钟${coord:days(intn)}返回日期时间:从一开始,周期执行n*24*60分钟${coord:months(intn
  • 2023-08-16Trino418版本动态加载catalog不需要重启集群修改思路及实现
        熟悉Trino的同学应该都知道Trino新增、删除catalog都需要重启集群,这个生产环境里如果需要频繁增加数据源的场景是非常不友好的操作。  网上关于动态加载Catalog的方案有一些,但是在Trino比较新的版本里面已经无法适用。 目前官方关于这个功能一直都没有完成,详细
  • 2023-05-14【大数据】通过 docker-compose 快速部署 Presto(Trino)保姆级教程
    目录一、概述二、前期准备1)部署docker2)部署docker-compose三、创建网络四、Trino编排部署1)下载trino2)配置1、coordinator配置2、worker配置3)启动脚本bootstrap.sh4)构建镜像Dockerfile5)编排docker-compose.yaml6)开始部署五、简单测试验证1)mysql数据源2)hive数据源一、
  • 2023-04-10MIT 6.5840 2023 Spring(6.824)LAB1:MapReduce
    MIT6.58402023Spring(6.824)LAB1:MapReduce前言本次lab主要是完成一个基于RPC远程调用的单机单文件系统的简单MapReduce框架,并完成单词计数任务。基于golang实现,单Master,多Worker。实现worker的奔溃恢复(FaultTorrance),通过超时重新执行实现。主要的任务有,RPC调用参数及返回参数
  • 2023-03-15Kafka Rebalance-重平衡
    消费者组ConsumerGroupKafka提供的可扩展且具有容错性的消费者机制共享一个公共的ID,这个ID被称为GroupID。组内的所有消费者协调在一起来消费订阅主题(Subscribe
  • 2023-02-18Presto简介
    Presto简介Presto是一个由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto是一个运行在多台服务器上的分布式系统。完整安装包括一
  • 2023-02-06mit 6.824 lab1 思路贴
    前言为遵守mit的约定,这个帖子不贴太多具体的代码,主要聊聊自己在码代码时的一些想法和遇到的问题。这个实验需要我们去实现一个map-reduce的功能。实质上,这个实验分为
  • 2023-01-31OpenYurt v1.2 新版本深度解读(一): 聚焦边云网络优化
    本文作者:李志信,OpenYurtMember,ApachedubboPMC,专注于云原生边缘计算的系统架构和解决方案张逸飞,OpenYurtMember,浙江大学SEL实验室云原生边缘计算智能开源平台CN
  • 2023-01-28dremio ClusterCoordinator 服务简单说明
    dremioClusterCoordinator主要是处理集群任务协商的,比如那些服务可以在什么节点上运行,以及对于查询具体这么执行,对于元数据应该如果存储以及元数据如何进行刷新,同时还包含
  • 2023-01-21dremio ClusterCoordinator 服务简单说明
    dremioClusterCoordinator主要是处理集群任务协商的,比如那些服务可以在什么节点上运行,以及对于查询具体这么执行,对于元数据应该如果存储以及元数据如何进行刷新,同时还包
  • 2022-12-102022-6.824-Lab1:Map&Reduce
    lab地址:https://pdos.csail.mit.edu/6.824/labs/lab-mr.html1.介绍准备工作阅读MapReduce做什么实现一个分布式的Map-Reduce结构,在原先的代码结构中6.
  • 2022-10-28Kafka Consumer细节
    pollIO模型与内部线程Consumer消费多个来自多个Topic的多个分区的数据,在新版本中,它使用类似select、epoll这种IO模型来达到用一个线程管理多个来源的数据的功能。不过,Co
  • 2022-10-21MIT6.824_LEC3_GFS_Outline
    为什么我们要阅读GFS论文?分布式存储是关键的抽象概念接口和语法应该是怎样的?内部是怎么运行的?GFS论文对6.824这门课的很多主题有指导意义并行性能容错副本
  • 2022-08-19基于 Impala 的高性能数仓建设实践之虚拟数仓
    导读:本文主要介绍网易数帆NDH在Impala上实现的虚拟数仓特性,包括资源分组、水平扩展、混合分组和分时复用等功能,可以灵活配置集群资源、均衡节点负载、提高查询并发,并充