首页 > 其他分享 >面试疑难问题

面试疑难问题

时间:2024-05-22 15:57:56浏览次数:24  
标签:flume 疑难问题 分区 手动 kafka 面试 数据量 leader

  1. 为什么不直接把CSV文件上传到hdfs而要用flume采集  
    1.   动态分区  提取其中的时间戳
    2. 断点续传  实时监听不用手动续传
    3. 要有拦截器 配置
    4. 事务传输时
    5. 更多控制能力 积攒到多少批flushing一次
    6. 忽略哪种类型的不上传  文件太多了一个个手动上传费时费力且容易出错
  2. 我一直纠结在AV阿罗通信是干什么的,和我的场景搭配不,是做多个项目不同集群的日志收集

     

  3. kafka具体数据量

     

  4. 页目录  索引下推  reward

     

     页组织成双叶链表如果数据量非常大就不是顺序IO,所以有了区1MB

  5. kafka精确一次  扩容broker分区  下游的消费者

     

  6. 进程切换 要交换的信息保存在pcb中

  7. kafka再平衡 粘性策略

     consumer消费者组中也是有leader的,有协调器选出   协调器把要消费的topic情况发给leader,leader制定消费方案 协调器下发消费方案

     

     手动提交 漏消费 异步同步两种方式

  8. flink

     

     物理分区是并行度的改变 打散shuffle 冲缩放 轮训

  9. Linux内核页面分配算法 伙伴算法

     

     

     

     

  10. 对mapjoin和bucket map join SMBjoin的理解出现了问题

     

     

  11. 应对数据倾斜

     第一个是map端聚合   将倾斜的键聚合在一起,一般都能解决

     

     

     

     

     

     

  12. 为什么要用Maxwell收集这些信息

     

  13.  

    Maxwell工作详解

     

     

     

     

  14.  

    datax有模板

     flume也可以配置检查点文件

     

     

     

     

     

  15. 维度建模

     

     

     

  16. 删除 QPS 

     

     

     

     

  17. MapReduce

     

     

     

     

  18.  

    DataNode

     

     

     

标签:flume,疑难问题,分区,手动,kafka,面试,数据量,leader
From: https://www.cnblogs.com/lvshy/p/18205067

相关文章

  • kafka再学习,上海银行面试后
    卡夫卡消费者  offset值,消费到哪里了呢?之前存储在zookeeper,后面kafka保存在一个主题里,并持久化到硬盘,相当安全消费者组ID用命令行创建会默认给你一个  cororifnator协调器,分区初始化对主题数50取模,选择有一个corrdinator超高频面试题再平衡 保持3秒的心跳,na......
  • 3/24MapReduce面试必看
    本质上是三个进程运行,一个maptask一个reducetask 一个MR程序写程序 添加依赖后,mapperreducer driveryarn集群的配置为了实现数据落盘和网络传输还要进行序列化和反序列化,本质就是将各个结构体里的基本数据类型一一传递 实现writable接口顺序要一致输入和输出基本......
  • 4/25虾皮面试准备 Hadoop疑难杂症
    namenode元信息   小文件  容量队列      HadoopHAzkfc究竟是什么监视器和https://www.cnblogs.com/yjt1993/p/9492102.html 没有secondnode了!高可用因为standby代替了      Hadoop调优细节   ......
  • 4.17思凡特面试
    hive语法重视hdfs调优怎么编写清洗怎么写支持压缩的map中间结果一些误区  datanode接受数据是一个块一个块往上传,后面两个节点是依次调用的元数据得在namenode内存中加载,而非仅存在磁盘上Fsimage保存目录和iNode,eidts记录更新操作两个并不是一致的,第一......
  • 3/5数仓面试必看
    压缩就用gzip 汇总数据  TSV 建表语句    全量表设计  null的格式不一样,虽然显示都为空 都用空字符显示增量表13张和业务无关的不用拿过来   ods数据装载脚本 i:4substring方法DIM表的数据源是ods层如果找不到不能从数......
  • Java核心面试知识集—Kafka面试题
    目录基础篇1、TCP、UDP的区别?2、TCP协议如何保证可靠传输?3、TCP的握手、挥手机制?4、TCP的粘包/拆包原因及其解决方法是什么?5、Netty的粘包/拆包是怎么处理的,有哪些实现?6、同步与异步、阻塞与非阻塞的区别?7、说说网络IO模型?8、BIO、NIO、AIO分别是什么?9、select、poll、epoll的机制......
  • java面试题
    面向对象的基本特征?分别什么含义封装:封装是把过程和数据包围起来,对数据的访问只能通过已定义的界面。继承:继承是一种联结类的层次模型,并且允许和鼓励类的重用,它提供了一种明确表述共性的方法。多态:多态性是指允许不同类的对象对同一消息作出响应。重载和重写的区别?重载:在......
  • Java核心面试知识集—设计模式
    设计模式知识点笔记汇总1.单例模式(SingletonPattern)2.工厂模式3.抽象工厂模式(AbstractFactoryPattern)4.模板方法模式(TemplateMethodPattern)5.建造者模式(BuilderPattern)6.代理模式(ProxyPattern)7.原型模式(PrototypePattern)8.中介者模式9.命令模式10.责任链模式11......
  • Java核心面试知识集—计算机网络基础
    计算机网络体系结构在计算机网络的基本概念中,分层次的体系结构是最基本的。计算机网络体系结构的抽象概念较多,在学习时要多思考。这些概念对后面的学习很有帮助。网络协议是什么?在计算机网络要做到有条不紊地交换数据,就必须遵守一些事先约定好的规则,比如交换数据的格式、是否需......
  • Java核心面试知识集—大厂数据库面试题
    事务四大特性(ACID)原子性、一致性、隔离性、持久性?原子性(Atomicity)原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。一致性(Consistency)事务开始前和结束后,数据库的完整性......