面试疑难问题

面试疑难问题

时间：2024-05-22 15:57:56浏览次数：24

标签：flume 疑难问题分区手动 kafka 面试数据量 leader

为什么不直接把CSV文件上传到hdfs而要用flume采集
1. 　　动态分区提取其中的时间戳
2. 断点续传实时监听不用手动续传
3. 要有拦截器配置
4. 事务传输时
5. 更多控制能力积攒到多少批flushing一次
6. 忽略哪种类型的不上传文件太多了一个个手动上传费时费力且容易出错
我一直纠结在AV阿罗通信是干什么的，和我的场景搭配不，是做多个项目不同集群的日志收集
kafka具体数据量
页目录索引下推 reward

页组织成双叶链表如果数据量非常大就不是顺序IO，所以有了区1MB
kafka精确一次扩容broker分区下游的消费者
进程切换要交换的信息保存在pcb中
kafka再平衡粘性策略

consumer消费者组中也是有leader的，有协调器选出协调器把要消费的topic情况发给leader，leader制定消费方案协调器下发消费方案

手动提交漏消费异步同步两种方式
flink

物理分区是并行度的改变打散shuffle 冲缩放轮训
Linux内核页面分配算法伙伴算法
对mapjoin和bucket map join SMBjoin的理解出现了问题
应对数据倾斜

第一个是map端聚合将倾斜的键聚合在一起，一般都能解决
为什么要用Maxwell收集这些信息
Maxwell工作详解
datax有模板

flume也可以配置检查点文件
维度建模
删除 QPS
MapReduce
DataNode

标签：flume,疑难问题,分区,手动,kafka,面试,数据量,leader
From： https://www.cnblogs.com/lvshy/p/18205067

kafka再学习，上海银行面试后
卡夫卡消费者 offset值，消费到哪里了呢？之前存储在zookeeper，后面kafka保存在一个主题里，并持久化到硬盘，相当安全消费者组ID用命令行创建会默认给你一个 cororifnator协调器，分区初始化对主题数50取模，选择有一个corrdinator超高频面试题再平衡保持3秒的心跳，na......
3/24MapReduce面试必看
本质上是三个进程运行，一个maptask一个reducetask 一个MR程序写程序添加依赖后，mapperreducer driveryarn集群的配置为了实现数据落盘和网络传输还要进行序列化和反序列化，本质就是将各个结构体里的基本数据类型一一传递实现writable接口顺序要一致输入和输出基本......
4/25虾皮面试准备 Hadoop疑难杂症
namenode元信息小文件容量队列 HadoopHAzkfc究竟是什么监视器和https://www.cnblogs.com/yjt1993/p/9492102.html 没有secondnode了！高可用因为standby代替了 Hadoop调优细节 ......
4.17思凡特面试
hive语法重视hdfs调优怎么编写清洗怎么写支持压缩的map中间结果一些误区 datanode接受数据是一个块一个块往上传，后面两个节点是依次调用的元数据得在namenode内存中加载，而非仅存在磁盘上Fsimage保存目录和iNode，eidts记录更新操作两个并不是一致的，第一......
3/5数仓面试必看
压缩就用gzip 汇总数据 TSV 建表语句全量表设计 null的格式不一样，虽然显示都为空都用空字符显示增量表13张和业务无关的不用拿过来 ods数据装载脚本 i：4substring方法DIM表的数据源是ods层如果找不到不能从数......
Java核心面试知识集—Kafka面试题
目录基础篇1、TCP、UDP的区别？2、TCP协议如何保证可靠传输？3、TCP的握手、挥手机制？4、TCP的粘包/拆包原因及其解决方法是什么？5、Netty的粘包/拆包是怎么处理的，有哪些实现？6、同步与异步、阻塞与非阻塞的区别？7、说说网络IO模型？8、BIO、NIO、AIO分别是什么？9、select、poll、epoll的机制......
java面试题
面向对象的基本特征？分别什么含义封装：封装是把过程和数据包围起来，对数据的访问只能通过已定义的界面。继承：继承是一种联结类的层次模型，并且允许和鼓励类的重用，它提供了一种明确表述共性的方法。多态：多态性是指允许不同类的对象对同一消息作出响应。重载和重写的区别？重载：在......
Java核心面试知识集—设计模式
设计模式知识点笔记汇总1.单例模式（SingletonPattern）2.工厂模式3.抽象工厂模式（AbstractFactoryPattern）4.模板方法模式（TemplateMethodPattern）5.建造者模式（BuilderPattern）6.代理模式（ProxyPattern）7.原型模式（PrototypePattern）8.中介者模式9.命令模式10.责任链模式11......
Java核心面试知识集—计算机网络基础
计算机网络体系结构在计算机网络的基本概念中，分层次的体系结构是最基本的。计算机网络体系结构的抽象概念较多，在学习时要多思考。这些概念对后面的学习很有帮助。网络协议是什么？在计算机网络要做到有条不紊地交换数据，就必须遵守一些事先约定好的规则，比如交换数据的格式、是否需......
Java核心面试知识集—大厂数据库面试题
事务四大特性（ACID）原子性、一致性、隔离性、持久性？原子性（Atomicity）原子性是指事务包含的所有操作要么全部成功，要么全部失败回滚，因此事务的操作如果成功就必须要完全应用到数据库，如果操作失败则不能对数据库有任何影响。一致性（Consistency）事务开始前和结束后，数据库的完整性......

相关文章

赞助商

阅读排行