首页 > 其他分享 >3/25数仓面试总结

3/25数仓面试总结

时间:2024-05-22 15:58:18浏览次数:29  
标签:flume 25 同步 数仓 kafka 面试 维度 数据

  1. 数据采集模块  主要采集什么  业务数据和用户行为数据  包括  页面浏览记录,启动记录,错误记录,曝光记录,动作记录 格式包括页面日志和启动日志JSON格式?
  2. flume怎么采集

     

     

  3.  

    第一次见没有sink的flume

     

     

  4.  

    业务数据怎么说?sku商品表  平台表 流水表  退单表 订单详情  优惠券表  省份表   在网上找的数据集 

  5. 用户行为数据怎样由kafka导入到hdfs  flume优化  filechannel优化

     

     

     

     

     

     

  6. 业务数据同步才有增量和全量这个概念 

     

     而且这里的增量同步不是新增了什么表拿过来,业务数据库创建时的表几乎就是全部需要用到的表了,不需要建,将同步的数据建成原表拿过来!

  7. 全量表同步用datax 因为离线方式

     

     

     

     每一张表太麻烦,看有什么配置工具。

  8. 最后把每天的同步脚本写好    写好脚本后要修改配置权限777

     

     遗憾哪里冒出来的kafka  不是MySQL数据库嗎?原来MySQL要将首日表同步到kafka,需要用到Maxwell的boostrap功能  kafka是支持offset的!对于端到端的准确性非常重要!

     

  9. 建模理论

     

     

     

     

     

     

  10. 维度表设计  主维表和相关维表都是事实表

     

     维度属性就是除了主键之外的维度字段  维度属性可从主维表或者相关维表得到!

  11. 雪花模型和星辰模型

     

     

     

     

     

     

  12.  

    数仓分层一共有五层  我已经知道了至少四层!

     

  13.  

    大多数统计需求都是原子指标、派生指标、衍生指标这套模式,大多数派生指标可以复用,作为公共指标,提供效率

     

     

     

     

     汇总表DWs

  14.  

     

     

     

     

     

  15.  

    ODS层设计

     

     

     

     

     

     

     

     

     

     

     

     将需要绘制的导出到SQL   ADS服务  各种面向主题的报表

标签:flume,25,同步,数仓,kafka,面试,维度,数据
From: https://www.cnblogs.com/lvshy/p/18095327

相关文章

  • 面试疑难问题
    为什么不直接把CSV文件上传到hdfs而要用flume采集  动态分区 提取其中的时间戳断点续传 实时监听不用手动续传要有拦截器配置事务传输时更多控制能力积攒到多少批flushing一次忽略哪种类型的不上传 文件太多了一个个手动上传费时费力且容易出错我一直纠结......
  • kafka再学习,上海银行面试后
    卡夫卡消费者  offset值,消费到哪里了呢?之前存储在zookeeper,后面kafka保存在一个主题里,并持久化到硬盘,相当安全消费者组ID用命令行创建会默认给你一个  cororifnator协调器,分区初始化对主题数50取模,选择有一个corrdinator超高频面试题再平衡 保持3秒的心跳,na......
  • 3/24MapReduce面试必看
    本质上是三个进程运行,一个maptask一个reducetask 一个MR程序写程序 添加依赖后,mapperreducer driveryarn集群的配置为了实现数据落盘和网络传输还要进行序列化和反序列化,本质就是将各个结构体里的基本数据类型一一传递 实现writable接口顺序要一致输入和输出基本......
  • 九龙城寨之围城迅雷BT下载[MKV/1.25GB/2.32GB]高清版画质
    《九龙城寨之围城》下载是一部具有深刻社会意义的电影,以真实的故事为背景,生动地展现了香港社会中的重重问题。本片导演乌尔奇·英弘以其独特的视角和才华,成功地将观众带入了一个精彩且震撼的故事世界。 电影讲述了上世纪90年代香港一个贫困的九龙城寨,被毒品贩子、......
  • 4/25虾皮面试准备 Hadoop疑难杂症
    namenode元信息   小文件  容量队列      HadoopHAzkfc究竟是什么监视器和https://www.cnblogs.com/yjt1993/p/9492102.html 没有secondnode了!高可用因为standby代替了      Hadoop调优细节   ......
  • 4.17思凡特面试
    hive语法重视hdfs调优怎么编写清洗怎么写支持压缩的map中间结果一些误区  datanode接受数据是一个块一个块往上传,后面两个节点是依次调用的元数据得在namenode内存中加载,而非仅存在磁盘上Fsimage保存目录和iNode,eidts记录更新操作两个并不是一致的,第一......
  • 3/5数仓面试必看
    压缩就用gzip 汇总数据  TSV 建表语句    全量表设计  null的格式不一样,虽然显示都为空 都用空字符显示增量表13张和业务无关的不用拿过来   ods数据装载脚本 i:4substring方法DIM表的数据源是ods层如果找不到不能从数......
  • Java核心面试知识集—Kafka面试题
    目录基础篇1、TCP、UDP的区别?2、TCP协议如何保证可靠传输?3、TCP的握手、挥手机制?4、TCP的粘包/拆包原因及其解决方法是什么?5、Netty的粘包/拆包是怎么处理的,有哪些实现?6、同步与异步、阻塞与非阻塞的区别?7、说说网络IO模型?8、BIO、NIO、AIO分别是什么?9、select、poll、epoll的机制......
  • java面试题
    面向对象的基本特征?分别什么含义封装:封装是把过程和数据包围起来,对数据的访问只能通过已定义的界面。继承:继承是一种联结类的层次模型,并且允许和鼓励类的重用,它提供了一种明确表述共性的方法。多态:多态性是指允许不同类的对象对同一消息作出响应。重载和重写的区别?重载:在......
  • Java核心面试知识集—设计模式
    设计模式知识点笔记汇总1.单例模式(SingletonPattern)2.工厂模式3.抽象工厂模式(AbstractFactoryPattern)4.模板方法模式(TemplateMethodPattern)5.建造者模式(BuilderPattern)6.代理模式(ProxyPattern)7.原型模式(PrototypePattern)8.中介者模式9.命令模式10.责任链模式11......