首页 > 其他分享 >人人都可以转型数仓?数仓“护城河”在哪里

人人都可以转型数仓?数仓“护城河”在哪里

时间:2025-01-15 22:57:59浏览次数:3  
标签:数仓 护城河 可以 建模 指标 源码 人人 SQL

刚过去的2024年总共面试143场,主要都是社招。明显感觉到,简历是真的多,筛都筛选不完,不禁想到当年的“人人都是产品经理”口号。门槛不高,谁都可以做。

还有不少后端、前端、产品也在问,数仓该怎么学习,学习内容,以及学到什么程度可以要30K.....

那我就从面试官角度来尝试回答,有关数仓面试的3部分:

  • 技术基础:针对简历“掌握技能”的模块,由浅入深的考察常规用法、技术原理、底层实现等;

  • SQL笔试:Leetcode的变种1道10分钟左右,会叠加百亿量级要如何改写,或者问优化思路。

  • 项目经验:负责or参与?穿插业务理解、建模和治理等。

要回答好这3个部分,这些“护城河”的知识必不可少。

我们从这4方面展开,尽量把这些知识融会贯通,变成自己的东西。

一、业务理解

搞清楚业务目标,不要虚的那种(E.g. 让天下没有难做的生意),而是量化目标完成的指标(E.g. 第二季GMV上涨2%),那说明下季度的核心发力点是营收。

只需要抓住3个核心指标,毕竟老板只关注不超过3个指标,你带着3个指标,去探索业务:

  • 产品下载体验一遍;

  • 研究产品文档、调研报告等,为什么要上新特性的考虑;

  • 关注BI报告和看板,可以问老板爱提什么问题。

如果上面3点你觉得太耗时,可以从小处入手:

  • 理解指标口径定义;

  • 产品的用数习惯(常看的维度、筛选的周期);

  • BI对趋势判断和异常分析;

  • 多指标联动判断;

这些个方法都是从数据反推业务,也是一种方法。

二、数据建模

这个是思想层面的方法论,比较高大上的内容。它属于很难通过看书来学会,先快速通读一遍《维度建模权威指南》:后台回复:666,直接领取,了解下面名词的概念就行。

  • Kimball思想

  • 星型模型和雪花模型

  • 分层定位和作用

  • 事实和维度

  • 缓慢变化维

  • 命名和开发规范

Image

重点结合自己正在做的业务,反向去理解别人为什么这样设计表,肯定有理由的,如果没有理由,那就去问设计者,如果设计者离职了,那就问组里最资深的人。

数据建模多问多理解就行别人的设计,毕竟思考过程才是最重要的,否则结果只有一些数据表给到你,没有太多意义。你们要是想看我如何设计的,我可以考虑写一次彻底总结:从0-1的设计“网约车平台”的数据建模。想看的评论区留言:想看,超过10个留言,我下期就出。

三、SQL

SQL已经呈现一统江山的趋势,HiveSQL\SparkSQL\FlinkSQL\PrestoSQL\ClickhouseSQL......等,基本上核心大数据组件都是SQL,如果你时间有限,建议学SparkSQL。

  1. SQL熟练程度:基本给一个Leetcode中等题目,你可以想到具体的实现方法,然后花个10分钟写出来就差不多熟练了。

    Image

    引用“ByteByteGo”

  2. 然后深入一点是调优参数,如果你使用Spark,那么它的底层原理要了解,至于源码,个人觉得你读不懂没关系,有更好,没有就看别人读源码的结论也行,一些公众号有讲案例有话和源码调惨,可以关注一些。

四、语言基础

Java 或 Scala 或 Python都行,会一种就OK。毕竟工作中95%的业务开发SQL就可以搞定,剩下的5%你大胆承认不会。

Image

不过我强烈建议你会一种,最好是Java,毕竟Spark和Flink都有底层API可以支持。实在不会不想学,或者数据分析师想转数仓,也没关系,很多人只会SQL也可以把数仓建设的很好,把1-3掌握就好。

五、总结

以上就是从面试官角度,如何扎实的学好数据仓库的知识内容。

另外,我不喜欢给别人路线图,按部就班学习,那是培训班的做法。每个人情况不一样,你不必走别人走过的路,我更建议你像堆乐高一样,掌握每一个小知识块,随意组装和搭配。集中精力学习这几项,不要所有框架都学习,然后都半桶水晃荡,都经不起面试官拷问,也没有培养潜力,那就容易凉凉。

本篇结束!

你可能花了5分钟阅读,但我却花了2天时间准备,可以点点关注给我一个

标签:数仓,护城河,可以,建模,指标,源码,人人,SQL
From: https://blog.csdn.net/lssilu/article/details/145035798

相关文章

  • TikTok难民涌入小红书,人人都会的AI搞米新思路!(建议收藏)
    TikTok难民涌入小红书,人人都会的AI搞米新思路!(建议收藏))近日,TikTok在美大限将至,从而出现了一波又一波的"TikTok难民"正涌入小红书。直接让小红书火到海外,直冲海外App下载榜No.1!大量老外和海外华人涌入小红书,零帧起手中美建交,同时也带来新的机遇!在研究这个趋势......
  • 基于Pamion的流实数仓架构
    目录1.背景2.目标3.Pamion的概念和设计3.1架构3.2统一存储3.3基础概念3.3.1文件布局3.3.2Snapshot3.3.3Manifest文件3.3.4数据文件3.3.5分区3.3.6一致性保证3.4并发控制3.4.1快照冲突3.4.2文件冲突3.5Catalog3.5.1FilesystemCatalog3.5.2HiveCatalog3.5.3J......
  • 中国电信研究院出版,一本人人都能读懂的AI大模型综合指南!大模型从入门到精通只看这一本
    来了兄弟们,今天又来分享大模型书籍了,沉寂的这段时间都在不停地学习,最近大模型又出了不少新东西,比如deepseekv3,真的太牛了!好了不说多的了,今天给大家带来的是这本书—《一本书读懂大模型:技术创新、商业应用与产业变革》。这是一本人人都能读懂的大模型综合指南,既是一本大......
  • 文档管理工具:物流行业的‘隐形护城河’
    在物流行业,效率和成本控制是企业的生命线。无论是运输管理系统、仓储自动化,还是物流管理软件,每一个环节都在为这两大目标服务。然而,在这场“效率与成本”的战争中,有一个关键角色常常被忽略——文档管理工具。你可能觉得文档管理工具只是一个辅助工具,但事实上,它是物流行业中最具潜......
  • 实时数仓:基于数据湖的实时数仓与数据治理架构
    设计一个基于数据湖的实时数仓与数据治理架构,需要围绕以下几个核心方面展开:实时数据处理、数据存储与管理、数据质量治理、数据权限管理以及数据消费。以下是一个参考架构方案:一、架构整体概览核心组成部分数据源层数据来源:多样化的数据源(OLTP数据库、日志系统、IoT设......
  • 数仓分层实例:表命名
    在数据分析具体项目中,表命名往往是一项颇具挑战性的任务。尤其当项目时间紧迫时,如何为不同应用场景下的各类数据表进行合理命名,着实让人抓耳挠腮。笔者平时工作总使用的是TIDB,在此,结合工作中的一些实践,期望能为读者提供一些有益的帮助。1.分层命名规范1.1.分层命名规则在数据仓......
  • 700PB数据的数仓依然“快稳省”!ByteHouse这本白皮书揭秘关键(内附下载链接)
    12月10日,《火山引擎ByteHouse云数仓产品白皮书》在线上发布。 在数字经济蓬勃发展的今天,企业面临着数据量爆炸性增长、数据分析需求日益复杂的双重挑战。传统的数据仓库解决方案已经难以满足企业对数据处理速度和灵活性的高要求。为了应对这些挑战,火山引擎于2021年正式推出Byt......
  • 《算法导论》英文版前言第2段研习录:人人都得来点算法!
    【英文版】Therefore,itbehoovesyoutounderstandalgorithmsnotjustasastudentorpractitionerofcomputerscience,butasacitizenoftheworld.Onceyouunderstandalgorithms,youcaneducateothersaboutwhatalgorithmsare,howtheyoperate,and......
  • 数仓中的JSON串困扰了我,格式化Object转为 List 到底有多坑
    数仓中的JSON串困扰了我,格式化Object转为List到底有多坑曾经年少爱追梦,一心只想往前飞。最近在做报表的需求,中间数仓表存储的是大量的JSON字符串,处理起来真的是太过于繁琐,没有明确的POJO,可能是List<Map<…>>格式,完全是单个key单个key去取值。个人总结下其中的一些场景......
  • 大数据-247 离线数仓 - 电商分析 拉链表的分析与构建与回滚
    点一下关注吧!!!非常感谢!!持续更新!!!Java篇开始了!目前开始更新MyBatis,一起深入浅出!目前已经更新到了:Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis(已更完)Kafka(已更完)Spark(已更完)Flink(已更完)ClickHouse(已更完)Kudu(......