首页 > 其他分享 >大数据分析项目实战总结

大数据分析项目实战总结

时间:2023-12-16 19:07:48浏览次数:36  
标签:数据分析 实战 场景 总结 hdfs mapreduce spark es

通过参与一个历时两年的大数据分析项目,总结如下:

1、环境熟悉,了解认证系统,各个组件了解,比如hdfs、hive、mapreduce、spark、es、kafka,各个组件都适用什么场景,如何交互

2、明确了场景以后,再各自深入了解

hdfs存储有哪些格式,各自优劣

hive各个存储方式执行性能测试,分桶、分区等的运用

mapreduce的优势是什么,什么情况下使用

spark调优,使用机制,如何使用spark进行es更新,如果前端是一个实时分析应用,如何能够让用户有一个实时体验

es怎么用,keyvalue和text有什么区别,大批量数据怎么更新

最好的学习就是放到场景里

另外如果要进行大数据分析,还是需要了解一些基本的java语言,会有帮助


标签:数据分析,实战,场景,总结,hdfs,mapreduce,spark,es
From: https://blog.51cto.com/u_15108104/8853304

相关文章

  • 【Web攻防之业务安全实战指南】第6章 业务授权访问模块
    6.1非授权访问测试6.1.1测试原理和方法非授权访问是指用户在没有通过认证授权的情况下能够直接访问需要通过认证才能访问到的页面或文本信息。可以尝试在登录某网站前台或后台之后,将相关的页面链接复制到其他浏览器或其他电脑上进行访问,观察是否能访问成功。6.1.2测试过程靶......
  • (学期2023-2024.1;学号:20232300)《⽹络空间安全导论》第6周学习总结
    第6章应用安全基础应用安全是为保障各种应用系统在信息的获取、存储、传输和处理各个环节的安全所涉及的相关技术的总称。密码技术是应用安全的核心支撑技术,系统安全技术与网络安全技术则是应用安全技术的基础和关键技术。应用安全涉及如何防止身份或资源的假冒、未经授权的访......
  • 2023-2024-1 20232404《网络空间安全导论》第6周学习总结
    教材学习内容总结6.1应用安全概述身份认证是保障应用安全的基础。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。云计算造成了数据所有权和管理权的分离。6.2身份认证与信任管理动态口令需......
  • 20231329 《计算机基础与程序设计》第12周学习总结
    作业信息这个作业属于哪个课程https://edu.cnblogs.com/campus/besti/2023-2024-1-CFAP这个作业要求在哪里https://www.cnblogs.com/rocedu/p/9577842.html#WEEK12这个作业的目标《C语言程序设计》第11章并完成云班课测试作业正文https://www.cnblogs.com/xjn1......
  • 2023.12.16模拟赛总结
    这次比赛打的好,但又不好,200pts,rank4,但原本可以360pts的T1每一条边减去端点贡献,最小生成树即可T2从小到大枚举花瓣数,然后对于每一列记录前四大的,防止不能转移,然后直接跑即可赛时打了一个线段树,被卡常+卡空间,hahahaT3暴力,先分解质因数,由于\(\varphi(p^k)=(p-1)p^{k-1}\),那么......
  • NLP项目实战02:英文文本识别
    简介:欢迎来到本篇文章!今天我们将讨论一个新的自然语言处理任务——英文短文识别。具体而言,即通过分析输入的英文文本来判断其是比较消极的还是比较积极的。展示:1、项目界面如下所示是项目启动后用户使用使用界面2、布局介绍首先可以看到用户使用界面上存在这么几个部分:2.1......
  • 2023-2024 20231302《计算机基础与程序设计》第十二周学习总结
    作业信息这个作业属于哪个课程2023-2024-1-计算机基础与程序设计这个作业要求在哪里2023-2024-1计算机基础与程序设计第十二周作业这个作业的目标自学教材《C语言程序设计》第11章并完成云班课测试作业正文https://www.cnblogs.com/9q2z2z/p/17904818.html......
  • 12月15日总结
    软件需求与分析课堂测试十——综合案例分析(5分)班级:信2105-1学号:20214111姓名:刘梦阳根据下列案例需求描述,回答相关问题:有一个对外营业的会议中心,有各种不同规格的会议室,为用户提供以下服务:1、用户可以按照会议人数、会议时间预订会议室。可以只预订1次,也可预订定期召......
  • 12月16日总结
    在看kube-scheduler组件的过程中遇到了kube-scheduler对于client-go的调用,泛泛的理解调用过程总有种隔靴搔痒的感觉,于是调转头先把client-go理清楚在回来看kube-scheduler。为什么要看client-go,并且要深入到原理,源码层面去看。很简单,因为它很重要。重要在两方面:kubern......
  • 2023-2024-1 20232408《网络空间安全导论第六周学习总结》
    2023-2024-120232408《网络空间安全导论第六周学习总结》教材内容总结这一章主要聚焦于应用安全,具体分为身份认证与信任管理、隐私保护、云计算及其安全、区块链与安全、人工智能及其安全等多个方面,从用户端、服务端等不同视角描述了我们应该如何保障应用安全。本章内容结合了......