首页 > 其他分享 >第七周总结

第七周总结

时间:2023-08-27 22:22:56浏览次数:43  
标签:总结 第七 Hadoop 学习 算法 数据处理 清洗 数据

本周我深入学习了大数据相关的知识,获得了许多有价值的经验。在这次周总结中,我将分享我学到的一些重要概念、技能以及遇到的挑战和解决方法。
首先,我学习了大数据的定义和特点。大数据是指规模庞大、复杂多样且价值密度低的数据集合。区别于传统数据处理方式,大数据需要借助高效的技术和算法来收集、存储、处理和分析。此外,大数据具有四个主要特点:高容量、高速度、高多样性和高价值密度。
在学习大数据处理流程时,我了解了常用的大数据技术和平台。Hadoop是目前最广泛使用的大数据处理框架,它包括分布式文件系统HDFS和分布式计算框架MapReduce。通过Hadoop,可以将大数据分散存储在多个节点上,并进行分布式处理。Spark是另一个流行的大数据处理引擎,它支持更快速的数据处理和复杂的分析任务。
此外,我还学习了大数据处理中的数据清洗和预处理技术。由于大数据的来源多样,数据质量可能存在问题,如缺失值、噪声数据等。因此,数据清洗是确保数据质量和准确性的重要步骤。数据清洗包括去除重复值、填充缺失值、处理异常值等操作。预处理技术涉及数据的规范化、标准化和特征选择,以便进行后续的分析和建模。
在大数据分析方面,我学习了常用的数据挖掘和机器学习算法。数据挖掘是对大数据进行模式识别和发现的过程,常用的算法包括聚类、分类、关联规则等。机器学习是让计算机通过数据和经验来学习并改进性能的领域,常用的算法包括决策树、支持向量机、神经网络等。这些算法可以帮助我们从大数据中获取有价值的信息和洞察。
在实践过程中,我遇到了一些挑战,并通过采取相应的解决方法来克服。例如,在数据清洗过程中,我经常遇到缺失数据的情况。针对此问题,我采用了插补和删除等方法来处理缺失值。另外,在使用大数据技术和平台时,我需要确保系统的稳定性和安全性,因此我采取了备份数据、优化算法和设置访问权限等有效措施。
总而言之,本周的大数据学习使我对大数据的定义、技术和应用有了更深入的了解。我学会了使用Hadoop和Spark等工具进行大数据处理和分析,并掌握了数据清洗和预处理的基本技术。通过实践中的挑战和解决方法,我提高了解决问题和优化系统的能力。随着不断的学习和实践,我相信我可以在大数据领域取得更大的成就。

标签:总结,第七,Hadoop,学习,算法,数据处理,清洗,数据
From: https://www.cnblogs.com/ruipengli/p/17661000.html

相关文章

  • 靶机jangow学习总结
    一、安装靶机下载:https://www.vulnhub.com/entry/jangow-101,754/下载后直接VMware打开启动,不过可能会出现没有获取到IP地址,导致后面扫半天也扫不出来信息的情况,可以百度一下,有很多解决办法。二、信息收集1.    ARP探测,看一下靶机获取的IP地址:#arp-scan-l2.    使用nma......
  • Java周总结8
    教材学习内容总结InputStream与OutputStream10.1.1串流设计的概念Java将输入/输出抽象化为串流,数据有来源及目的地,衔接两者的是串流对象。从应用程序角度来看,如果要将数据从来源取出,可以使用输入串流,如果要将数据写入目的地,可以使用输出串流。在Java中,输入串流代表对象为java.io......
  • 高并发实战总结02
    一、秒杀系统......
  • 本周总结
    本周回顾将环境进行了进一步的完善,然后准备了一些开学需要用到的东西,提前为开学做个准备先;遇到的问题hadoop无法正常启动,hdfs集群的jps不显示;hadoop的具体实践;解决方法根据一些教程彻底解决啦!我现在可以堪称为问题王者(自认为);实践方面,还得继续努力;下周预计下周就要开学啦......
  • Windows 11 绕过 TPM 方法总结,通用免 TPM 镜像下载 (2023 年 8 月更新)
    Windows11绕过TPM方法总结,通用免TPM镜像下载(2023年8月更新)在虚拟机、Mac电脑和TPM不符合要求的旧电脑上安装Windows11的通用方法总结请访问原文链接:https://sysin.org/blog/windows-11-no-tpm/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org本文......
  • 《LGJOJ 8.22》 测试总结
    \(T1\)青蛙送分题,不说了。也是唯一会做的题。点击查看代码#include<bits/stdc++.h>typedeflonglongLL;usingnamespacestd;constintMAXN=210;intn,m,k,x,y,z;intf[MAXN][MAXN][MAXN];intdx[10+10]={0,0,1,-1,0};intdy[10+10]={1,-1,0,0,0};intdz[10+......
  • 步步高 BPK 加密方式总结
    前言最近花了几天时间彻底研究透了步步高的BPK加密格式,写一篇博客记录一下研究的成果本文只记录一些研究的步骤和研究成果,不是破解教程之前的记录步步高加密APK格式BPK研究:续步步高家教机加密安装包BPK研究(已弃坑)什么是BPK步步高为其旗下搭载StudyOS定......
  • 【Flask框架知识点总结】
    【一】Flask框架之初识Flask框架引入Flask框架简单使用简单的Flask框架登陆案例wsgirefwerkzeug【二】Flask框架之配置文件Flask框架的配置文件配置方式【三】Flask框架之路由系统路由系统介绍转换器【四】Flask框架之CBVCBV使用CBV源码简析【五】Flask框......
  • 第六周和第七周
    这两周比较忙,家里面的事情比较多,把暑假社会实践报告弄了一弄比较麻烦,没有弄明白是写五篇还是写一篇。另外把放假前老师发的题目看了看,写了写,有很多bug,还没有弄完。学了一点python语言知识和Hadoop。总的来说,这两周比较松散,下周补上吧。......
  • 2023.8.21-2023.8.27暑假第七周博客
    2023.8.21今天主要是对mapreduce进行了一个了解,主要是对爬取下来的数据进行清洗的过程在本次的过程中,由于爬取的内容比较规整,因此采用的excel进行处理 mapreduce在我的理解中,对数据进行的是预处理,即把数据变得规整便于处理map阶段就是写对数据处理,即你想怎么优化这些数据re......