首页 > 其他分享 >小学期第二周个人总结

小学期第二周个人总结

时间:2024-07-13 21:29:58浏览次数:11  
标签:总结 小学 Hadoop YARN MapReduce 学习 第二周 Hive 数据处理

本周,我投入了大量时间和精力来学习Hadoop生态系统的相关知识。Hadoop生态系统包括Hadoop、Hive和YARN等重要组件,它们在大数据处理和管理中发挥着关键作用。

首先,我对Hadoop本身进行了深入了解。Hadoop是一个用于存储和处理大数据的开源框架,提供了分布式存储(HDFS)和分布式计算(MapReduce)的能力。HDFS(Hadoop Distributed File System)负责将数据分布式存储在多个节点上,提高了数据的可靠性和访问速度。MapReduce则是一种编程模型,用于大规模数据集的并行处理,极大地提高了数据处理的效率。

在了解了Hadoop的基础上,我还学习了Hive。Hive是一个数据仓库工具,构建在Hadoop之上,用于对大数据进行查询和分析。它提供了一种类似SQL的查询语言——HiveQL,使得使用者可以方便地编写查询语句,而不需要深入了解MapReduce的底层实现。这大大降低了大数据处理的门槛,让数据分析师和工程师能够更高效地进行数据操作。

另外,我也学习了YARN(Yet Another Resource Negotiator)。YARN是Hadoop 2.0中的资源管理系统,用于管理和调度集群中的计算资源。它使得Hadoop能够同时运行多个应用程序,并有效地利用集群资源,提高了系统的整体性能和可扩展性。

在学习过程中,我多次尝试在CentOS上部署Hadoop环境。然而,由于各种原因,这些尝试都未能成功。具体来说,我遇到了一些技术难题,包括配置文件的错误、依赖包的兼容性问题以及网络配置的挑战。这些问题使得我的部署过程变得异常复杂和繁琐。

为了克服这些困难,我决定转向使用黑马的一套教程来进行Hadoop的部署和应用。这套教程详细介绍了从环境配置到实际应用的各个步骤,内容详实且操作性强。我按照教程的指导,逐步进行环境的配置和调整,逐步解决了之前遇到的问题。

目前,我已经完成了一小部分的环境配置工作,还剩下许多细节需要调整和优化。我计划在未来两天内完成全部部署工作,并开始进行实际的数据处理和分析任务。

总的来说,这一周的学习和实践让我对Hadoop生态系统有了更深刻的理解,也掌握了一些关键的部署和配置技巧。虽然过程中遇到了一些挑战,但通过坚持不懈的努力和借助优秀的学习资源,我逐步克服了这些困难。我相信,在未来的学习和工作中,我将能够更加熟练地运用这些技术,为大数据处理和分析贡献自己的力量。

标签:总结,小学,Hadoop,YARN,MapReduce,学习,第二周,Hive,数据处理
From: https://www.cnblogs.com/xuechenhao173/p/18300752

相关文章

  • 周总结
    这周主要练习springboot3+vue3,开发大事件系统,Hadoop还未开始学,计划完成大事件开发后冲击Hadoop,在这里主要说一下我后端的开发心里路程吧。SpringBoot是一种基于Spring框架的开发工具,它旨在简化Spring应用程序的开发和部署过程。作为一名后端开发人员,我对SpringBoot的使......
  • 第二周总结
    1​下载JDK,安装JDK并配置环境变量。​阅读大道至简三至六章学习异常处理​理解类和对象​2.​下一周准备学习继承和多态,接口和抽象类3.困难:语法复杂:Java的语法规则相对较多,理解并记忆这些规则需要一定的时间和努力。编程逻辑难以理解:编程不仅仅是记忆语法,更重要的是理解......
  • Hadoop学习总结
    在我作为初学者探索Hadoop的过程中,我深感兴奋和好奇。Hadoop作为一种开源的分布式存储和计算平台,能够处理大规模数据,这一点让我产生了深刻的震撼和兴趣。刚开始接触时,我面临理解Hadoop核心概念的挑战,特别是涉及到HDFS(Hadoop分布式文件系统)和MapReduce的概念。然而,通过阅读官方文档......
  • 暑假第二周总结(7.9-7.13)
    这周做了什么学习了JAVA的基本内容通过实例认识了JAVA的面向对象编程及一些不同于C++面向对象的知识。时钟类packageClock;publicclassClock{privateDisplayhour=newDisplay(24);privateDisplayminute=newDisplay(60);publicvoidstart(){......
  • 第一周学习总结
    开篇概述随着计算机网络基础设施的完善,社交网络和电商的发展以及物连网的推进,产生了越来越多的大数据,使得人工智能最近几年也有了长足的发展(可供机器学习的样本数据量足够大了),大数据的存储和处理也越来越重要,国家对此也比较重视(可上网搜索关键字“大数据白皮书”关键字,以了解详细......
  • 第二周学习总结
    分布式文件系统主要用来解决如下几个问题:读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整个硬盘的容量的文件,这时需要将文件分割为若干较小的块,然后将这些块按照一定的规则分放在集群中若干台节点......
  • 暑假第二周总结
     本周主要学习了如何配置hadoop,真的是超级麻烦。本周完成了对Linux系统的学习,安装了vm虚拟机,配置了3个centos虚拟机,完成了虚拟机之间的免密登录等一系列的操作,虚拟机配置了java环境,hadoop环境,部署了HDFS集群。了解了大数据的软件生态、Hadoop是什么以及为什么需要分布式存储。......
  • 小学期第二次博客
    上周我成功配置了Hadoop的分布式系统和虚拟机,并设置了VLAN以确保网络通信的顺畅。这一周,我致力于将Hadoop与Web应用程序进行集成,以便通过Springboot或Servlet实现数据的交互和处理。首先,我选择了Springboot作为连接Hadoop的尝试。Springboot是一个流行的Java框架,能够简化Spring应......
  • 2024/07/13(暑假学习hadoop第一周总结)
    在本周的学习中,我构建了学习Hadoop所需的基础环境,这包括安装虚拟机VMware和部署CentOS操作系统。这些步骤是学习Hadoop开始,也为是深入学习Hadoop技术做好前置的准备工作。下面将详细介绍如何安装VMware和部署CentOS系统:首先,我们需要下载VMware软件并进行安装。在安装过程中,请务必......
  • 暑期每周总结
     每周总结 这一周,我进行大数据技术的学习和应用。首先,我成功配置了Hadoop的YARN和Hive。YARN是Hadoop的资源管理器,它在集群上管理和调度计算资源,而Hive是一个基于Hadoop的数据仓库工具,它提供了类似SQL的查询语言,用于分析存储在Hadoop分布式文件系统(HDFS)中的大数据。通过这次配......