首页 > 其他分享 >12.26每日总结1

12.26每日总结1

时间:2023-12-26 19:45:22浏览次数:34  
标签:总结 文件 每日 12.26 应用程序 Spark 成绩 输入 小新

今天早上进行了大数据的课堂测试,做完测试后接着做了试验七

实验7

Spark初级编程实践

 

1.实验目的

(1)掌握使用Spark访问本地文件和HDFS文件的方法

(2)掌握Spark应用程序的编写、编译和运行方法

2.实验平台

(1)操作系统:Ubuntu18.04(或Ubuntu16.04);

(2)Spark版本:2.4.0;

(3)Hadoop版本:3.1.3。

3.实验步骤

(1)Spark读取文件系统的数据

(1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数;

(2)在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;

(3)编写独立应用程序(推荐使用Scala语言),读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;通过sbt工具将整个应用程序编译打包成 JAR包,并将生成的JAR包通过 spark-submit 提交到 Spark 中运行命令。

(2)编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序(推荐使用Scala语言),对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20170101    x

20170102    y

20170103    x

20170104    y

20170105    z

20170106    z

输入文件B的样例如下:

20170101    y

20170102    y

20170103    x

20170104    z

20170105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20170101    x

20170101    y

20170102    y

20170103    x

20170104    y

20170104    z

20170105    y

20170105    z

20170106    z

(3)编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

标签:总结,文件,每日,12.26,应用程序,Spark,成绩,输入,小新
From: https://www.cnblogs.com/louwangshayu/p/17929172.html

相关文章

  • 12.26每日总结2
    今天下午做了软件企业文化实验大作业公司文化  1.1 公司文化概述我们公司一直坚持以人为本、合作创新、追求卓越的企业文化,这些理念已经深深地融入公司的生产经营之中,成为公司发展的重要动力和核心竞争力。作为软件公司,我们明白员工是最重要的资产,因此我们始终尊重和关爱员......
  • 12.26阅读笔记
    读《需求工程——软件建模与分析》有感今天大致的看了一下这本书,对软件需求分析有了初步的了解,我认为学习软件需求分析需要掌握的内容主要包括五个方面:需求基础与过程、需求获取、需求分析、需求的文档化和验证、需求管理与工程管理。一、需求的基础与过程这一部......
  • 加入新公司第一个项目的问题总结
    这是我加入新公司的第一个项目,虽然项目接近尾声,但编写项目的时候遇到了不少问题,在此记录下来,让自己及时回顾,避免再犯。也希望给遇到类似需求的你一些启发:总结一:项目中有8个流程节点,也就是8个审批流程,8个流程分别由8个组件组成。而流程个数的显示由后端返回的status字段的数字决定。......
  • 百度网盘(百度云)SVIP超级会员共享账号每日更新(2023.12.26)
    合集-网盘(20) 1.百度网盘(百度云)SVIP超级会员共享账号每日更新(2023.11.17)11-182.记录一次自己写的百度网盘不限速下载脚本11-183.百度网盘(百度云)SVIP超级会员共享账号每日更新(2023.11.20)11-214.百度网盘(百度云)SVIP超级会员共享账号每日更新(2023.11.21)11-215.百度网......
  • stm32学习总结:4、Proteus8+STM32CubeMX+MDK仿真串口收发
    stm32学习总结:4、Proteus8+STM32CubeMX+MDK仿真串口收发文章目录stm32学习总结:4、Proteus8+STM32CubeMX+MDK仿真串口收发一、前言二、资料收集三、STM32CubeMX配置串口1、配置开启USART12、设置usart中断优先级3、配置外设独立生成.c和.h四、MDK串口收发代码(中断回调接收后发送接......
  • 2023年终总结
    引子2023年的方方面面根据模板,主要从以下几个方面回顾过去一年。健康/锻炼、工作/职业、友情/社交、个人生活/家庭、学习/知识管理、旅游/文化、兴趣/创造、情绪/精神状况、财务状况。健康/锻炼工作/职业友情/社交个人生活/家庭学习/知识管理旅游/文化、兴趣/创造、情绪......
  • 每日一练 | 华为认证真题练习Day154
    1、由于属性AS-PATH不能在AS内起作用,所以规定BGP路由器不会宣告任何从IBGP对等体来的更新信息给其IBGP对等体A.正确B.错误2、通过重发布命令注入BGP的路由,其ORIGIN属性为INCOMPLETEA.正确B.错误3、自治系统(AUTONOMOUSSYSTEM,AS)是指用户自主定义的,使用统一选路策略的一组路由......
  • 处理不平衡数据的过采样技术对比总结
    在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。过采样提供了一种在模型训练开始之前重新平衡类的方法。通过复制少数类数据点,过采样平衡了训练数据,防止......
  • NC65二开经验总结
    公式相关1.显示公式没执行列表界面显示,卡片界面不显示:Handler的onBoCard执行:getBillCardPanel().execHeadLoadFormulas();Controller的isLoadCardFormula返回true另外,字段录入长度不够时,列表显示,卡片不显示2.带出数据执行公式表头显示公式,执行getBillCardPanel().execHe......
  • 读程序员的README笔记19_读后总结与感想兼导读
    1. 基本信息程序员的README[美]克里斯·里科米尼(ChrisRiccomini)(美)德米特里·里人民邮电出版社,2023年7月出版1.1. 读薄率书籍总字数203千字,笔记总字数40984字。读薄率40984÷203000≈20.19%1.2. 读厚方向演进式架构SRE:Google运维解密软件设计的哲学......