12.26每日总结1

时间：2023-12-26 19:45:22浏览次数：38

标签：总结文件每日 12.26 应用程序 Spark 成绩输入小新

今天早上进行了大数据的课堂测试，做完测试后接着做了试验七

实验7

Spark初级编程实践

1.实验目的

（1）掌握使用Spark访问本地文件和HDFS文件的方法

（2）掌握Spark应用程序的编写、编译和运行方法

2.实验平台

（1）操作系统：Ubuntu18.04（或Ubuntu16.04）；

（2）Spark版本：2.4.0；

（3）Hadoop版本：3.1.3。

3.实验步骤

（1）Spark读取文件系统的数据

（1）在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；

（2）在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；

（3）编写独立应用程序（推荐使用Scala语言），读取HDFS系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；通过sbt工具将整个应用程序编译打包成 JAR包，并将生成的JAR包通过 spark-submit 提交到 Spark 中运行命令。

（2）编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序（推荐使用Scala语言），对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。

输入文件A的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件B的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件A和B合并得到的输出文件C的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

（3）编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm成绩：

小明 92

小红 87

小新 82

小丽 90

Database成绩：

小明 95

小红 81

小新 89

小丽 85

Python成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

标签：总结,文件,每日,12.26,应用程序,Spark,成绩,输入,小新
From： https://www.cnblogs.com/louwangshayu/p/17929172.html

12.26每日总结2
今天下午做了软件企业文化实验大作业公司文化 1.1 公司文化概述我们公司一直坚持以人为本、合作创新、追求卓越的企业文化，这些理念已经深深地融入公司的生产经营之中，成为公司发展的重要动力和核心竞争力。作为软件公司，我们明白员工是最重要的资产，因此我们始终尊重和关爱员......
12.26阅读笔记
读《需求工程——软件建模与分析》有感今天大致的看了一下这本书，对软件需求分析有了初步的了解，我认为学习软件需求分析需要掌握的内容主要包括五个方面：需求基础与过程、需求获取、需求分析、需求的文档化和验证、需求管理与工程管理。一、需求的基础与过程这一部......
加入新公司第一个项目的问题总结
这是我加入新公司的第一个项目，虽然项目接近尾声，但编写项目的时候遇到了不少问题，在此记录下来，让自己及时回顾，避免再犯。也希望给遇到类似需求的你一些启发：总结一：项目中有8个流程节点，也就是8个审批流程，8个流程分别由8个组件组成。而流程个数的显示由后端返回的status字段的数字决定。......
百度网盘(百度云)SVIP超级会员共享账号每日更新（2023.12.26）
合集-网盘(20) 1.百度网盘(百度云)SVIP超级会员共享账号每日更新（2023.11.17）11-182.记录一次自己写的百度网盘不限速下载脚本11-183.百度网盘(百度云)SVIP超级会员共享账号每日更新（2023.11.20）11-214.百度网盘(百度云)SVIP超级会员共享账号每日更新（2023.11.21）11-215.百度网......
stm32学习总结：4、Proteus8+STM32CubeMX+MDK仿真串口收发
stm32学习总结：4、Proteus8+STM32CubeMX+MDK仿真串口收发文章目录stm32学习总结：4、Proteus8+STM32CubeMX+MDK仿真串口收发一、前言二、资料收集三、STM32CubeMX配置串口1、配置开启USART12、设置usart中断优先级3、配置外设独立生成.c和.h四、MDK串口收发代码（中断回调接收后发送接......
2023年终总结
引子2023年的方方面面根据模板，主要从以下几个方面回顾过去一年。健康/锻炼、工作/职业、友情/社交、个人生活/家庭、学习/知识管理、旅游/文化、兴趣/创造、情绪/精神状况、财务状况。健康/锻炼工作/职业友情/社交个人生活/家庭学习/知识管理旅游/文化、兴趣/创造、情绪......
每日一练 | 华为认证真题练习Day154
1、由于属性AS-PATH不能在AS内起作用，所以规定BGP路由器不会宣告任何从IBGP对等体来的更新信息给其IBGP对等体A.正确B.错误2、通过重发布命令注入BGP的路由，其ORIGIN属性为INCOMPLETEA.正确B.错误3、自治系统（AUTONOMOUSSYSTEM,AS）是指用户自主定义的，使用统一选路策略的一组路由......
处理不平衡数据的过采样技术对比总结
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类，忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。过采样提供了一种在模型训练开始之前重新平衡类的方法。通过复制少数类数据点，过采样平衡了训练数据，防止......
NC65二开经验总结
公式相关1.显示公式没执行列表界面显示，卡片界面不显示：Handler的onBoCard执行：getBillCardPanel().execHeadLoadFormulas();Controller的isLoadCardFormula返回true另外，字段录入长度不够时，列表显示，卡片不显示2.带出数据执行公式表头显示公式，执行getBillCardPanel().execHe......
读程序员的README笔记19_读后总结与感想兼导读
1. 基本信息程序员的README[美]克里斯·里科米尼(ChrisRiccomini)(美)德米特里·里人民邮电出版社,2023年7月出版1.1. 读薄率书籍总字数203千字，笔记总字数40984字。读薄率40984÷203000≈20.19%1.2. 读厚方向演进式架构SRE：Google运维解密软件设计的哲学......

12.26每日总结1

1.实验目的

2.实验平台

3.实验步骤

（1）Spark读取文件系统的数据

（2）编写独立应用程序实现数据去重

（3）编写独立应用程序实现求平均值问题

相关文章

赞助商

阅读排行