首页 > 其他分享 >章节测验(文件)

章节测验(文件)

时间:2024-05-31 19:04:17浏览次数:18  
标签:章节 文件 测验 file scores sc path txt data

第1关:第一题

任务描述

本关任务:根据编程要求,完成任务。

编程要求

打开右侧代码文件窗口,在 BeginEnd 区域补充代码,完成任务。

在本地目录 /data/bigfiles 中有两个文件 a.txtb.txt,现在需要对这两个文件进行合并,并剔除其中重复的内容,将合并结果存储到 /root/result/ 目录下。

下面是 a.txtb.txt存储的内容示例:


  1. 20170101 x
  2. 20170102 y
  3. 20170103 x
  4. 20170104 y
  5. 20170105 z
  6. 20170106 z
  7. ......

 

合并结果按首列升序进行排列。

from pyspark import SparkContext, SparkConf

################ Begin ################

# 创建SparkContext对象
sc = SparkContext('local','remdup')

# 加载两个文件
lines1 = sc.textFile("file:///data/bigfiles/a.txt")
lines2 = sc.textFile("file:///data/bigfiles/b.txt")

# 合并两个文件的内容
lines = lines1.union(lines2)

# 去重操作
distinct_lines = lines.distinct()

# 排序操作
res = distinct_lines.sortBy(lambda x:x)

# 保存结果
res.repartition(1).saveAsTextFile("file:///root/result")

# 关闭SparkContext对象
sc.stop()


################ End ################

第2关:第二题

本关任务:根据编程要求,完成任务。

编程要求

打开右侧代码文件窗口,在 BeginEnd 区域补充代码,完成任务。

在本地目录 /data/bigfiles 中有三个文件 Algorithm.txtDatabase.txtPython.txt。其中每行存储的内容由两个字段组成,第一个是学生名字,第二个是学生的成绩。

请你读取这三个文件的内容,计算各个学生的平均成绩(保留两位小数),将输出结果存储到 /root/result2/ 目录下。

下面是上述文件一个样例,供参考。


  1. 小明 92
  2. 小红 87
  3. 小新 82
  4. 小丽 90
  5. ......

输出示例:


  1. ('小红',82.88)
  2. ('小明',81.23)
  3. ......

输出结果按平均分成绩降序进行排列。

 

from pyspark import SparkContext

################ Begin ################

# 创建SparkContext对象
sc = SparkContext('local', 'average_score')

# 加载三个文件
file_path_algorithm = "/data/bigfiles/Algorithm.txt"
file_path_database = "/data/bigfiles/Database.txt"
file_path_python = "/data/bigfiles/Python.txt"

data_algorithm = sc.textFile(file_path_algorithm)
data_database = sc.textFile(file_path_database)
data_python = sc.textFile(file_path_python)

# 合并三个文件的内容
merged_data = data_algorithm.union(data_database).union(data_python)

# 完成数据聚合
student_scores = merged_data.map(lambda line: (line.split()[0], float(line.split()[1])))

# 求平均分并排序
average_scores = student_scores.groupByKey().mapValues(lambda scores: round(sum(scores) / len(scores), 2))
sorted_scores = average_scores.sortBy(lambda x: x[1], ascending=False)

# 保存结果
result_path = "/root/result2/"
sorted_scores.saveAsTextFile(result_path)

# 关闭SparkContext对象
sc.stop()

################ End ################

标签:章节,文件,测验,file,scores,sc,path,txt,data
From: https://blog.csdn.net/m0_70967613/article/details/139359661

相关文章

  • 找出长时序遥感影像的缺失日期并用像素均为0的栅格填充缺失日期的文件
      本文介绍基于C++语言的GDAL库,基于一个存储大量遥感影像的文件夹,依据每一景遥感影像的文件名中表示日期的那个字段,找出这些遥感影像中缺失的成像日期,并新生成多个像元值全部为0的栅格文件,作为这些缺失日期当日的遥感影像文件的方法。  首先,我们来看一下本文需要实现的需求。......
  • mapreduce的多种格式文件输出-自定义OutputFormat
    /***@description:mapreduce多种格式的文件输出方式*/publicclassMultipleTypeOutputFormat<K,V>extendsFileOutputFormat<K,V>{privatestaticfinalStringORCEXTENSION=".orc";privatestaticfinalStringCSVEXTENSION=".c......
  • 向GitHub远程仓库同步文件使用经验【2】
    新手流畅一顿操作由于没搞懂CSDN的更新文档策略,只能把新写的内容作为新文章发布了。前一篇文章在这将本地仓库与远程仓库同步当本地仓库没修改,但远程仓库修改了,这时可以吧远程仓库同步到本地仓库===方法一===gitfetch //将本地仓库中的远程分支更新成了远程仓库相应......
  • 开机自动挂载配置文件 --- /etc/fstab
    /sbin/init执行rcS指定的脚本,脚本内包含挂载操作,会读取/etc/fstab实现开机挂载 /etc/fstab文件格式如下:<filesystem><mountpoint><type><options><dump><pass><filesystem>:要挂载的特殊设备,也可以是块设备,比如/dev/sda等<mountpoint&......
  • java数据list写入文件
    /***生成数据文件**@paramdata数据*@paramfileName文件名*@return数据文件对象*@throwsIOException*/privateFilegenerateDataFile(List<List<String>>data,StringfileName)throwsIOException{......
  • 反单引号在vue文件的alert中怎么换行
    在alert里面将dangerouslyUseHTMLString开启设置为true,这样子就可以使用html中的来进行换行了但是,message属性虽然支持传入HTML片段,但是在网站上动态渲染任意HTML是非常危险的,因为容易导致XSS攻击。因此在dangerouslyUseHTMLString打开的情况下,请确保message的内容......
  • 第一个用户进程 --- 根文件系统 sbin/init 进程 及其配置文件 /etc/inittab
    sbin/init是根文件系统提供的用户进程,它是第一个被执行的用户进程。执行过程会读取配置文件/etc/inittab,运行inittab文件中的各个子进程。 inittab配置文件格式Formatforeachentry:<id>:<runlevels>:<action>:<process>id:  表示这个子进程要使用的控制台,如果省略,......
  • 企业文件加密:保障知识产权与客户隐私
    在数字化时代,企业文件的安全成为了保护知识产权和客户隐私的关键。随着网络攻击和数据泄露事件的日益增多,企业必须采取强有力的措施来确保其敏感信息的安全。文件加密技术作为一项重要的数据保护手段,对于维护企业的竞争力和客户信任至关重要。一、企业文件加密的重要性企业文件......
  • 磁盘文件恢复
    摘要:文件恢复是指由于各种原因(如病毒等)导致数据损失时把保留在介质上的数据重新恢复的过程。即使数据被删除或硬盘出现故障,只要在介质没有严重受损的情况下,数据就有可能被完好无损地恢复。【系统环境】  Windows【工具】  WinHex【实验内容】一、手工恢复文件  1、......
  • 微信小程序下载预览PDF(可自定义文件名称)
    wx.showLoading({title:'加载中',mask:true,})constfileName='测试.pdf'constnewPath=`${wx.env.USER_DATA_PATH}/${fileName}.pdf`;wx.downloadFile({url:�......