首页 > 其他分享 >大数据分析———(3)数据清洗

大数据分析———(3)数据清洗

时间:2023-02-18 22:25:17浏览次数:28  
标签:数据分析 文件 val new import 清洗 数据 out

3.3.1 在Eclipse创建代码文件

在项目上右键==>New==>Scala Object,进入spark文件的创建菜单

设置包名.类名后点击Finish创建成功

 

3.3.2 代码文件书写与运行

完整代码 clean.scala 如下:

package com
    
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import au.com.bytecode.opencsv.CSVReader
import java.io.StringReader
import scala.collection.JavaConversions._
    
object clean {
   def main(args: Array[String]): Unit = {
          val conf=new SparkConf().setAppName("Word").setMaster("local")
         val sc=new SparkContext(conf)
            //读取上传的csv文件
     val test1=sc.wholeTextFiles("/home/data.csv")
        //进行分割方便读取
     val test2=test1.flatMap{
        case(_,txt)=>
              val reader=new CSVReader(new StringReader(txt))
          //只读取球员编号、球员名、位置、命中率、进攻、得分列
          reader.readAll().map(x => (x(0),x(1),x(3),x(7),x(12),x(20)))
              }
              //将清洗好的文件另存为新的文件
          test2.saveAsTextFile("/home/out")
            }
}

 

运行后会在 /home 目录下生成 out 目录,打开out目录下的 part-00000 文件即可看到清洗结果,至此数据清洗完成。

 

标签:数据分析,文件,val,new,import,清洗,数据,out
From: https://www.cnblogs.com/yenaibo/p/17133792.html

相关文章

  • 大数据分析———(4)数据分析
    我们采用hive数据仓库,把上面用Spark清洗完成的数据进行数据的存储与分析。3.4.1Hive的启动与数据上传首先在Linux终端界面任意目录下输入hiveshell进入hives......
  • 大数据分析———(2)准备工作
    3.2.1环境安装本次项目使用Spark进行数据清洗,首先需要安装Scala环境。下载解压后,修改~/.bashrc文件,把Scala添加到系统环境变量中。3.2.2环境运行在启动Spark之前,首......
  • 大数据分析———(1)数据导入
    本次数据分析在Hadoop大数据平台的基础上,导入外部数据,使用Spark进行数据清洗,使用Hive进行数据存储,同时使用Tableau进行可视化展示。本次使用数据为《NBA2011-2012季后赛球......
  • 数据库事物和事物的隔离级别
    一、事物的特性原子性:同一个事物的多个操作要么同时成功,要么同时失败一致性:事物操作前后数据库的数据整体上要保持一致,例如一个转账操作中,A账号转出的钱一定和B账号......
  • ABAP 数据库表 Size Category 字段的准确含义
    有朋友在我这篇教程文章里留言:14.如何创建最简单的ABAP数据库表,以及编码从数据库表中读取数据(上)这位朋友的问题是想咨询ABAP数据库表TechnicalSettings里这......
  • Python学习之线性数据结构(二)
    print(end='')end=表示语句结束后加入的东西print(sep='')sep表示间隔符1223这个间隔的空格就是间隔符print(1,2,sep='',end='')#打印数字1和2间隔符为空格......
  • List集合-数据结构
    List集合-数据结构数据结构是计算机存储,组织数据的方式.是指相互之间存在一种或多种特定关系的数据元素的集合.通常情况下,精心选择的数据结构可以带来更高的运行或者......
  • 计算机的数据算法-内存|顺序表|链表|单链表|双端链表
    内存计算机的作用用来存储和运算二进制的数据问题:计算机如何计算1+2?将1和2的二进制类型的数据加载到计算机的内存中,然后使用寄存器进行数值的运算变量......
  • 数据结构
    数组地址的计算1维数组,默认是行优先,也就是先横着放。2位数组行优先,相当于最外围数组横着放,列优先就是最里面的先横着放。稀疏矩阵图(没懂)顺序表和链表队列有......
  • 电能质量监测的数据采集系统
    随着电网规模越来越大,电能质量的监测点越来越多,对监测系统提出了更高的要求。随着社会经济发展,电气化铁路、电弧炉、变频器等冲击性、非线性、不平衡度负载在电力套用中越来......