首页 > 其他分享 >大数据分析———(1)数据导入

大数据分析———(1)数据导入

时间:2023-02-18 22:00:12浏览次数:126  
标签:数据分析 文件 导入 Linux 格式 数据

本次数据分析在Hadoop大数据平台的基础上,导入外部数据,使用Spark进行数据清洗,使用Hive进行数据存储,同时使用Tableau进行可视化展示。本次使用数据为《NBA2011-2012季后赛球员数据统计》

因初始数据为 .xlsx 格式,为了兼容性着想,首先需要把文件转换为csv格式,使其在Linux中方便读取。

使用Excel打开文件后,点击左上角文件菜单==》另存为,保存类型选择CSV(逗号分隔)格式

转换格式后的数据如下

通过 Xftp4 把文件从 Windows 上传到 Linux ,至此,数据导入的工作完成

 

标签:数据分析,文件,导入,Linux,格式,数据
From: https://www.cnblogs.com/yenaibo/p/17133751.html

相关文章

  • 数据库事物和事物的隔离级别
    一、事物的特性原子性:同一个事物的多个操作要么同时成功,要么同时失败一致性:事物操作前后数据库的数据整体上要保持一致,例如一个转账操作中,A账号转出的钱一定和B账号......
  • ABAP 数据库表 Size Category 字段的准确含义
    有朋友在我这篇教程文章里留言:14.如何创建最简单的ABAP数据库表,以及编码从数据库表中读取数据(上)这位朋友的问题是想咨询ABAP数据库表TechnicalSettings里这......
  • Python学习之线性数据结构(二)
    print(end='')end=表示语句结束后加入的东西print(sep='')sep表示间隔符1223这个间隔的空格就是间隔符print(1,2,sep='',end='')#打印数字1和2间隔符为空格......
  • List集合-数据结构
    List集合-数据结构数据结构是计算机存储,组织数据的方式.是指相互之间存在一种或多种特定关系的数据元素的集合.通常情况下,精心选择的数据结构可以带来更高的运行或者......
  • 计算机的数据算法-内存|顺序表|链表|单链表|双端链表
    内存计算机的作用用来存储和运算二进制的数据问题:计算机如何计算1+2?将1和2的二进制类型的数据加载到计算机的内存中,然后使用寄存器进行数值的运算变量......
  • 数据结构
    数组地址的计算1维数组,默认是行优先,也就是先横着放。2位数组行优先,相当于最外围数组横着放,列优先就是最里面的先横着放。稀疏矩阵图(没懂)顺序表和链表队列有......
  • 导入file-transfer引起的错误。找不到Whitelist
    把Whitelist改成AllowList//importorg.apache.cordova.Whitelist;importorg.apache.cordova.AllowList; //Whitelistwhitelist=(Whitelist......
  • 电能质量监测的数据采集系统
    随着电网规模越来越大,电能质量的监测点越来越多,对监测系统提出了更高的要求。随着社会经济发展,电气化铁路、电弧炉、变频器等冲击性、非线性、不平衡度负载在电力套用中越来......
  • linux数据恢复方法
    1 块设备挂载目录后分区丢失后数据恢复方法1.1问题产生操作步骤:分区:fdisk/dev/sdb;n;然后一路回车;最后w保存;可以看到sdb有了一个分区sdb1格式化:mkext3.fs/dev/sdb1......
  • 配置LINUX服务器和GEO数据处理
    1.服务器端Anaconda安装&配置1.1下载Anaconda安装包wgethttps://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh1.2安装bashAnaconda3-2022.05......