大数据分析———（4）数据分析

时间：2023-02-18 22:22:58浏览次数：63

我们采用 hive 数据仓库，把上面用 Spark 清洗完成的数据进行数据的存储与分析。

3.4.1 Hive的启动与数据上传

首先在 Linux 终端界面任意目录下输入 hive shell 进入 hive shell 界面

进入 shell 成功后，通过 create database test; 命令创建数据库，用 show databases; 命令查看数据库是否成功创建

然后用 use test; 选择刚才创建的数据库，在数据库中创建表，完整的代码为

create table stst1(str1 string, str2 string, str3 string,str4 string, str5 string, str6 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE location '/home'

最后从文件中导入数据到刚刚建立的表中，完整命令为

load data local inpath '/home/part-00000' overwrite into table stst1;

至此，数据导入数据库完成，我们可通过 select * from stst1; 查看数据的导入情况

3.4.2 用Hive进行数据统计分析

数据库中拥有相当丰富的查询与筛选排序命令，所以用数据库命令对数据进行分析，相对来说是比较方便快捷的选择。

在本次课题中，我们来对 NBA2011-2012季后赛球员，位置为后卫的命中率前五名进行分析展示。具体代码为

select * from stst1 where str3='后卫' order by str3 DESC limit 5;

我们可以看到，其在运行查询筛选的过程中，自动调动了 MapReduce 进行数据计算

至此，数据的分析统计已经完成，最后的结果如下图所示

标签：数据分析,string,数据库,stst1,hive,数据
From： https://www.cnblogs.com/yenaibo/p/17133804.html

大数据分析———（2）准备工作
3.2.1环境安装本次项目使用Spark进行数据清洗，首先需要安装Scala环境。下载解压后，修改~/.bashrc文件，把Scala添加到系统环境变量中。3.2.2环境运行在启动Spark之前，首......
大数据分析———（1）数据导入
本次数据分析在Hadoop大数据平台的基础上，导入外部数据，使用Spark进行数据清洗，使用Hive进行数据存储，同时使用Tableau进行可视化展示。本次使用数据为《NBA2011-2012季后赛球......
【视频】CNN（卷积神经网络）模型以及R语言实现回归数据分析|附代码数据
全文链接：http://tecdat.cn/?p=18149最近我们被客户要求撰写关于CNN（卷积神经网络）的研究报告，包括一些图形和统计输出。无人驾驶汽车最早可以追溯到1989年。神经网络已经存......
开学测试——电子商务大数据分析
一、测试要求：1、数据采集（要求至少爬取三千条记录，时间跨度超过一星期）：（10分）要求Python编写程序爬取京东手机的评论数据，生成Json形式的数据文件。京东商城部分数据格式如......
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据
全文下载链接：http://tecdat.cn/?p=24535最近我们被客户要求撰写关于COPULA的研究报告，包括一些图形和统计输出。最近，copula在仿真模型中变得流行起来。Copulas是描述变......
中电金信Gien享汇・大数据专题｜从数据分析视角看零售客户经营
本期嘉宾符永钰中电金信数据分析和管理咨询专家中国澳门大学，管理学硕士曾任职IBMGBS、IMSHealth等多家大型公司近10年跨国跨行业的数据分析和管理咨询从业经验专注于数据......
python pandas库总结-数据分析和操作工具
参考：https://pandas.pydata.org/Input/output相关函数pandas.read_excel—将Excel文件读入pandas数据框支持读取xls,xlsx,xlsm,xlsb,odf,ods和odt文件扩展名，支持单......
瓴羊Quick BI报表分析工具，专业数据分析人员的“神辅助”
在如今的企业中，数据的重要性不言而喻。无论是从事哪种行业，规模大小如何，现代企业几乎都会用到数据分析来做管理决策。可以说，数据分析已经成为了企业运行不可或缺的基础。正因......
C/C++工业数据分析与文件信息管理系统[2023-02-12]
C/C++工业数据分析与文件信息管理系统[2023-02-12]程序设计基础A课程设计工业数据分析与文件信息管理系统题目背景智能制造是以工业生产数据分析、自动化技术为基础，具......
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下
@目录使用注意连接条件限制维度限制度量限制查询引擎SparderHDFS存储信息查询参数查询下压配置Cube构建优化使用衍生维度（deriveddimension）使用聚合组（Aggregationgroup）Ro......

大数据分析———（4）数据分析

3.4.1 Hive的启动与数据上传

3.4.2 用Hive进行数据统计分析

相关文章

赞助商

阅读排行