首页 > 其他分享 >官方数据分析1

官方数据分析1

时间:2023-06-09 23:34:36浏览次数:41  
标签:数据分析 loss string project 官方 theft time root

大数据处理与应用hive

#修改云主机host文件,添加内网IP,对应映射名为hadoop000,实现云主机自身使用root用户ssh访问hadoop000免密登陆

vi /etc/hosts

172.18.39.103 hadoop000

hostnamectl set-hostname hadoop000
bash

#配置免密
ssh hadoop000
exit


#2.格式化HDFS文件系统########################################################

hdfs namenode -format


#3.启动Hadoop集群############################################################


#在本机上使用以下指令启动 NameNode 进程:
hadoop-daemon.sh start namenode  
 


#脚本一键启动和关闭
start-all.sh



#4.开启mysql服务###############################################################
#启动MySQL:
systemctl start mysqld.service



#5.初始化Hive元数据库(数据库类型为mysql),进入Hive客户端,创建hive数据库#########################
schematool -dbType mysql -initSchema


#创建hive数据库:
create database hive;

use hive;


#数据分析#################################
########################################

#1.创建project数据###################################
create database project;
create database if not exists project;

#2.project数据库下创建theft数据表,字段见任务说明,分割字符为‘,’
use project;

 create table if not exists project.theft(
id string,
case_type string,
case_subtype string,
casename string,
loss string,
case_source string,
time_toplimit string,
time_lowerlimit string,
address string,
accept_time string,
report_time string
)
row format delimited fields terminated by ',';


show tables;


#3.使用load data子句加载云主机数据/root/college/theft.csv据至管理表theft

load data local inpath '/root/college/theft.csv' into table project.theft;


#4.统计2021年5月份发生的案件总数(以报案时间为准),结果写入云主机/root/theft/result01/000000_0文件中


insert overwrite local directory '/root/theft/result01'
row format delimited fields terminated by '\t'
select count(report_time) num from project.theft
where substr(report_time,1,8)='2021年05月';




#5.统计2021年4月份经济损失总额(以报案时间为准),结果写入云主机/root/theft/result02/000000_0文件中


insert overwrite local directory '/root/theft/result02'
row format delimited fields terminated by '\t'
select sum(split(loss,'元')[0]) sum_loss from project.theft
where substr(report_time,1,8)='2021年4月';


INSERT OVERWRITE DIRECTORY '/root/theft/result02'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
SELECT SUM(CAST(SUBSTR(loss, 1, LENGTH(loss) - 1) AS FLOAT)) as total_loss
FROM project.theft
WHERE substr(report_time,1,8)='2021年4月';

#6.查询案发频次最高的地区及对应的案发频次,结果写入云主机/root/theft/result03/000000_0文件中


INSERT OVERWRITE DIRECTORY '/user/hadoop/result03'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
SELECT district, count(*) as freq
FROM project.theft
GROUP BY district
ORDER BY freq DESC
LIMIT 1;



#7.统计"经济损失"最少的案件副类别,结果写入云主机/root/theft/result04/000000_0文件中


#8.统计在A市C区案件中的各案件损失金额前三的副类别,结果写入云主机/root/theft/result05/000000_0文件中

insert overwrite 1ocal directory '/root/theft/result05'
row format delimited fields terminated by '\t' 
select case_subtype,sum(split(loss,'元')[0]) sum_loss
from project.theft
where address='A市C区'
group by case_subtype
order by sum_loss desc 1imit 3;


#9.统计盗窃居民小区车辆案件数,结果写入云主机/root/theft/result06/000000_0文件中

insert overwrite local directory '/root/theft/result06'
row format delimited fields terminated by '\t'
select count(case_subtype) num
from project.theft 
where case_subtype='盗窃居民小区车辆';

#10.分析2021年6月经济损失最多的案件副类别,结果写入云主机/root/theft/result07/000000_0文件中


#https://blog.csdn.net/lulu001128/article/details/131031727

标签:数据分析,loss,string,project,官方,theft,time,root
From: https://www.cnblogs.com/Cuckoo123456/p/17470504.html

相关文章

  • 网络采集与数据分析1
    网络采集与数据分析#修改云主机host文件,添加内网IP,对应映射名为hadoop000,实现云主机自身使用root用户ssh访问hadoop000免密登陆vi/etc/hosts172.18.39.103hadoop000#配置免密###############################################################systemctlstopfirewalld......
  • 数据分析实例
    1、导入用于分析和可视化作图的库importpandasaspdimportmatplotlib.pyplotaspltimportseabornassns#seaborn也很强大,可以小试一下da=pd.read_csv('D:/datasource/mycrawldata/dataanylist.csv')da.head()da.columnsda.shape#查看数据的行列数,这里是(465,7)da.desc......
  • 大数据分析python
    #导库importnumpyasnpimportpandasaspd#读取数据data=pd.read_csv('logistics.csv')data.head(10)思路:直接查看不同公司的数量即可df1=data.groupby('货运公司名称').size().reset_index(name='count')#直接对货运公司的名称做统计(示例:天天速递25)df12.接通知对......
  • PieLove 之 数据分析帝.(ZZ)(is2120)
    //z2015-11-1813:11:20L.43'[email protected][T65,L1051,R44,V2186]高息揽储->正常还本付息->老乡们奔走相告->更高的息揽储->老乡们几倍于前面的资金跟进…(循环一段时间,有长有短)…->突然告知不能还本付息->老乡们挤兑->老总站台,出补偿方案->方......
  • R语言用贝叶斯层次模型进行空间数据分析|附代码数据
    阅读全文:http://tecdat.cn/?p=10932最近我们被客户要求撰写关于贝叶斯层次模型的研究报告,包括一些图形和统计输出。在本文中,我将重点介绍使用集成嵌套拉普拉斯近似方法的贝叶斯推理。可以估计贝叶斯层次模型的后边缘分布。鉴于模型类型非常广泛,我们将重点关注用于分析晶格数据......
  • 优酷路由宝刷openwrt官方固件
    声明官方固件实测无线几乎不可用。顾虑信息安全问题,或者不需要无线覆盖功能,或者作为简单的刷入breed或者其他固件的跳板。前言最老的优酷路由宝L1至今应该有八年了,这款路由器的主SOC方案MT7620A在当时就是一款相当“古老”的选择。同期有大量的“智能路由器”选择了这款方案,此方案......
  • 瓴羊Quick BI:强大数据构建能力全面提升企业数据分析的效能
    近日,瓴羊QuickBI又一次入选了权威行业研究机构Gartner发布的魔力象限ABI报告,引发业内热议。要知道,在全球范围内每年能够入选Gartner魔力象限ABI报告的BI工具只有20家,而瓴羊QuickBI算上今年已经连续四年入选,并且在今年以其在提升企业数据分析的能力方面的出色表现跃升到了挑战者象......
  • Xshell/Xftp/Xlpd Plus 7:官方免破全功能无限制版(2023更新)
    XshellPlus7是一款集成了Xshell7(SSH客户端)和Xftp7(SFTP客户端)的软件套餐,可以让您在访问远程终端的同时,进行多窗口的文件传输和编辑,大大提高您的工作效率。XshellPlus7支持多种协议,如SSH,SFTP,TELNET,RLOGIN,SERIAL等,还具有强大的安全性和可定制性。本文将为您详细介绍XshellPlus......
  • python大数据分析-睡眠健康数据分析
     一、选题的背景 睡眠健康在当代社会中具有重要的意义。随着现代生活方式的改变和工作压力的增加,许多人面临着睡眠问题和健康隐患。因此,对于睡眠健康进行数据分析可以提供有价值的洞察和解决方案,改善人们的生活质量和健康状况。数据分析目标:该数据分析的目标是深入了解睡眠健......
  • python大数据分析——股票数据可视化
    一、选题的背景    股票市场一直是金融领域的焦点之一,对股票数据进行大数据分析有助于了解市场趋势、预测价格波动、优化投资策略等。随着大数据技术的快速发展和 应用,越来越多的投资者、交易员和分析师开始利用大数据技术来解读和分析股票市场数据。通过对股票数据的......