首页 > 其他分享 >网络采集与数据分析1

网络采集与数据分析1

时间:2023-06-09 23:34:03浏览次数:36  
标签:数据分析 daemon start 启动 网络 hadoop000 采集 sh ssh

网络采集与数据分析

#修改云主机host文件,添加内网IP,对应映射名为hadoop000,实现云主机自身使用root用户ssh访问hadoop000免密登陆

vi /etc/hosts

172.18.39.103 hadoop000


#配置免密###############################################################
systemctl stop firewalld
ssh-keygen -t dsa  -P '' -f  ~/.ssh/id_dsa 

cd .ssh
cat id_dsa.pub >> authorized_keys

ssh hadoop000

exit

ssh hadoop000


#2.格式化HDFS文件系统########################################################

hdfs namenode -format


#3.启动Hadoop集群############################################################


#在本机上使用以下指令启动 NameNode 进程:
hadoop-daemon.sh start namenode  
 
 
#在本机上使用以下指令启动 SecondaryNameNode 进程:


hadoop-daemon.sh start secondarynamenode


#脚本一键启动和关闭
start-dfs.sh


#下面二选一

#单节点逐个启动和关闭
yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager


#脚本一键启动和关闭
start-yarn.sh

#4.开启mysql服务###############################################################
#启动MySQL:
systemctl start mysqld.service
#开机自起:
systemctl enable mysqld.service

#查看默认密码得到密码登录:
grep "password" /var/log/mysqld.log

#Lh-q1mk<otA_
#进入mysql,输入默认密码:
mysql -uroot -p


#5.初始化Hive元数据库(数据库类型为mysql),进入Hive客户端,创建hive数据库#########################
schematool -dbType mysql -initSchema

#进入hive库:
hive
#查看数据库:
show databases;

#创建text数据库:
create database hive;

use hive;


#数据分析

#1.创建project数据库
create database project;

#2.project数据库下创建theft数据表,字段见任务说明,分割字符为‘,’
use project;

create table theft(
id string
,case_type string
,case_subtype string
,casename string
,loss string
,case_source string
,time_toplimit timestamp
,time_lowerlimit timestamp
,address string
,accept_time timestamp
,report_time timestamp
)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
;

show tables;


#3.使用load data子句加载云主机数据/root/college/theft.csv据至管理表theft




#4.统计2021年5月份发生的案件总数(以报案时间为准),结果写入云主机/root/theft/result01/000000_0文件中

#5.统计2021年4月份经济损失总额(以报案时间为准),结果写入云主机/root/theft/result02/000000_0文件中


#6.查询案发频次最高的地区及对应的案发频次,结果写入云主机/root/theft/result03/000000_0文件中

#7.统计"经济损失"最少的案件副类别,结果写入云主机/root/theft/result04/000000_0文件中

#8.统计在A市C区案件中的各案件损失金额前三的副类别,结果写入云主机/root/theft/result05/000000_0文件中

#9.统计盗窃居民小区车辆案件数,结果写入云主机/root/theft/result06/000000_0文件中

#10.分析2021年6月经济损失最多的案件副类别,结果写入云主机/root/theft/result07/000000_0文件中



标签:数据分析,daemon,start,启动,网络,hadoop000,采集,sh,ssh
From: https://www.cnblogs.com/Cuckoo123456/p/17470506.html

相关文章

  • 【Sword系列】第七届全国残疾人职业技能大赛样题-网络安全-数据包分析
    前言Wireshark(前称Ethereal)是一个网络数据包分析软件。网络数据包分析软件的功能是截取网络数据包,并尽可能显示出最为详细的网络数据包数据。在过去,网络数据包分析软件是非常昂贵,或是专门属于营利用的软件,Wireshark的出现改变了这一切。在GNU通用公共许可证的保障范围底下,用户可以......
  • 【网络(一)】
    以下 IP 地址中,为 B 类地址的是 (D)A.112.213.12.23B.210.123.23.12C.23.123.213.23D.156.123.32.12A:0.0.0.0~127.255.255.255B:128.0.0.0~191.255.255.255C:192.0.0.0~223.255.255.255网络上所抓到的TCP数据报文段中,有一个字段RcvWindow,其含义和作用为(A)A.接收窗口......
  • 数据分析实例
    1、导入用于分析和可视化作图的库importpandasaspdimportmatplotlib.pyplotaspltimportseabornassns#seaborn也很强大,可以小试一下da=pd.read_csv('D:/datasource/mycrawldata/dataanylist.csv')da.head()da.columnsda.shape#查看数据的行列数,这里是(465,7)da.desc......
  • 大数据分析python
    #导库importnumpyasnpimportpandasaspd#读取数据data=pd.read_csv('logistics.csv')data.head(10)思路:直接查看不同公司的数量即可df1=data.groupby('货运公司名称').size().reset_index(name='count')#直接对货运公司的名称做统计(示例:天天速递25)df12.接通知对......
  • 网络传输中的重要参数-谈谈带宽
    目录带宽带宽和延时、丢包的关系带宽的估算方法小结以及一些值得注意的点除了上篇提到的RTT与丢包率,大多数人更关心的也许是网络的带宽(Bandwidth,Bw),毕竟电信、联通等公司广告主打的就是一个百兆、千兆带宽,听着嘎嘎猛。很自然的一个认知是,带宽好的链路在同样的数据源与流控策略的......
  • 网络爬虫——IMDb-Most Popular Tv Shows
    一、选题的背景1.选择IMDb流行电视剧的网络爬虫作为选题,是因为电视剧在当今社会中扮演着重要角色,它们不仅是娱乐消遣的方式,还反映了社会文化、价值观和审美趋势。通过对IMDb流行电视剧的数据分析,可以了解观众的喜好和市场需求,为制作公司、投资者、广告商等提供有价值的参考信息。......
  • Kali 用 Wireshark 抓取网络数据包
    这个Wireshark是可视化操作工具,可以直接打开。如下图所示,如果是中文版的,可以直接操作:如果是英文版的,就点击Capture后,选择Options打开如下窗口:以上,我们可以选择eth0或Kiioback:io进行抓包,这里每个人的接口可能不一样,选择好后点击开始(start)。开始后,如下图所示:非常简......
  • 《Python网络程序设计》教学大纲
    ==================......
  • Python 3.8实现支持断点续传的网络文件下载功能
    功能描述:下载URL指定的网络文件,支持断点续传。代码支持Python3.5/3.6/3.7/3.8以及更新的版本。所谓断点续传,是指因为各种原因下载过程被中断之后,再次下载时会继续之前的工作,避免重复下载浪费时间。参考代码:以spark官方下载地址为例,220M的文件。运行结果:......
  • PieLove 之 数据分析帝.(ZZ)(is2120)
    //z2015-11-1813:11:20L.43'[email protected][T65,L1051,R44,V2186]高息揽储->正常还本付息->老乡们奔走相告->更高的息揽储->老乡们几倍于前面的资金跟进…(循环一段时间,有长有短)…->突然告知不能还本付息->老乡们挤兑->老总站台,出补偿方案->方......