首页 > 系统相关 >shell/hadoop/hive一些有用命令收集

shell/hadoop/hive一些有用命令收集

时间:2023-02-07 13:32:30浏览次数:47  
标签:index shell crazyant hadoop -+ 命令 hive


有些命令工作中经常用到,记录在一个文章里用于查阅,本文经常更新。

shell命令

linux统计某个目录下所有文件的行数的命令


find /home/crazyant -type f -name "*" | xargs cat | wc -l




用find查找crazyant目录下所有文本文件的行数之和。不过该命令执行挺慢的。

linux统计某个目录下所有目录和总目录的大小命令

du -h --max-depth=1 /home/crazyant/


统计crazyant目录下的所有文件的大小,这里我只想看到一层目录的大小,因此加上了—max-depth=1如果不加这个参数,该命令会以递归的方式列出所有子目录的文件大小

scp命令的使用:

从本地复制到远程:scp -r  logs_jx [email protected]/home/pss/logs

hive命令

hive建立和执行索引


create index table02_index on table table02 ( id ) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild ;
alter index table02_index on table02 rebuild ;

第一句hive在表上建立了索引但没有生效,第二句真正的执行建立索引的过程,其本身也是一个map –reduce过程。

hive的Load data命令


hive - e "
use crazyant_net;
LOAD DATA INPATH '/app/crazyant/student/*' INTO TABLE student;"


其中inpath的意思是input path的意思,所以不管是从本地local还是hdfs上load data,都要带上。

 

hadoop命令

hadoop的distcp命令带用户名密码的方法

hadoop distcp -su user1,pass1 -du user1,pass1 hdfs://src1 hdfs://dest1



有时候两个集群之间是没有distcp权限的,这时候需要带上两个集群的账号密码,在-su后面带上第一个集群的账号密码,在-du后面带上目标集群的账号密码。

Mysql命令

查看数据表的最详细的字段描述信息


SHOW FULL FIELDS FROM student

该命令把注释、权限、默认值、类型等表字段信息都列出来了。

查看正在执行的mysql线程
mysql> show processlist;
+———+———–+——————–+————-+———+——+——-+——————+
| Id | User | Host | db | Command | Time | State | Info |
+———+———–+——————–+————-+———+——+——-+——————+
| 2153201 | crazyant | 127.0.0.1:25357 | pulse | Sleep | 914 | | NULL |
| 2153733 | crazyant | 127.0.0.1:48814 | hive | Query | 0 | NULL | show processlist |
| 2153735 | crazyant | 127.0.0.1:39639 | pulse | Sleep | 13 | | NULL |
| 2153736 | crazyant | 127.0.0.1:39640 | pulse | Sleep | 13 | | NULL |
+———+———–+——————–+————-+———+——+——-+——————+
4 rows in set (0.01 sec)
mysql>
使用kill命令可以把其中的一个进程给删了
mysql> kill 2153474;
Query OK, 0 rows affected (0.00 sec)

将数据LOAD到MYSQL的方法:

LOAD DATA LOCAL INFILE ‘D:/workbench/python/result.txt’ REPLACE INTO TABLE my_urlvisit FIELDS TERMINATED BY’\t’ LINES TERMINATED BY’\n’ IGNORE 0 LINES (url,pdate,COUNT);

vim命令

如果编辑错误,按ESC回到命令模式,按u可以撤销刚才的编辑;

vim编辑中文文本出现乱码

VIM的文本经常会出现中文乱码,这是因为fileencoding和termencoding编码不一致造成的,设置一直就可以了;

:set termencoding
termencoding=cp936
:set fileencoding
fileencoding=utf-8
:set termencoding=utf8

这样设置一下vim就能正常显示中文了;


标签:index,shell,crazyant,hadoop,-+,命令,hive
From: https://blog.51cto.com/peishuai/6042041

相关文章

  • 【漏洞复现】Tomcat弱口令+后台getshell
    Tomcat7+WeakPassword&&BackendGetshellVulnerability1.弱口令vulhub部署好靶机环境以后;在登录窗口随机输入账号密码,如admin:123456;打开burp抓包,发现数据包中包......
  • Hive刷题——explode关于数据扩充与收缩
    有以下数据selectexplode(array(2,3,4))num;结果num234需求1、数据扩充:输出结果如下所示:41,4,3,231,3,221,2参考实现selectt.num,co......
  • Hadoop集群搭建--虚拟机互相ping通
    文章目录​​目标​​​​一、虚拟机的网络配置​​​​二、虚拟机机子ip配置​​​​1.第一台hadoop0​​​​2.第二台hadoop1​​​​3.验证​​目标看到了很多文献......
  • 怎样通过explain执行计划,来优化SQL(以hive为例)
    适用场景HiveSQL在执行之前会将SQL转换为MapReduce任务,因此需要了解具体的转换过程。可以通过explain关键字来查看具体的执行计划。通过执行计划能看到SQL程序转换成相应......
  • shell脚本学习教程(全网最全教学)
     1shell概述1.1什么是ShellShell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便远程远程程序的界面系统级程序,用户可以用Shell来启动、挂起、停止甚......
  • HIVE的几个使用技巧
    1.小表在前,大表在后,如果表很小就用mapjoin写JOIN的时候,将小表写在JOIN的前面,这样HIVE就会将小表载入内存,然后扫描大表。如果表足够的小,就使用mapjoin。2.设定map的并发数,保......
  • Hive使用TRANSFORM运行Python脚本总结
    1、Python环境设置可以使用addcachearchive的方法把tar.gz添加到分布式缓存,Hive会自动解压压缩包,但是目录名是和压缩包名称一样的;addcachearchive${env:my_workbenc......
  • 把HIVE程序优化30倍的经验
    今天遇到一个HIVE需求,输入只有4列,大概160MB,需要引用一些字典文件,然后输出70列数据;典型的复杂计算,由于HIVE无法单独实现,采用TRANSFORM写了PYTHON脚本实现; 刚开始写完......
  • Hive中Order by和Sort by的区别是什么?
    Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在......
  • 向Hive程序传递变量的三种方法
    ​​​​图1外部向Hive程序中传递变量的方法使用Hive编写程序最常用的方法是将Hive语句写到文件中,然后使用hive-ffilename.hql来批量执行查询语句。经常需要将外部参......