shell/hadoop/hive一些有用命令收集

时间：2023-02-07 13:32:30浏览次数：50

标签：index shell crazyant hadoop -+ 命令 hive

有些命令工作中经常用到，记录在一个文章里用于查阅，本文经常更新。

shell命令

linux统计某个目录下所有文件的行数的命令

find /home/crazyant -type f -name "*" | xargs cat | wc -l

用find查找crazyant目录下所有文本文件的行数之和。不过该命令执行挺慢的。

linux统计某个目录下所有目录和总目录的大小命令

du -h --max-depth=1 /home/crazyant/

统计crazyant目录下的所有文件的大小，这里我只想看到一层目录的大小，因此加上了—max-depth=1如果不加这个参数，该命令会以递归的方式列出所有子目录的文件大小

scp命令的使用：

从本地复制到远程：scp -r logs_jx [email protected]/home/pss/logs

hive命令

hive建立和执行索引

create index table02_index on table table02 ( id ) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild ;
alter index table02_index on table02 rebuild ;

第一句hive在表上建立了索引但没有生效，第二句真正的执行建立索引的过程，其本身也是一个map –reduce过程。

hive的Load data命令

hive - e "
use crazyant_net;
LOAD DATA INPATH '/app/crazyant/student/*' INTO TABLE student;"

其中inpath的意思是input path的意思，所以不管是从本地local还是hdfs上load data，都要带上。

hadoop命令

hadoop的distcp命令带用户名密码的方法

hadoop distcp -su user1,pass1 -du user1,pass1 hdfs://src1 hdfs://dest1

有时候两个集群之间是没有distcp权限的，这时候需要带上两个集群的账号密码，在-su后面带上第一个集群的账号密码，在-du后面带上目标集群的账号密码。

Mysql命令

查看数据表的最详细的字段描述信息

SHOW FULL FIELDS FROM student

该命令把注释、权限、默认值、类型等表字段信息都列出来了。

查看正在执行的mysql线程

mysql> show processlist;
+———+———–+——————–+————-+———+——+——-+——————+
| Id      |    User   | Host               | db          | Command | Time | State | Info             |
+———+———–+——————–+————-+———+——+——-+——————+
| 2153201 | crazyant  | 127.0.0.1:25357    | pulse       | Sleep   |  914 |       | NULL             |
| 2153733 | crazyant  | 127.0.0.1:48814    | hive        | Query   |    0 | NULL  | show processlist |
| 2153735 | crazyant  | 127.0.0.1:39639    | pulse       | Sleep   |   13 |       | NULL             |
| 2153736 | crazyant  | 127.0.0.1:39640    | pulse       | Sleep   |   13 |       | NULL             |
+———+———–+——————–+————-+———+——+——-+——————+
4 rows in set (0.01 sec)
mysql>

使用kill命令可以把其中的一个进程给删了

mysql> kill 2153474;
Query OK, 0 rows affected (0.00 sec)

将数据LOAD到MYSQL的方法：

LOAD DATA LOCAL INFILE ‘D:/workbench/python/result.txt’ REPLACE INTO TABLE my_urlvisit FIELDS TERMINATED BY’\t’ LINES TERMINATED BY’\n’ IGNORE 0 LINES (url,pdate,COUNT);

vim命令

如果编辑错误，按ESC回到命令模式，按u可以撤销刚才的编辑；

vim编辑中文文本出现乱码

VIM的文本经常会出现中文乱码，这是因为fileencoding和termencoding编码不一致造成的，设置一直就可以了；

:set termencoding
termencoding=cp936
:set fileencoding
fileencoding=utf-8
:set termencoding=utf8

这样设置一下vim就能正常显示中文了；

标签：index,shell,crazyant,hadoop,-+,命令,hive
From： https://blog.51cto.com/peishuai/6042041

【漏洞复现】Tomcat弱口令+后台getshell
Tomcat7+WeakPassword&&BackendGetshellVulnerability1.弱口令vulhub部署好靶机环境以后；在登录窗口随机输入账号密码，如admin:123456；打开burp抓包，发现数据包中包......
Hive刷题——explode关于数据扩充与收缩
有以下数据selectexplode(array(2,3,4))num;结果num234需求1、数据扩充：输出结果如下所示：41,4,3,231,3,221,2参考实现selectt.num,co......
Hadoop集群搭建--虚拟机互相ping通
文章目录目标一、虚拟机的网络配置二、虚拟机机子ip配置1.第一台hadoop02.第二台hadoop13.验证目标看到了很多文献......
怎样通过explain执行计划，来优化SQL（以hive为例）
适用场景HiveSQL在执行之前会将SQL转换为MapReduce任务，因此需要了解具体的转换过程。可以通过explain关键字来查看具体的执行计划。通过执行计划能看到SQL程序转换成相应......
shell脚本学习教程（全网最全教学）
1shell概述1.1什么是ShellShell是一个命令行解释器，它为用户提供了一个向Linux内核发送请求以便远程远程程序的界面系统级程序，用户可以用Shell来启动、挂起、停止甚......
HIVE的几个使用技巧
1.小表在前，大表在后，如果表很小就用mapjoin写JOIN的时候，将小表写在JOIN的前面，这样HIVE就会将小表载入内存，然后扫描大表。如果表足够的小，就使用mapjoin。2.设定map的并发数，保......
Hive使用TRANSFORM运行Python脚本总结
1、Python环境设置可以使用addcachearchive的方法把tar.gz添加到分布式缓存，Hive会自动解压压缩包，但是目录名是和压缩包名称一样的；addcachearchive${env:my_workbenc......
把HIVE程序优化30倍的经验
今天遇到一个HIVE需求，输入只有4列，大概160MB，需要引用一些字典文件，然后输出70列数据；典型的复杂计算，由于HIVE无法单独实现，采用TRANSFORM写了PYTHON脚本实现；刚开始写完......
Hive中Order by和Sort by的区别是什么?
Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在......
向Hive程序传递变量的三种方法
图1外部向Hive程序中传递变量的方法使用Hive编写程序最常用的方法是将Hive语句写到文件中，然后使用hive-ffilename.hql来批量执行查询语句。经常需要将外部参......