首页 > 其他分享 >每日总结(sqoop基本用法)

每日总结(sqoop基本用法)

时间:2023-09-21 18:24:09浏览次数:30  
标签:总结 info -- sqoop 用法 user mysql id

将mysql中user_info表数据导入到HDFS的/test路径

 1 bin/sqoop import \
 2 --connect jdbc:mysql://hadoop102:3306/gmall \    库名
 3 --username root \
 4 --password 123456\
5 --table user_info \ 表名 6 --columns id,login_name \ 列名 7 --where "id>=1 and id<=20" \ 条件

等同于--query "select id,login_name from user_info where id>=1 and id<=20 and $CONDITIONS" \
8 --target-dir /test \ hdfs目录 9 --delete-target-dir \ 10 --fields-terminated-by '\t' \ 分隔符 11 --num-mappers 2 \ 分两片 (id=1___id=10 , id=11___id=20) 12 --split-by id 通过id分片

 

标签:总结,info,--,sqoop,用法,user,mysql,id
From: https://www.cnblogs.com/fan-wang/p/17720628.html

相关文章

  • 9.21每日总结
     Hive表操作–增删改:(1)创建一个自定义分隔符的普通内部表:CREATETABLEIFNOTEXISTSemployee( #employee为举例表名,根据实际情况进行替换,下同namestring,work_placeARRAY<string>,sex_ageSTRUCT<sex:string,age:int>,skills_scoreMAP<string,int>,d......
  • 每日总结|9.21-Hive搭建及报错解决方案
    搭建安装hive把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.2-bin.tar.gz-C/opt/module/修改apache-hive-3.1.2-bin.tar.gz的名称为h......
  • Git忽略提交规则 - .gitignore配置运维总结
    在使用Git的过程中,我们喜欢有的文件比如日志,临时文件,编译的中间文件等不要提交到代码仓库,这时就要设置相应的忽略规则,来忽略这些文件的提交。简单来说一个场景:在你使用gitadd.的时候,遇到了把你不想提交的文件也添加到了缓存中去的情况,比如项目的本地配置信息,如果你上传到Git中去......
  • 工作流程优化 - 总结笔记
    一、一个忙碌的上午(现实中的工作流问题)小张已经忙了一个早上了,她觉得自己还是很有条理的,这种有条理的忙碌感让他觉得内心充实。她会把每件工作按照紧急程序进行一个大致的排序,一件件处理,但是判断依据呢?只是自己的一个感觉而已。(问题:没有对瓶颈环节设计紧急的分流方案)老王的......
  • 软件产品研发流程总结
    开发流程更完整、更有效率,产品才能脱颖而出。 1.项目启动在项目启动阶段,主要确定项目的目标、范围及其可行性,我们需要对项目的背景、干系人、决策人等等进行了解。编制项目章程和组建项目团队,包括:产品经理、架构师、UI工程师、开发工程师、测试工程师等;明确项目管理制度,每......
  • 2023.9.21——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午上课,下午上课。我了解到的知识点:1.了解了关于模型训练的一些知识和注意事项;2.了解了关于软件构造的一些知识,明日计划:1.完成Hive的测试;......
  • 问题总结
    1.参数影响RDS实例性能分库分表实例,共5台rds相同的配置,每个rds20个表,在执行相同的脚本(串行执行altertable来回收表空间),发现其中一台数据库(rds1)实例执行的速度比其他4台足足慢了1天,分库分表,数据量是差不多的,表大小也差不多,为什么会有这么大的差异呢?排查结果:发现rds1的其中......
  • 9月16日总结
    数据库sql中判断时间冲突数据库现有数据其中两列:s-开始时间,e-结束时间.在新插入数据s',e'之前需要判断两个时间之间是否有重合因为使用mybatis-plus的缘故,结论都使用s或e在符号前面.s<e比如yyyy-MM-ddHH:mm:ss格式的数据,多用于判断预约时间和每日排班冲突......
  • 9月19日总结
    合集-计算机网络(5)1.网络协议的重要性与应用:理解进程间通信和网络分层结构(上)09-172.网络协议的重要性与应用:理解进程间通信和网络分层结构(下)09-183.深入理解HTTP的基础知识:请求-响应过程解析09-194.深入解析HTTP请求:了解请求特征与报文格式的关键秘密09-205.TCPvsUD......
  • 9月22日总结
    matplotlib的动画一直是一个强大但使用频率不高的功能,究其原因,一方面展示动画需要一定的媒介,没有图形和文字展示方便;二来大家更关心的是分析结果的最终图表,图表的动态展示则没有那么重要。不过,随着短视频的兴起,在短视频平台上展示动画变得非常容易,所以,我们发现有越来越多的数......