首页 > 数据库 >Hive数据线下导入Mysql

Hive数据线下导入Mysql

时间:2024-02-01 09:45:35浏览次数:33  
标签:word 数据线 Mysql Hive 导入 mysql 数据 目录

1.背景

     最近在处理一个数据量级在1亿左右的数据,没办法mysql不好处理,只能把数据放到大数据集群进行处理,处理好后再把这亿级数据导入本地Mysql。

2.实践

(1)把需要处理的数据手动传到集群,上传的数据只有一万条左右,经过笛卡尔积以及各种运算后,结果数据条数有一亿左右,文件大小有5G左右。

(2)由于本地电脑的mysql是安装到c盘的,为了减小系统盘压力,只能把数据迁移到其他目录。首先通过services.msc打开mysq服务,找到mysql的存储目录,然后修改my.ini里面配置的存储路径,注意在windows系统,这个斜杠要反过来/。同时把该级目录里面的Data目录下的所有文件拷贝到目标目录,然后再启动mysql,注意一定要把数据文件拷贝过去了再重启,不然重启会失败哦。

 图1

 (3)通过hadoop dfs -get /xxx把hdfs文件拿到服务器下,然后从服务器上把文件下载到本地,再根据图1的路径执行mysql -uroot -pxxxx --local-infile=1从而打开mysql命令的执行终端,最后执行如下命令把数据导入mysql。

load data local infile 'D:/developmentwork/goodname/word/word/word/000002_0' into table chinese_word_base_name_info  fields terminated by ',';

 

 

标签:word,数据线,Mysql,Hive,导入,mysql,数据,目录
From: https://www.cnblogs.com/beststrive/p/18000564

相关文章

  • 解决hive-cli客户端on spark 不能正常加载本地的native库
    问题现象CDH版本:6.3.21)使用hive-clionspark运行的时候,出现如下错误:FAILED:ExecutionError,returncode3fromorg.apache.hadoop.hive.ql.exec.spark.SparkTask.Sparkjobfaileddueto:Jobabortedduetostagefailure:AbortingTaskSet0.0becausetask0(par......
  • MySQL 期末总结
    MYSQL一、对表结构进行操作1.主键1)添加主键--1.主键/* 方式一:创建表的时候在字段后面+primarykey 方式二:写完字段之后在指定主键,创建标的字段下面 [constraint<约束名>]primarykey*/usemydb1;createtableemp1( eidint, enamevarchar(20), d......
  • seatunnel-2.3.3测试excel入库mysql
    1.背景客户需要excel导入功能,同时支持导入多种数据源,尝试用seatunnel数据集成工具来实现。2.步骤2.1配置文件./config/v2.excel2mysql.configenv{#YoucansetSeaTunnelenvironmentconfigurationhereexecution.parallelism=1job.mode="BATCH"}source......
  • 数据库MySQL8.0.29安装与备份||了解和掌握MySQL的安装和简单使用和备份数据
    内容:了解和掌握MySQL的安装和简单使用:(1) 了解安装MySQL的软硬件环境和安装方法;(2) 熟悉MySQL的相关基本使用;(3) 熟悉MySQL的构成和相关工具;(4) 通过MySQL的使用来理解数据库系统的基本概念。要求:1. 在微机上安装MySQL数据库系统,为后续实验搭建实验环境,提供前期准备;2. 完成实......
  • Mysql中索引的描述设计
    Mysql中索引的描述设计1,索引是占用存储空间的2,my_myisam.myi和account.ibd存放索引3,查询效率提高,增删改效率降低;索引表以查询为主索引结构 二叉树结构一个根节点下只能有两个节点,当子节点比根节点小在左侧,当比根节点大在二叉树右侧缺点:大数据量时,检索慢,如果都比根节点小会......
  • MySQL介绍
    数据库的由来和基本概念什么是数据库?|Oracle中国【一】数据的发展史早期未出现互联网前,每个人都只可以在本地存储,且存储的数据格式都是根据每个人的需要自由定义的出现网络后,可以在局域网内进行多台计算机的数据共享,而这时,数据的格式只能由人为约束,约定俗成好一套数据存......
  • Mysql中存储引擎InnoDB,MyISAM,MEMORY比较
    Mysql中存储引擎InnoDB,MyISAM,MEMORY比较showENGINES--查看数据库支持的搜索引擎ENGINE=InnoDB--使用的InnoDB引擎CREATETABLE`user1`(`id`bigint(20)NOTNULLDEFAULT'0',`name`varchar(255)DEFAULTNULL,`age`int(11)DEFAULTNULL,`sex`varchar(255)......
  • MYSQL日志
    要开启MySQL的二进制日志(binlog),需按照以下步骤进行操作:1.打开MySQL配置文件:首先,找到MySQL的配置文件my.cnf(或my.ini,视操作系统而定)。2.找到并修改binlog相关配置:在配置文件中找到以下几个参数,如果没有则手动添加:[mysqld]log-bin=mysql-bin#开启binlog,设置binlog......
  • MySQL大表分页查询的坑以及解决方案
    最近在做一个需求,需求内容中有一个功能点是查询指定用户标签里的用户id,这里做了分页查询,分页查询是用mysql的LIMIT设置offset和size值来实现的。在程序执行过程中会发现,如果查询的用户标签数据量很大时会出现慢查询告警,这里已经对mysql表的标签名称和用户id字段都加了索引,并且limi......
  • 数据库研发人员必看的MySQL 8.0新特性
    本文汇总了MySQL8.0面向开发的新特性,总共有12个新特性,有想快速了解8.0新特性的朋友,可以看一下哈文章目录:1.公用表达式支持-CTE2.窗口函数3.表达式作为默认值:4.CHECK支持5.隐藏列-MySQL8.0.236.隐藏索引、降序索引、函数索引(MySQL-8.0.19)7.VALUES语法8.INTERSECT和EXC......