首页 > 数据库 >MySQL快速导入千万条数据(1)

MySQL快速导入千万条数据(1)

时间:2022-08-29 21:11:34浏览次数:156  
标签:mysql2 千万条 MySQL tablename mysql 导入 sql

对于传统的关系数据库如oracle,在大量数据导入方面的效率,我们一般有一个大概的认知,即1分钟以内可以导入千万条数据,而对于MySQL数据库,普遍观点以为性能相对较差,尤其时对于千万级别的数据量,几十分钟、几个小时,都是可能的。是否如此,本文会给出答案
在普遍去IOE的今天,最难的去O也已经势在必行,所以探讨测试一下MySQL的大数据量导入非常有必要。事实上我们的各个新建项目由于采用了MySQL数据库,在备份恢复时,便会面临大量数据的逻辑导出与导入需求。
恰好笔者手头有一个3000多万行的数据记录,SQL文本格式如下:

DROP TABLE IF EXISTS `tablename`;
CREATE TABLE `tablename` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `code` varchar(100) DEFAULT NULL,
  `init_value` text,
  `master_id` int(11) DEFAULT NULL,
  `code_id` varchar(11) DEFAULT NULL,
  `end_value` text,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=137259138 DEFAULT CHARSET=utf8;
INSERT INTO `tablename` VALUES ('40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000');
INSERT INTO `tablename` VALUES ('40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400');
INSERT INTO `tablename` VALUES ('40601440', 'CF_0105', '357661339.7200', '56816', null, '357661339.7200');
...后面都是INSERT语句

一、命令行导入方式

首先使用最原始的命令行方式测试,如下:
mysql -uroot -ppasswd' --default-character-set=utf8 dbname < mysql.sql
为了提高插入效率,去掉索引,改为批量commit提交,此处特意编写了一个脚本,用于修改原SQL文件,如下:

cat > modify_file.sh << EOF
#!/bin/sh
filename=\$1 # 定义文件名字
var1="COMMIT;" # 定义变量
var2="START TRANSACTION;" # 定义变量
sed -i ''\$2' i\'"\$var2" \$filename # 第n行前添加"START TRANSACTION;"
cat \$filename|awk 'NR%1000==0{printf("%09d\n", NR)}'|while read line #每隔1000行获取行号 
do
  echo "\$line"
  sed -i ''\$line'a '"\$var1""\n""\$var2"'' \$filename # 向文件插入两行,分别是"COMMIT;"和"START TRANSACTION;"
done
sed -i '\$a\'"\$var1" \$filename # 最后1行添加"COMMIT;"
EOF

一个简单的导入脚本,用于记录时间:

vim dumpin.sh
echo "Start ...("`date "+%Y%m%d-%H:%M:%S"`")"
mysql -uroot -p'passwd' --default-character-set=utf8 dbname < $1
echo "Completed.("`date "+%Y%m%d-%H:%M:%S"`")"

chmod +x dumpin.sh

取出前50万行:
head -500000 mysql.sql > mysql2.sql
修改文件内容,加入批量提交语句:
./modify_file.sh mysql2.sql 35
执行导入:

logfile=dumpin.log_"`date "+%Y%m%d_%H-%M"`"
./dumpin.sh mysql2.sql > $logfile 2>&1 &

测试结果如下:
去索引,每1000条批量提交,50万行耗时9分钟

Start ...(20220224-21:49:58)
Completed.(20220224-21:58:17)

去索引,逐行提交,50万行耗时19分钟

Start ...(20220224-22:14:13)
Completed.(20220224-22:33:37)

可见这个命令行的导入方式,时间太长,几乎无法接受,也没有太大的提升空间。

二、LOAD DATA导入方式

关于LOAD DATA的详细介绍请网搜,此处不再赘述。
首先,修改原SQL文件格式为LOADDATA可用的csv文本格式,此处先用前500万行测试:

head -5000000 mysql.sql > mysql2.sql
sed -i "s/INSERT INTO \`tablename\` VALUES (//g" mysql2.sql
sed -i "s/);//g" mysql2.sql

经过以上自动编辑处理,原SQL文件内容成为如下格式:

'40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000'
'40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400'

然后,执行导入,如下所示:

mysql -uroot -p'passwd' dbname --local-infile
LOAD DATA LOCAL INFILE '/root/mysql2.sql'
INTO TABLE tablename
FIELDS TERMINATED BY ', '
ENCLOSED BY "'"
LINES TERMINATED BY '\n'
IGNORE 34 lines;

期间遭遇3948、2068错误,自行网搜修改配置即可解决,最终测试结果如下:
500万行,有2索引导入耗时:3 min 35.32 sec
500万行,无 索引导入耗时:3 min 5.99 sec

可见百万行级别load时少数索引影响不大,基本是数分钟内可以导入百万条记录
必须说明,由于这是在笔记本电脑虚机的测试结果,相信生产环境会快很多。

好,现在你还会说,MySQL数据库大批量数据导入性能较差吗?

下一步继续测试这3000万条数据全部导入的情况。

标签:mysql2,千万条,MySQL,tablename,mysql,导入,sql
From: https://www.cnblogs.com/likingzi/p/16637373.html

相关文章

  • MySQL PXC集群大事务提交超限
    研发人员在测试大事务提交时遇见了错误:Goterror5-'Transactionsizeexceedsetthreshold'duringCOMMIT测试了几次都是1200S的时候停止的,不过在注释掉特定步骤后,......
  • 基本的mysql语句
    基本的mysql语句  本节课先对mysql的基本语法初体验。操作文件夹(库)增createdatabasedb1charsetutf8;查#查看当前创建的数据库showcreatedatabase......
  • MySQL(三)+测试题
    MySQL索引在MySQL中,创建MySQL的索引主要是为了提⾼MySQL查询的效率。但是添加太多的索引也是会降低更新表的速度的,因为对表进⾏DML操作的时候,MySQL的内部不仅仅要保存数......
  • MySQL(四)-补充
    1、内查询:2种表示方法以testdev数据库的goods表和shop表为例:查询出goods表的name和shop表的name、level:第1种方法:第2种方法:2、创建表:ifnotexistscreatetablei......
  • MySql面试题总结
    1、having和where的区别解答:having子句用于分组后筛选,where子句用于行条件筛选where条件子句中不能使用聚集函数,而having子句就可以。having只能用在groupby之后,where......
  • springboot定时同步数据,从sqlserver到mysql
    定时同步数据,从sqlserver到mysql 注意事项:一.primary:master #设置默认的数据源或者数据源组,默认值即为master二.@Scheduled()和 @DS("slave_1")注解 步骤:1.......
  • MySQL4
    mysql5内链接   左连接1、先走内连接的逻辑2、再查询出左表所有的数据  select*fromgoodgleftjoinshopsong.id=s.good_id;  右链接  s......
  • linux环境搭建篇-安装mysql
    1.下载安装包方式一:手动下载并上传Linux下载mysql5.7的安装包,可以从官网下载https://downloads.mysql.com/archives/community  下载完成后将安装包上传到linux......
  • Mysql 导出文件csv 自动将字符串转化为了日期格式的处理
      在mysql自带的导出功能里将文件以csv的格式导出出现将字符串自动转化为了日期格式解决办法(并不推荐):读取每个String,在此字符串后面加入"\t",可以避免CSV的默认转换。副......
  • Mysql踩过的坑 索引失效 隐式类型转换
    ##博主所在项目,2期项目是mysql5.6版本,其使用的字符集是utf8在3期项目进行开发的时候,有一部分现成的表直接拷贝过来3期项目去使用3期项目mysql版本是8.0.20 默认约......