首页 > 编程语言 >Java使用xlsx-streamer和EasyExcel解决读取超大excel文件数据处理方法

Java使用xlsx-streamer和EasyExcel解决读取超大excel文件数据处理方法

时间:2024-07-27 10:56:52浏览次数:7  
标签:xlsx Java 读取 EasyExcel excel System 内存 file

前言

最近有个项目在生产环境做数据导入时,发现开始执行导入任务会出现cpu狂飙的情况。几番定位查找发现是在读取excel的时候导致此问题的发生,因此在通常使用的为POI的普通读取,在遇到大数据量excel,50MB大小或数五十万行的级别的数据容易导致读取时内存溢出或者cpu飙升。需要注意,本文讨论的是针对xlsx格式的excel文件上传。

关于Excel相关技术

在Java技术生态圈中,可以进行Excel处理的主流技术包括:Apache POI,JXL,Alibaba EasyExcel等。由于JXL只支持Excel2003以下版本,所以不太常见。

Apache POI:基于DOM方式进行解析,将文件直接加载内存,所以速度较快,适合Excel文件数量不大的应用场景
Alibaba EasyExcel:采用逐行读取的解析模式,将每一行的解析结果以观察者模式通知处理(AnalyEventListener),所以比较适合数据体量较大的Excel文件解析。

问题代码

这种方式POI会把文件的所有内容都加载到内存中,读取大的excel文件时很容易占用大量内存导致oom的发生,全部文件加载如下:

 

  /**
     * POI方式读取excel
     *
     * @param file
     */
    public static void readExcelByPoi(File file) {
        long start = System.currentTimeMillis();
         //整个文件都一块载入
        try (InputStream inp = new FileInputStream(file);
             Workbook wb = WorkbookFactory.create(inp)) {
 
            log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
            Sheet sheet = wb.getSheetAt(0);
            //更新总数
            System.out.println("读取结束行数:" + sheet.getLastRowNum());
 
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

  当前引入的poi依赖

        <!-- excel工具 -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.1.0</version>
        </dependency>

  

读取50MB我本地字段不是很多50万行数据
首先在读取excel文件的断点执行之前的cpu和内存的占用分别为50%和42%,上传的excel大小为50MB,这里我就不一一带大家测试了,以上此种方式肯定是行不通的。

解决方案一:xlsx-streamer

我们采用分段缓存的方式加载数据到内存中,此种方式在创建Workbook对象时借助xlsx-streamer(StreamingReader) 来创建一个缓冲区域批量地读取文件 ,因此不会将整个文件实例化到对象当中,代码如下:

引入依赖:

        <!-- excel工具 -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.1.0</version>
        </dependency>
        <!-- 读取大量excel数据时使用 -->
        <dependency>
            <groupId>com.monitorjbl</groupId>
            <artifactId>xlsx-streamer</artifactId>
            <version>2.1.0</version>
        </dependency>

  

示例代码:

    /**
     * 大批量数据读取 十万级以上
     * 思路:采用分段缓存加载数据,防止出现OOM的情况
     *
     * @param file
     * @throws Exception
     */
    public static void readLagerExcel(File file) throws Exception {
      InputStream inputStream = new FileInputStream(file);
        long start = System.currentTimeMillis();
        try (Workbook workbook = StreamingReader.builder()
                .rowCacheSize(10 * 10)  //缓存到内存中的行数,默认是10
                .bufferSize(1024 * 4)  //读取资源时,缓存到内存的字节大小,默认是1024
                .open(inputStream)) { //打开资源,可以是InputStream或者是File,注意:只能打开.xlsx格式的文件
 
            Sheet sheet = workbook.getSheetAt(0);
            log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
            //遍历所有的行
            for (Row row : sheet) {
                System.out.println("开始遍历第" + row.getRowNum() + "行数据:");
                //遍历所有的列
                for (Cell cell : row) {
                    System.out.print(cell.getStringCellValue() + " ");
                }
                System.out.println(" ");
            }
            //总数
            System.out.println("读取结束行数:" + sheet.getLastRowNum());
        }
    }

  

解决方案二:EasyExcel
使用EasyExcel解决大文件Excel内存溢出的问题,基于POI进行封装优化,可以在不考虑性能、内存的等因素的情况下,快速完成Excel的读、写等功能。

官网: https://easyexcel.opensource.alibaba.com/
github:https://github.com/alibaba/easyexcel

引入依赖

        <!--easyExcel工具-->
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>easyexcel</artifactId>
            <version>3.3.1</version>
        </dependency>

  

示例代码


仅做简单读取示例:

 /**
  * EasyExcel方式读取excel
   * 读取并封装为对象,ExcelData大家需要的对象
   * @param file
   */
  public static void readExcelByEasyExcel(File file) {
      long start = System.currentTimeMillis();
      List<ExcelData> excelDataList = EasyExcel.read(file).head(ExcelData.class).sheet(0).doReadSync();
      excelDataList.stream().forEach(x -> System.out.println(x.toString()));
      log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
  }
 
  /**
    * EasyExcel方式读取excel
    * 不指定head类
    * @param file
    */
   public static void readExcelByEasyExcel1(File file) {
       long start = System.currentTimeMillis();
       List<Map<Integer, String>> listMap = EasyExcel.read(file).sheet(0).doReadSync();
       listMap.stream().forEach(x -> System.out.println(JSON.toJSONString(x)));
       log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
   }

  

标签:xlsx,Java,读取,EasyExcel,excel,System,内存,file
From: https://www.cnblogs.com/xianz666/p/18326713

相关文章

  • Java基础语法(变量)
    +号的使用在Java中,如果在一个运算表达式中,从左往右只要有一方是字符串,那么后续的运算就会被视为字符串的拼接运算。一、基本数据类型整数类型byte:占用1个字节(8位)。取值范围:-128到127。示例:byteb=10;short:占用2个字节(16位)。取值范围:-32768到32......
  • Java初学-8.3-代码块(实例初始化块/普通代码块和静态初始化块/静态代码块)
    代码块又称初始化块,属于类中的成员,即类的一部分。类似于方法,将逻辑语句封装在方法体中,用{}包围起来。与方法不同的是,代码块没有方法名,没有返回值,没有参数,只有方法体,而且不能通过对象或类显式调用,而是在加载类时或创建对象时隐式调用。 代码块可以用访问修饰符修饰,也可以写st......
  • Java计算机毕业设计精品课程网站的设计与实现(开题报告+源码+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景在数字化教育日益普及的今天,传统的教学模式正逐步向线上线下融合的方向转变。精品课程作为高等教育质量提升的重要载体,其传播与分享已不再局限于课堂......
  • Java计算机毕业设计考生订房管理系统(开题报告+源码+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着各类考试规模的不断扩大,考生对于考试期间的住宿需求日益增长,特别是在大型考试如高考、研究生入学考试等期间,考点周边的住宿资源尤为紧张。传统的......
  • 274java jsp SSM办公自动化管理系统员工档案员工考勤员工请假员工销假工作内容工作报
     项目技术:SSM+Maven+Vue等等组成,B/S模式+Maven管理等等。环境需要1.运行环境:最好是javajdk1.8,我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境:IDEA,Eclipse,Myeclipse都可以。推荐IDEA;3.tomcat环境:Tomcat7.x,8.x,9.x版本均可4.硬件环境:windows7/8/1......
  • 269java jsp SSM网上购物商城网站系统(源码+文档+运行视频+讲解视频)
     项目技术:SSM+Maven+Vue等等组成,B/S模式+Maven管理等等。环境需要1.运行环境:最好是javajdk1.8,我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境:IDEA,Eclipse,Myeclipse都可以。推荐IDEA;3.tomcat环境:Tomcat7.x,8.x,9.x版本均可4.硬件环境:windows7/8/1......
  • 265java jsp SSM搬家服务预约系统搬家人员搬家须知搬家订单货车类型(源码+文档+运行视
     项目技术:SSM+Maven+Vue等等组成,B/S模式+Maven管理等等。环境需要1.运行环境:最好是javajdk1.8,我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境:IDEA,Eclipse,Myeclipse都可以。推荐IDEA;3.tomcat环境:Tomcat7.x,8.x,9.x版本均可4.硬件环境:windows7/8/1......
  • 267java jsp SSM防疫信息登记系统风险地区管理(源码+文档+PPT+运行视频+讲解视频)
     项目技术:SSM+Maven+Vue等等组成,B/S模式+Maven管理等等。环境需要1.运行环境:最好是javajdk1.8,我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境:IDEA,Eclipse,Myeclipse都可以。推荐IDEA;3.tomcat环境:Tomcat7.x,8.x,9.x版本均可4.硬件环境:windows7/8/1......
  • 【数据结构】:用Java实现链表
    在ArrayList任意位置插入或者删除元素时,就需要将后序元素整体往前或者往后搬移,时间复杂度为O(n),效率比较低,因此ArrayList不适合做任意位置插入和删除比较多的场景。因此:java集合中又引入了LinkedList,即链表结构。概念顺序表是物理上连续,逻辑上也是连续的链表......
  • Java计算机毕业设计教学辅助系统(开题报告+源码+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展和教育理念的不断革新,传统教学模式正面临着前所未有的挑战与机遇。传统教学中,教师与学生的互动往往受限于时间和空间的限制,教......