首页 > 其他分享 >同事写了个惊天 bug,还不容易被发现。。

同事写了个惊天 bug,还不容易被发现。。

时间:2023-08-08 09:56:47浏览次数:35  
标签:同事 submit System 惊天 println 完大号 ExecutorCompletionService bug out

作者:树洞君
链接:https://juejin.cn/post/7064376361334358046

事故描述

从6点32分开始少量用户访问app时会出现首页访问异常,到7点20分首页服务大规模不可用,7点36分问题解决。

整体经过

6:58 发现报警,同时发现群里反馈首页出现网络繁忙,考虑到前几日晚上门店列表服务上线发布过,所以考虑回滚代码紧急处理问题。

7:07 开始先后联系XXX查看解决问题。

7:36 代码回滚完,服务恢复正常。

事故根本原因-事故代码模拟

public static void test() throws InterruptedException, ExecutionException {
    Executor executor = Executors.newFixedThreadPool(3);
    CompletionService<String> service = new ExecutorCompletionService<>(executor);
        service.submit(new Callable<String>() {
            @Override
            public String call() throws Exception {
                return "HelloWorld--" + Thread.currentThread().getName();
            }
        });
}

根源就在于ExecutorCompletionService结果没 调用take,poll方法。

正确的写法如下所示:

public static void test() throws InterruptedException, ExecutionException {
    Executor executor = Executors.newFixedThreadPool(3);
    CompletionService<String> service = new ExecutorCompletionService<>(executor);
    service.submit(new Callable<String>() {
        @Override
        public String call() throws Exception {
            return "HelloWorld--" + Thread.currentThread().getName();
        }
    });
    service.take().get();
}

一行代码引发的血案,而且不容易被发现,因为oom是一个内存缓慢增长的过程,稍微粗心大意就会忽略,如果是这个代码块的调用量少的话,很可能几天甚至几个月后暴雷。

操作人回滚or重启服务器确实是最快的方式,但是如果不是事后快速分析出oom的代码,而且不巧回滚的版本也是带oom代码的,就比较悲催了,如刚才所说,流量小了,回滚或者重启都可以释放内存;但是流量大的情况下,除非回滚到正常的版本,否则GG。

推荐一个开源免费的 Spring Boot 实战项目:https://github.com/javastacks/spring-boot-best-practice

探询问题的根源

为了更好的理解ExecutorCompletionService的 “套路” 我们用 ExecutorService来作为对比,可以让我们更好的清楚,什么场景下用ExecutorCompletionService。

先看ExecutorService代码(建议down下来跑一跑)

public static void test1() throws Exception{
    ExecutorService executorService = Executors.newCachedThreadPool();
    ArrayList<Future<String>> futureArrayList = new ArrayList<>();
    System.out.println("公司让你通知大家聚餐 你开车去接人");
    Future<String> future10 = executorService.submit(() -> {
        System.out.println("总裁:我在家上大号 我最近拉肚子比较慢 要蹲1个小时才能出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(10);
        System.out.println("总裁:1小时了 我上完大号了。你来接吧");
        return "总裁上完大号了";

    });
    futureArrayList.add(future10);
    Future<String> future3 = executorService.submit(() -> {
        System.out.println("研发:我在家上大号 我比较快 要蹲3分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(3);
        System.out.println("研发:3分钟 我上完大号了。你来接吧");
        return "研发上完大号了";
    });
    futureArrayList.add(future3);
    Future<String> future6 = executorService.submit(() -> {
        System.out.println("中层管理:我在家上大号  要蹲10分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(6);
        System.out.println("中层管理:10分钟 我上完大号了。你来接吧");
        return "中层管理上完大号了";
    });
    futureArrayList.add(future6);
    TimeUnit.SECONDS.sleep(1);
    System.out.println("都通知完了,等着接吧。");
    try {
        for (Future<String> future : futureArrayList) {
            String returnStr = future.get();
            System.out.println(returnStr + ",你去接他");
        }
        Thread.currentThread().join();
    } catch (Exception e) {
        e.printStackTrace();
    }
}

三个任务,每个任务执行时间分别是 10s、3s、6s 。通过JDK线程池的 submit 提交这三个 Callable类型的任务。

  • step1 主线程把三个任务提交到线程池里面去,把对应返回的 Future 放到 List 里面存起来,然后执行“都通知完了,等着接吧。”这行输出语句。
  • step2在循环里面执行 future.get() 操作,阻塞等待。 最后结果如下:

先通知到总裁,也是先接总裁 足足等了1个小时,接到总裁后再去接研发和中层管理,尽管他们早就完事儿了,也得等总裁上完厕所~~

耗时最久的-10s异步任务最先进入list执行,所以在循环过程中获取这个10s的任务结果的时候,get操作会一直阻塞,直到10s异步任务执行完毕。即使 3s、5s的任务早就执行完了,也得阻塞等待10s任务执行完。

看到这里 尤其是做网关业务的同学可能会产生共鸣,一般来说网关RPC会调用下游N多个接口,如下图

如果都按照ExecutorService这种方式,并且恰巧前几个任务调用的接口耗时比较久,同时阻塞等待,那就比较悲催了。所以ExecutorCompletionService应景而出。它作为任务线程的合理管控者,“任务规划师”的称号名副其实。

相同场景 ExecutorCompletionService代码

public static void test2() throws Exception {
    ExecutorService executorService = Executors.newCachedThreadPool();
    ExecutorCompletionService<String> completionService = new ExecutorCompletionService<>(executorService);
    System.out.println("公司让你通知大家聚餐 你开车去接人");
    completionService.submit(() -> {
        System.out.println("总裁:我在家上大号 我最近拉肚子比较慢 要蹲1个小时才能出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(10);
        System.out.println("总裁:1小时了 我上完大号了。你来接吧");
        return "总裁上完大号了";
    });
    completionService.submit(() -> {
        System.out.println("研发:我在家上大号 我比较快 要蹲3分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(3);
        System.out.println("研发:3分钟 我上完大号了。你来接吧");
        return "研发上完大号了";
    });
    completionService.submit(() -> {
        System.out.println("中层管理:我在家上大号  要蹲10分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(6);
        System.out.println("中层管理:10分钟 我上完大号了。你来接吧");
        return "中层管理上完大号了";
    });
    TimeUnit.SECONDS.sleep(1);
    System.out.println("都通知完了,等着接吧。");
    //提交了3个异步任务)
    for (int i = 0; i < 3; i++) {
        String returnStr = completionService.take().get();
        System.out.println(returnStr + ",你去接他");
    }
    Thread.currentThread().join();
}

跑完结果如下:

这次就相对高效了一些,虽然先通知的总裁,但是根据大家上大号的速度,谁先拉完先去接谁,不用等待上大号最久的总裁了(现实生活里 建议采用第一种 不等总裁的后果 emmm 哈哈哈)。

放在一起对比下输出结果:

两段代码的差异非常小 获取结果的时候ExecutorCompletionService 使用了

completionService.take().get();

为什么要用take() 然后再get()呢????我们看看源码

CompletionService接口 以及接口的实现类

1、ExecutorCompletionService是CompletionService接口的实现类

2、接着跟一下ExecutorCompletionService的构造方法,可以看到入参需要传一个线程池对象,默认使用的队列是 LinkedBlockingQueue,不过还有另外一个构造方法可以指定队列类型,如下两张图,两个构造方法。

默认LinkedBlockingQueue的构造方法

可选队列类型的构造方法

3、submit任务提交的两种方式,都是有返回值的,我们例子中用到的就是第一种Callable类型的方法。

4、对比ExecutorService 和 ExecutorCompletionService submit方法 可以看出区别 (1)ExecutorService

wecom-temp-7a3620b4ca55c25badcbc5f96bfeb75f.png

(2)ExecutorCompletionService

wecom-temp-8c8a582217d0ae65f7e3aff43ce71de2.png

5、差异就在 QueueingFuture,这个到底作用是啥,我们继续跟进去看

  • QueueingFuture 继承自 FutureTask,而且红线部分标注的位置,重写了done()方法。
  • 把 task 放到 completionQueue 队列里面,当任务执行完成后,task就会被放到队列里面去了。
  • 此时此刻completionQueue队列里面的 task 都是已经 done()完成了的 task,而这个 task 就是我们拿到的一个个的future结果。
  • 如果调用 completionQueue 的 task 方法,会阻塞等待任务。等到的一定是完成了的 future,我们调用 .get()方法 就能立马获得结果。

wecom-temp-aaf01e40f5f3fb8023e9d23243cef40f.png

看到这里 相信大家伙都应该多少明白点了

  • 我们在使用ExecutorService submit提交任务后需要关注每个任务返回的future,然而CompletionService 对这些 future 进行了追踪,并且重写了done方法,让你等的completionQueue 队列里面 一定是完成了的task。
  • 作为网关RPC层,我们不用因为某一个接口的响应慢拖累所有的请求,可以在处理最快响应的业务场景里使用CompletionService。

but 注意、注意、注意 也是本次事故的核心

当只有调用了ExecutorCompletionService下面的3个方法的任意一个时,阻塞队列中的task执行结果才会从队列中移除掉,释放堆内存,由于该业务不需要使用任务的返回值,则没进行调用take,poll方法。从而导致没有释放堆内存,堆内存会随着调用量的增加一直增长。

所以,业务场景中不需要使用任务返回值的 别没事儿使用CompletionService,假如使用了,记得一定要从阻塞队列中 移除掉task执行结果,避免OOM!

总结

知道事故的原因,我们来总结下方法论,毕竟孔子他老人家说过:自省吾身,常思己过,善修其身!

上线前:

  • 严格的代码review习惯,一定要交给back人去看,毕竟自己写的代码自己是看不出问题的,相信每个程序猿都有这个自信(这个后续事故里可能会反复提到!很重要)
  • 上线记录-备注好上一个可回滚的包版本(给自己留一个后路)
  • 上线前确认回滚后,业务是否可降级,如果不可降级,一定要严格拉长这次上线的监控周期 上线后:
  • 持续关注内存增长情况(这部分极容易被忽略,大家对内存的重视度不如cpu使用率)
  • 持续关注cpu使用率增长情况
  • gc情况、线程数是否增长、是否有频繁的fullgc等
  • 关注服务性能报警,tp99、999 、max是否出现明显的增高

近期热文推荐:

1.1,000+ 道 Java面试题及答案整理(2022最新版)

2.劲爆!Java 协程要来了。。。

3.Spring Boot 2.x 教程,太全了!

4.别再写满屏的爆爆爆炸类了,试试装饰器模式,这才是优雅的方式!!

5.《Java开发手册(嵩山版)》最新发布,速速下载!

觉得不错,别忘了随手点赞+转发哦!

标签:同事,submit,System,惊天,println,完大号,ExecutorCompletionService,bug,out
From: https://www.cnblogs.com/javastack/p/17613370.html

相关文章

  • 并发中atomic BUG分享
    在使用Java做性能测试的过程中,遇到过很多自己抗自己的坎儿。在经历过风风雨雨之后,自认为已经是个并发编程的老司机,没想到前两天又丢进了同一个坑中。保持操作的原子性!!!保持操作的原子性!!!保持操作的原子性!!!重要的事情写三遍。事情是这样,要写一个脚本,需求是对所有的用户进行初始化(......
  • 映像深刻的bug
    示例如下: 我之前测电商业务时,我们的系统在展示商品的时候每点击一个商品就会跳转到相应的详情页,url格式大概=~/productid.html,如果知道productid的话可以直接修改url跳转到其商品的详情页。类似的情况是,用户下单的时候会生成一个ordid,生成的订单详情页的url=~/ordidhtml,于是我......
  • 無法將檔案 "obj\Debug\xxx.exe" 複製到 "bin\Debug\xxx.exe"。由於另一個處理序
     解决方案:暂时不清楚为什么关闭debug后再次发起debug会出现这种情况,但是这种方法可解决上述错误 ......
  • 一次关于mybatis的bug解决
    bug表现: 网上的一些映射的对应关系我这边都排除了,实际的是创建级联文件夹时候要逐个去创建:比如com.xx.xx.xx,不能一次性创建,不然idea会把这个识别成一个文件夹,而不是级联的文件夹,编译的时候,mapper类和对应的mapper.xml就不会编译到一起,会报找不到的错误,判断方式:右键该文件夹—......
  • Managed Debugging Assistants (zz)
    GettingRIDofJust-In-Timedebugge//z2013-08-0817:15:[email protected][T300,L4609,R130,V3618]AfterVisualStudioisinstalledonaserver,thedefaultbehaviorwhenanunhandledexceptionoccursistoshowan Exception dialogthatrequ......
  • 关于vue中同时使用v-if和nth-of-type时的bug
    问题引出需求:例如我想要在某一个ul元素中使用v-if条件时渲染2个li元素,同时第一个和第二个的样式不同,这里我使用了nth-of-type选择器去设置样式,但是当v-if条件改变时,li元素的样式没有改变,看了下开发者工具,元素对应的选择器没有改变,即使此时仅剩第二个li元素,它仍旧被nth-of-ty......
  • bugku_文件上传_wp
    bugku_文件上传payload点击查看payloadPOST/index.phpHTTP/1.1Host:114.67.175.224:16103Content-Length:308Cache-Control:max-age=0Upgrade-Insecure-Requests:1Origin:http://114.67.175.224:16103Content-Type:Multipart/form-data;boundary=----WebKitFo......
  • H - Collecting Bugs POJ-2096
    H-CollectingBugsPOJ-2096期望dp题意根据题意可以将原题意转换成:有个\(n*s\)的矩阵,每次会随机选取一个格子填上颜色,问每行每列都填上颜色的期望次数。思路dp,显然是期望dp,那么设\(dp_{i,j}\)为已经有\(i\)行\(j\)列填上颜色,到目标还需的次数的期望,那么每次......
  • 使用easypoi模板导出遇见的bug
    一、前言easypoi是为java提供的一款excel导入导出的工具包。使用easypoi,能极大的简化我们excel导入导出的操作;但是在使用过程中,也发现了一些bug,在这里做一些相关记录。二、问题我这里发现的问题主要是easypoi提供的模板导出功能。1.前期准备为了模拟问题的出现,我们需要新建......
  • VC6.0 dll debug
    现象是用debug中的stepinfo或者runtocursor合着设置断点会出现Oneormorebreakpointscannotbesetandhavebeendisabled. Executionwillstopatthebeginningoftheprogram.解决方法,1.在project->setting->c/c++-general->debuginfo->programdatabsefored......