1. 概述
-
说起垃圾收集(Garbage Collection,下文简称GC),垃圾收集需要完成的三件事情:
- 哪些内存需要回收?
- 什么时候回收?
- 如何回收?
-
为什么我们要去了解垃圾收集和内存分配?答案很简单:
- 当需要排查各种内存溢出、内存泄漏问题时,当垃圾收集成为系统达到更高并发量的瓶颈时,我们就必须对这些自动化的技术实施必要的监控和调节。
-
Java内存运行时区域的各个部分,其中
程序计数器
、虚拟机栈
、本地方法栈
3个区域随线程而生,随线程而灭,栈中的栈帧随着方法的进入和退出而有条不紊地执行着出栈和入栈操作。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知的(尽管在运行期会由即时编译器进行一些优化,但在基于概念模型的讨论里,大体上可以认为是编译期可知的),因此这几个区域的内存分配和回收都具备确定性,在这几个区域内就不需要过多考虑如何回收的问题,当方法结束或者线程结束时,内存自然就跟随着回收了。 -
Java堆和方法区这两个区域则有着很显著的不确定性:
- 一个接口的多个实现类需要的内存可能会不一样
- 一个方法所执行的不同条件分支所需要的内存也可能不一样
只有处于运行期间,我们才能知道程序究竟会创建哪些对象,创建多少个对象,这部分内存的分配和回收是动态的。垃圾收集器所关注的正是这部分内存该如何管理。
2. 如何标记对象
- 在堆里面存放着Java世界中几乎所有的对象实例,垃圾收集器在对堆进行回收前,第一件事情就是要确定这些对象之中哪些还存活着,哪些已经死去(死去即不可能再被任何途径使用的对象)了。
2.1 引用计数算法
-
很多教科书判断对象是否存活的算法是这样的:
- 在对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加一
- 当引用失效时,计数器值就减一;
任何时刻计数器为零的对象就是不可能再被使用的。
-
引用计数算法(Reference Counting)虽然占用了一些额外的内存空间来进行计数,但它的原理简单,判定效率也很高,在大多数情况下它都是一个不错的算法。许多应用中都使用了引用计数算法进行内存管理。但是,在Java领域,至少主流的Java虚拟机里面都没有选用引用计数算法来管理内存,主要原因是,这个看似简单的算法有很多例外情况要考虑,必须要配合大量额外处理才能保证正确地工作,譬如单纯的引用计数就很难解决对象之间相互循环引用的问题。
/** * testGC()方法执行后,objA和objB会不会被GC呢? * * @author zzm */ public class ReferenceCountingGC { public Object instance = null; private static final int _1MB = 1024 * 1024; /** * 这个成员属性的唯一意义就是占点内存,以便在能在GC日志中看清楚是否有回收过 */ private byte[] bigSize = new byte[2 * _1MB]; public static void testGC() { ReferenceCountingGC objA = new ReferenceCountingGC(); ReferenceCountingGC objB = new ReferenceCountingGC(); objA.instance = objB; objB.instance = objA; objA = null; objB = null; // 假设在这行发生GC,objA和objB是否能被回收? System.gc(); } }
对象objA和objB都有字段instance,赋值令objA.instance=objB及objB.instance=objA,除此之外,这两个对象再无任何引用,实际上这两个对象已经不可能再被访问,但是它们因为互相引用着对方,导致它们的引用计数都不为零,引用计数算法也就无法回收它们。
从运行结果中可以清楚看到内存回收日志中包含9994K->736K,意味着虚拟机并没有因为这两个对象互相引用就放弃回收它们,从侧面说明了Java虚拟机并不是通过引用计数算法来判断对象是否存活的。
2.2 可达性分析算法
-
当前主流的程序语言的内存管理子系统,都是通过
可达性分析(Reachability Analysis)算法
来判定对象是否存活的。- 这个算法的基本思路就是通过一系列称为
GC Roots
的根对象作为起始节点集,从这些节点开始,根据引用关系向下搜索,搜索过程所走过的路径称为引用链
(Reference Chain),如果某个对象到GC Roots
间没有任何引用链相连,或者用图论的话来说就是从GC Roots
到这个对象不可达时
,则证明此对象是不可能再被使用的。
- 这个算法的基本思路就是通过一系列称为
对象object 5、object 6、object 7虽然互有关联,但是它们到GC Roots是不可达的,因此它们将会被判定为可回收的对象。
-
在Java技术体系里面,固定可作为GC Roots的对象包括以下几种:
- 在虚拟机栈(栈帧中的本地变量表)中引用的对象,譬如各个线程被调用的方法堆栈中使用到的参数、局部变量、临时变量等。
- 在方法区中类静态属性引用的对象,譬如Java类的引用类型静态变量。
- 在方法区中常量引用的对象,譬如字符串常量池(StringTable)里的引用。
- 在本地方法栈中JNI(即通常所说的Native方法)引用的对象。
- Java虚拟机内部的引用,如基本数据类型对应的Class对象,一些常驻的异常对象(比如NullPointExcepiton、OutOfMemoryError)等,还有系统类加载器。
- 所有被同步锁(synchronized关键字)持有的对象。
- 反映Java虚拟机内部情况的JMXBean、JVMTI中注册的回调、本地代码缓存等。
-
除了这些固定的
GC Roots
集合以外,根据用户所选用的垃圾收集器以及当前回收的内存区域不同,还可以有其他对象临时性
地加入,共同构成完整GC Roots
集合。 -
如果只针对Java堆中某一块区域发起垃圾收集时,必须考虑到内存区域是虚拟机自己的实现细节(在用户视角里任何内存区域都是不可见的),更不是孤立封闭的,所以某个区域里的对象完全有可能被位于堆中其他区域的对象所引用,这时候就需要将这些关联区域的对象也一并加入
GC Roots
集合中去,才能保证可达性分析的正确性。 -
目前最新的几款垃圾收集器无一例外都具备了
局部回收
的特征,为了避免GC Roots
包含过多对象而过度膨胀,它们在实现上也做出了各种优化处理。
3. 引用是什么
-
无论是通过引用计数算法判断对象的引用数量,还是通过可达性分析算法判断对象是否引用链可达,判定对象
是否存活
都和引用
离不开关系。 -
在JDK 1.2版之前,Java里面的引用是很传统的定义:
- 如果
reference
类型的数据中存储的数值代表的是另外一块内存的起始地址,就称该reference数据是代表某块内存、某个对象的引用。
这种定义并没有什么不对,只是现在看来有些过于狭隘了,一个对象在这种定义下只有被引用或者未被引用两种状态。譬如我们希望能描述一类对象: 当内存空间还足够时,能保留在内存之中,如果内存空间在进行垃圾收集后仍然非常紧张,那就可以抛弃这些对象,很多系统的缓存功能都符合这样的应用场景。
- 如果
-
在JDK 1.2版之后,Java对引用的概念进行了扩充,将引用分为4种
强引用(Strongly Reference)
软引用(Soft Reference)
弱引用(Weak Reference)
虚引用(PhantomReference)
这4种引用强度依次逐渐减弱。
- 强引用是最传统的
引用
的定义,是指在程序代码之中普遍存在的引用赋值,即似Object obj=new Obiect()
这种引用关系。无论任何情况下,只要强引用关系还存在,垃圾收集器就永远不会回收掉被引用的对象。 - 软引用是用来描述一些还有用,但非必须的对象。只被软引用关联着的对象,在系统将要发生内存溢出异常前,会把这些对象列进回收范围之中进行第二次回收,如果这次回收还没有足够的内存,才会抛出内存溢出异常。在JDK 1.2版之后提供了
SoftReference
类来实现软引用。 - 弱引用也是用来描述那些非必须对象,但是它的强度比软引用更弱一些,被弱引用关联的对象只能生存到下一次垃圾收集发生为止。当垃圾收集器开始工作,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。在JDK 1.2版之后提供了
WeakReference
类来实现弱引用。 - 虚引用也称为
幽灵引用
或者幻影引用
,它是最弱的一种引用关系。一个对象是否有虚引用
的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用关联的唯一目的只是为了能在这个对象被收集器回收时收到一个系统通知
。在JDK 1.2版之后提供了PhantomReference
类来实现虚引用。
4. 判定对象的存活状态
- 即使在可达性分析算法中判定为不可达的对象,也不是非死不可的,这时候它们暂时还处于缓刑阶段。要真正宣告一个对象死亡,至少要经历
两次标记过程
- 如果对象在进行可达性分析后发现没有与
GC Roots
相连接的引用链,那它将会被第一次标记,随后进行一次筛选,筛选的条件是此对象是否有必要执行finalize()
方法。假如对象没有覆盖finalize()
方法,或者finalize()
方法已经被虚拟机调用过,那么虚拟机将这两种情况都视为没有必要执行
;如果对象被判定为确有必要执行finalize()
方法,那么对象将会被放置在一个名为F-Queue
的队列之中,并在稍后由一条由虚拟机自动建立的、低调度优先级的Finalizer
线程去执行它们的finalize()
方法。这里的执行是指虚拟机会触发这个方法运行,但并不承诺一定会等待它运行结束。这样做的原因是,如果某个对象的finalize()
方法执行缓慢,或者更极端地发生了死循环,将很可能导致F-Queue
队列中的其他对象永久处于等待,甚至导致整个内存回收子系统的崩溃。finalize()
方法是对象逃脱死亡命运的最后一次机会, - 稍后收集器将对
F-Queue
中的对象进行第二次小规模的标记,如果对象要在finalize()
中成功拯救自己,只要重新与引用链上的任何一个对象建立关联即可,譬如把自己(this关键字)赋值给某个类变量或者对象的成员变量,那在第二次标记时它将被移出即将回收
的集合;如果对象这时候还没有逃脱,那基本上它就真的要被回收了。
- 如果对象在进行可达性分析后发现没有与
/**
* 此代码演示了两点:
* 1.对象可以在被GC时自我拯救。
* 2.这种自救的机会只有一次,因为一个对象的finalize()方法最多只会被系统自动调用一次
*
* @author zzm
*/
public class FinalizeEscapeGC {
public static FinalizeEscapeGC SAVE_HOOK = null;
public void isAlive() {
System.out.println("yes, i am still alive :)");
}
@Override
protected void finalize() throws Throwable {
super.finalize();
System.out.println("finalize method executed!");
FinalizeEscapeGC.SAVE_HOOK = this;
}
public static void main(String[] args) throws Throwable {
SAVE_HOOK = new FinalizeEscapeGC();
//对象第一次成功拯救自己
SAVE_HOOK = null;
System.gc();
// 因为Finalizer方法优先级很低,暂停0.5秒,以等待它
Thread.sleep(500);
if (SAVE_HOOK != null) {
SAVE_HOOK.isAlive();
} else {
System.out.println("no, i am dead :(");
}
// 下面这段代码与上面的完全相同,但是这次自救却失败了
SAVE_HOOK = null;
System.gc();
// 因为Finalizer方法优先级很低,暂停0.5秒,以等待它
Thread.sleep(500);
if (SAVE_HOOK != null) {
SAVE_HOOK.isAlive();
} else {
System.out.println("no, i am dead :(");
}
}
}
运行结果可以看到,SAVE_HOOK对象的finalize()方法确实被垃圾收集器触发过,并且在被收集前成功逃脱了。
另外一个值得注意的地方就是,代码中有两段完全一样的代码片段,执行结果却是一次逃脱成功,一次失败了。这是因为任何一个对象的finalize()方法都只会被系统自动调用一次,如果对象面临下一次回收,它的finalize()方法不会被再次执行,因此第二段代码的自救行动失败了。
- 建议大家尽量避免使用上述方式进行对象
拯救
,因为它并不能等同于C和C++语言中的析构函数,而是Java刚诞生时为了使传统C、C++程序员更容易接受Java所做出的妥协。它的运行代价高昂,不确定性大,无法保证各个对象的调用顺序,如今已被官方明确声明为不推荐使用的语法。
5. 回收方法区
-
有些人认为方法区(如HotSpot虚拟机中的元空间或者永久代)是没有垃圾收集行为的。《Java虚拟机规范》中提到过可以
不要求虚拟机在方法区中实现垃圾收集
,事实上也确实有未实现或未能完整实现方法区类型卸载的收集器存在(如JDK 11时期的ZGC收集器就不支持类卸载),方法区垃圾收集的性价比
通常也是比较低的:- 在Java堆中,尤其是在新生代中,对常规应用进行一次垃圾收集通常可以回收70%至99%的内存空间
- 相比之下,方法区回收由于苛刻的判定条件,其区域垃圾收集的回收成果往往远低于此。
-
方法区的垃圾收集主要回收两部分内容:
废弃的常量
和不再使用的类型
。- 回收废弃常量与回收Java堆中的对象非常类似。举个常量池中字面量回收的例子,假如一个字符串java曾经进入常量池中,但是当前系统又没有任何一个字符串对象的值是java,换句话说,已经没有任何字符串对象引用常量池中的java常量,且虚拟机中也没有其他地方引用这个字面量。如果在这时发生内存回收,而且垃圾收集器判断确有必要的话,这个java常量就将会被系统清理出常量池。常量池中其他类(接口)、方法、字段的符号引用也与此类似。
- 判定一个常量是否
废弃
相对简单,而要判定一个类型是否属于不再被使用的类
的条件就比较苛刻了。需要同时满足下面三个条件:- 该类所有的实例都已经被回收,也就是Java堆中不存在该类及其任何派生子类的实例。
- 加载该类的类加载器已经被回收,这个条件除非是经过精心设计的可替换类加载器的场景,如OSGi、JSP的重加载等,否则通常是很难达成的。
- 该类对应的
java.lang.Class
对象没在任何地方被引用,无法在任何地方通过反射访问该类的方法
-
Java虚拟机
被允许
对满足上述三个条件的无用类进行回收,这里说的仅仅是被允许
,而并不是和对象一样,没有引用了就必然会回收。关于是否要对类型进行回收:- HotSpot虚拟机提供了
-Xnoclassgc
参数进行控制, - 还可以使用
-verbose:class
以及-XX:+TraceClassLoading
、-XX:+TraceClassUnLoading
查看类加载和卸载信息,其中-verbose:class
和-XX:+TraceClassLoading
可以在Product版的虚拟机中使用,-XX:+TraceClassUnLoading
参数需要FastDebug版的虚拟机支持。
- HotSpot虚拟机提供了
-
在大量使用反射、动态代理、CGLib等字节码框架,动态生成JSP以及OSGi这类频繁自定义类加载器的场景中,通常都需要Java虚拟机具备类型卸载的能力,以保证不会对方法区造成过大的内存压力。
6. 垃圾收集算法
垃圾收集算法在各个虚拟机平台都有差异,从如何判定对象消亡的角度出发,垃圾收集算法可以划分为
引用计数式垃圾收集
(ReferenceCounting GC)和追踪式垃圾收集
(TracingGC)两大类,这两类也常被称作直接垃圾收集
和间接垃圾收集
6.1 分代收集理论
-
当前商业虚拟机的垃圾收集器,大多数都遵循了
分代收集
(Generational Collection)的理论进行设计,分代收集建立在两个分代假说之上:- 弱分代假说(Weak Generational Hypothesis): 绝大多数对象都是朝生夕灭的。
- 强分代假说(StrongGenerational Hypothesis): 熬过越多次垃圾收集过程的对象就越难以消
-
这两个分代假说共同奠定了多款常用的垃圾收集器的一致的设计原则:
- 收集器应该将Java堆划分出不同的区域,然后将回收对象依据其年龄(
年龄即对象熬过垃圾收集过程的次数
)分配到不同的域之中存储。
- 收集器应该将Java堆划分出不同的区域,然后将回收对象依据其年龄(
-
如果一个区域中大多数对象都是朝生夕灭,难以熬过垃圾收集过程的话,那么把它们集中放在一起,每次回收时只关注如何保留少量存活而不是去标记那些大量将要被回收的对象,就能以较低代价回收到大量的空间
-
如果剩下的都是难以消亡的对象,那把它们集中放在一块,虚拟机便可以使用较低的频率来回收这个区域,这就同时兼顾了垃圾收集的时间开销和内存的空间有效利用。
-
在Java堆划分出不同的区域之后,垃圾收集器才可以每次只回收其中某一个或者某些部分的区域,因而才有了
Minor GC
,Major GC
,Full GC
这样的回收类型的划分;才能够针对不同的区域安排与里面存储对象存亡特征相匹配的垃圾收集算法,因而发展出了标记-复制算法
,标记-清除算法
,标记-整理算法
等针对性的垃圾收集算法。 -
把分代收集理论具体放到现在的商用Java虚拟机里,设计者一般至少会把Java堆划分为两个区域
- 新生代(YoungGeneration)
- 老年代(Old Generation)
-
在新生代中,每次垃圾收集时都发现有大批对象死去,而每次回收后存活的少量对象,将会逐步晋升到老年代中存放。
-
对象不是孤立的,对象之间会存在跨代引用。假如要现在进行一次只局限于新生代区域内的收集(Minor GC),但新生代中的对象是完全有可能被老年代所引用的,为了找出该区域中的存活对象,不得不在固定的GC Roots之外,再额外遍历整个老年代中所有对象来确保可达性分析结果的正确性,反过来也是一样。遍历整个老年代所有对象的方案虽然理论上可行,但无疑会为内存回收带来很大的性能负担。为了解决这个问题,就需要对分代收集理论添加第三条经验法则:
-
跨代引用假说(Intergenerational Reference Hypothesis):跨代引用相对于同代引用来说仅占极少数。
存在互相引用关系的两个对象,是应该倾向于同时生存或者同时消亡的。如果某个新生代对象存在跨代引用,由于老年代对象难以消亡,该引用会使得新生代对象在收集时同样得以存活,进而在年龄增长之后晋升到老年代中,这时跨代引用也随即被消除了。
依据这条假说,我们就不应再为了少量的跨代引用去扫描整个老年代,也不必浪费空间专门记录每一个对象是否存在及存在哪些跨代引用,只需在新生代上建立一个全局的数据结构(该结构被称为
记忆集
,Remembered Set),这个结构把老年代划分成若干小块,标识出老年代的哪一块内存会存在跨代引用。此后当发生Mimnor GC时,只有包含了跨代引用的小块内存里的对象才会被加入到GC Roots进行扫描。虽然这种方法需要在对象改变引用关系(如将自己或者某个属性赋值)时维护记录数据的正确性,会增加一些运行时的开销,但比起收集时扫描整个老年代来说仍然是划算的。