哈希表
哈希表又叫散列表,或者映射、字典都是指哈希表,哈希表是通过关键码映射到数组的某个位置来访问的数据结构,实现这个映射的函数就是哈希函数,哈希表结合了数组和链表的优点,查找和插入操作的时间复杂度都是O(1)。
哈希表基于数组实现,哈希函数最理想的情况是每个键都映射到数组的唯一一个位置,但是这只有特定的键才能实现(比如键是:0,1,2,3...),哈希函数是将一个无限的集合映射到一个有限的集合,所以冲突是无法避免的,HashMap处理冲突采用的是链地址法:将所有映射到同一位置的键连成一个链表,数组只存放表头。
HashMap的三个视图
HashMap提供了3个方法返回3种视图:keySet()、values()、entrySet()分别返回键集合、值集合、键/值对集合,对于这3个视图,可以删除里面元素,但是不能向其中添加元素,删除键集合中的键对应的值也会被删除,删除值集合中的元素也会移除对应的键,若要访问HashMap中的所有条目,遍历键值对集合是最高效的。
HashMap的扩容机制
HashMap的底层是一个数组,初始大小是16,众所周知数组一旦初始化之后就无法改变大小,如果没有扩容机制,随着HashMap中的元素越来越多,就会在内部形成16条长长的链表,使其复杂度退化为O(n),所以必须有扩容机制。
HashMap的扩容依赖以下几个参数:
- capacity:当前数组容量,始终保持 2^n,扩容后数组大小为当前的 2 倍。
- loadFactor:负载因子,默认为 0.75。
- threshold:扩容的阈值,等于 capacity * loadFactor。
HashMap在执行put操作后若数组中的元素达到扩容的阈值则会进行扩容,申请一个大小为原来2倍的数组,将原来数组中的元素重新映射到新数组中。
HashMap在JDK1.8中的优化
HashMap树化
Java8对HashMap进行了一些修改,最大的不同就是利用了红黑树,所以其由数组+链表+红黑树组成。在Java8之前使用链地址法解决哈希冲突,若哈希冲突比较多则会形成很长的链表,使HashMap的性能退化,为了降低开销,在Java8中,当链表中的元素超过了 8 个以后,会将链表转换为红黑树,在这些位置进行查找的时候可以降低时间复杂度为 O(logN)。
为什么HashMap要树化?
本质上这是个安全问题。因为在元素放置过程中,如果一个对象哈希冲突,都被放置到同一个桶里,则会形成一个链表,我们知道链表查询是线性的,会严重影响存取的性能。而在现实世界,构造哈希冲突的数据并不是非常复杂的事情,恶意代码就可以利用这些数据大量与服务器端交互,导致服务器端CPU大量占用,这就构成了哈希碰撞拒绝服务攻击,国内一线互联网公司就发生过类似攻击事件。
用哈希碰撞发起拒绝服务攻击(DOS,Denial-Of-Service attack),常见的场景是攻击者可以事先构造大量相同哈希值的数据,然后以JSON数据的形式发送给服务器,服务器端在将其构建成为Java对象过程中,通常以Hashtable或HashMap等形式存储,哈希碰撞将导致哈希表发生严重退化,算法复杂度可能上升一个数据级,进而耗费大量CPU资源。
还有就是为了防止用户自己实现了不好的哈希算法时导致链表过长,从而导致查询效率低,而此时转为红黑树更多的是一种保底策略,用来保证极端情况下查询的效率。
链表成环问题
Java7中HashMap采用表头插入法,在扩容时会颠倒链表中元素原本的顺序,以至于在并发场景下导致链表成环的问题。Java8中采用的是尾部插入法,在扩容时会保持链表元素原本的顺序,就不会出现链表成环的问题了。
HashMap是线程不安全的,为什么要解决并发情况下才会出现的链表成环问题?
HashMap是线程不安全的,只能在单线程下使用,或者在有锁同步的情况下使用,这样即使是采用表头插入法也不会有链表成环问题,那为什么要修复这个问题呢?个人觉得原因是防止像我这样半吊子的程序员,就是不小心让多个线程同时对HashMap做put操作,一旦有链表成环,查找时就可能让线程陷入死循环,导致cpu被占满甚至是整个系统宕机,使其产生的后果没做好同步产生的后果严重得多,而Java8中即使多线程下没做好同步也只是导致数据不一致,不会影响整个系统。
HashTable、TreeMap
Hashtable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自 Dictionary 类,并且是线程安全的,任一时间只有一个线程能写 Hashtable,并发性不如 ConcurrentHashMap,因为 ConcurrentHashMap 引入了分段锁。Hashtable 不建议在新代码中使用,不需要线程安全的场合可以用 HashMap 替换,需要线程安全的场合可以用 ConcurrentHashMap 替换。
TreeMap 实现 SortedMap 接口,能够把它保存的记录根据键排序,默认是按键值的升序排序,也可以指定排序的比较器,当用 Iterator 遍历 TreeMap 时,得到的记录是排过序的。如果使用排序的映射,建议使用 TreeMap。在使用 TreeMap 时,key 必须实现 Comparable 接口或者在构造 TreeMap 传入自定义的Comparator,否则会在运行时抛出 java.lang.ClassCastException 类型的异常。