首页 > 其他分享 >一文说透 String 的 HashCode

一文说透 String 的 HashCode

时间:2024-08-30 22:53:49浏览次数:11  
标签:一文 int 31 value hashCode HashCode public 97 String

首先需要明确版本,不同版本的实现是不同的。

JDK 1.8 以前

底层的实现是 char[]。

public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        char val[] = value;
 
        for (int i = 0; i < value.length; i++) {
            h = 31 * h + val[i];
        }
        hash = h;
    }
    return h;
}

举个栗子:

计算 "ab" 的 hashCode

1. h = 31 * 0 + 97 = 97

2. h = 31 * 97 + 98 = 3105

JDK 1.8 及之后

底层变为了 byte[] + coder(编码)

private final byte[] value;

private final byte coder; // 识别是什么编码

public int hashCode() {
	int h = hash;
	if (h == 0 && !hashIsZero) {
		h = isLatin1() ? StringLatin1.hashCode(value)
					   : StringUTF16.hashCode(value);
		if (h == 0) {
			hashIsZero = true;
		} else {
			hash = h;
		}
	}
	return h;
}

isLatin1 也就是判断是不是单字节,走对应的方法计算 hashCode

以下是单字节的计算方式。

public static int hashCode(byte[] value) {
	int h = 0;
	for (byte v : value) {
		h = 31 * h + (v & 0xff);
	}
	return h;
}

其实也没什么高大上的,只是使用位运算来提高效率而已。v & 0xff(全1)能保证值一直为 v。

举个例子:还是"ab"

存储在 byte[] 中就是 [97, 98]

1. h = 31 * 0 + (97 & 255) = 31 * 0 + (0110 0001 & 1111 1111) = 0110 0001 = 97

2. h = 31 * 97 + (98 ^ 255) = 31 * 97 + ( 0110 0010 & 1111 1111) = 0110 0010 = 3105

以下是双字节(四字节...偶数字节)的计算方式。

public static int hashCode(byte[] value) {
	int h = 0;
	int length = value.length >> 1;
	for (int i = 0; i < length; i++) {
		h = 31 * h + getChar(value, i);
	}
	return h;
}


@IntrinsicCandidate
// intrinsic performs no bounds checks
static char getChar(byte[] val, int index) {
	assert index >= 0 && index < length(val) : "Trusted caller missed bounds check";
	index <<= 1;
	return (char)(((val[index++] & 0xff) << HI_BYTE_SHIFT) |
				  ((val[index]   & 0xff) << LO_BYTE_SHIFT));
}


/* 确定系统字节序
isBigEndian() 是一个本地方法(native method),它返回一个布尔值来指示系统的字节序是否为大端模式(big-endian)。
在大端模式下,最高有效字节(most significant byte, MSB)存储在最低地址处;而在小端模式(little-endian)下,最高有效字节存储在最高地址处。
*/
private static native boolean isBigEndian();

static final int HI_BYTE_SHIFT;
static final int LO_BYTE_SHIFT;
static {
	if (isBigEndian()) {
		HI_BYTE_SHIFT = 8;
		LO_BYTE_SHIFT = 0;
	} else {
		HI_BYTE_SHIFT = 0;
		LO_BYTE_SHIFT = 8;
	}
}

双字节的其实也是一样的实现,只是多了一个区分系统字节序的操作。

相同hasdCode的字符串

由于 公式为 h = 31 * h + val[i];

即 a1 * 31 + a2 = b1 * 31 + b2

31 * (a1 - b1) = b2 - a2

若 a1 - b1 = 1,b2 - a2 = 31, 此时 HashCode 相同

根据 ASCII 可知,大小写字母之间相差32,那么像 A、b这样的字符就刚好相差 31。

那么,类似于 Aa、BB 这样的字符串的 hashCode 就一定是相同的。

可以测试一下,结果显然是正确的。

String str01 = "Aa";
String str02 = "BB";
System.out.println("Aa.hashCode(): " + str01.hashCode());
System.out.println("BB.hashCode(): " + str02.hashCode());
System.out.println("65 * 31 + 97 = " + (65 * 31 + 97));
System.out.println("66 * 31 + 66 = " + (66 * 31 + 66));

以下是 JAVA 代码实现:

public class HashCodeGenerate {
    private static String[] base = new String[] {"Aa", "BB"};
    /* 生成 2^n 个值 */
    public static List<String> generateN(int n) {
        if(n <= 0) return null;

        List<String> list = generateOne(null);
        for(int i = 1; i < n; ++i) {
            list = generateOne(list);
        }

        return list;
    }
    /* 生成 2 个 hashcode 相同的值 */
    public static List<String> generateOne() {
        return generateOne(null);
    }

    public static List<String> generateOne(List<String> strList) {
        if((null == strList) || (0 == strList.size())) {
            strList = new ArrayList<String>();
            for(int i = 0; i < base.length; ++i) {
                strList.add(base[i]);
            }

            return strList;
        }

        List<String> result = new ArrayList<String>();

        for(int i = 0; i < base.length; ++i) {
            for(String str: strList) {
                result.add(base[i]  + str);
            }
        }

        return result;
    }
    public static void main(String[] args) {
        System.out.println("generateOne(): " + generateOne());
        System.out.println("generateN(2): " + generateN(2));
        System.out.println("generateN(3): " + generateN(3));
        System.out.print("generateN(3) 的hashcode:" + "\t");
        List<String> list = generateN(3);
        for (String str : list) {
            System.out.print(str.hashCode() + "\t");
        }
    }
}

标签:一文,int,31,value,hashCode,HashCode,public,97,String
From: https://blog.csdn.net/sanzailmn/article/details/141727516

相关文章

  • [WPF]数据绑定时为何会出现StringFormat失效Nd
    在数据绑定过程中,我们经常会使用StringFormat对要显示的数据进行格式化,以便获得更为直观的展示效果,但在某些情况下格式化操作并未生效,例如Button的Content属性以及ToolTip属性绑定数据进行StringFormat时是无效的。首先回顾一下StringFormat的基本用法。StringFormat的用法Str......
  • 一文读懂:使用混合精度(Mixed-Precision)技术加速LLM
    训练和推理使用那些大型语言模型,真是挺烧钱的,主要是因为它们太能吃计算资源和内存了。不过啊,我最近发现,用点儿小技巧,就是低精度格式,咱们可以大幅提升训练和推理的速度,快到三倍呢,而且一点儿都不影响模型的准确度。咱们主要聊的虽然是大型语言模型,但这些技巧其实挺万能的,用在......
  • [WPF]数据绑定时为何会出现StringFormat失效hC
    在数据绑定过程中,我们经常会使用StringFormat对要显示的数据进行格式化,以便获得更为直观的展示效果,但在某些情况下格式化操作并未生效,例如Button的Content属性以及ToolTip属性绑定数据进行StringFormat时是无效的。首先回顾一下StringFormat的基本用法。StringFormat的用法Str......
  • [WPF]数据绑定时为何会出现StringFormat失效2T
    在数据绑定过程中,我们经常会使用StringFormat对要显示的数据进行格式化,以便获得更为直观的展示效果,但在某些情况下格式化操作并未生效,例如Button的Content属性以及ToolTip属性绑定数据进行StringFormat时是无效的。首先回顾一下StringFormat的基本用法。StringFormat的用法Str......
  • [WPF]数据绑定时为何会出现StringFormat失效VPqCe7cCvg7iTH0g
    在数据绑定过程中,我们经常会使用StringFormat对要显示的数据进行格式化,以便获得更为直观的展示效果,但在某些情况下格式化操作并未生效,例如Button的Content属性以及ToolTip属性绑定数据进行StringFormat时是无效的。首先回顾一下StringFormat的基本用法。StringFormat的用法Str......
  • PowerShell Select-String:在字符串和文件中查找文本
    语法Select-String[-Culture<String>][-Pattern]<String[]>[-Path]<String[]>[-SimpleMatch][-CaseSensitive][-Quiet][-List][-NoEmphasis][-Include<String[]>][-Exclu......
  • [WPF]数据绑定时为何会出现StringFormat失效
    在数据绑定过程中,我们经常会使用StringFormat对要显示的数据进行格式化,以便获得更为直观的展示效果,但在某些情况下格式化操作并未生效,例如Button的Content属性以及ToolTip属性绑定数据进行StringFormat时是无效的。首先回顾一下StringFormat的基本用法。StringFormat的用法Str......
  • [WPF]数据绑定时为何会出现StringFormat失效
    在数据绑定过程中,我们经常会使用StringFormat对要显示的数据进行格式化,以便获得更为直观的展示效果,但在某些情况下格式化操作并未生效,例如Button的Content属性以及ToolTip属性绑定数据进行StringFormat时是无效的。首先回顾一下StringFormat的基本用法。StringFormat的用法Str......
  • Java中的String、StringBuilder、StringBuffer
            在Java中,String、StringBuilder 和 StringBuffer 是处理字符串的三个常用类,它们各有特点和适用场景。以下是对这三个类的详细解释、常用方法的代码示例以及它们之间的区别和适用场景。StringString 类表示不可变的字符序列。一旦创建,String 对象的内容......
  • 【mysql】SUBSTRING_INDEX 用法举例
    查询语句如下:SELECT 高工, SUBSTRING_INDEX(高工,'、',-1), --取右边第一个 SUBSTRING_INDEX(高工,'、',0), SUBSTRING_INDEX(高工,'、',1), --取左边一个(从左往右) SUBSTRING_INDEX(高工,'、',2), --取左边二个(从左往右) SUBSTRING_INDEX(高工,'、&......