Java浅谈Java String内幕

博客主页: 南来_北往

系列专栏：Spring Boot实战

前言

Java中的String类是一个不可变的、用于表示字符串的类。在Java中，字符串是通过字符数组来实现的，而String类则是对这个字符数组进行封装，并提供了一系列操作字符串的方法。

不可变性：String类的实例是不可变的，这意味着一旦创建了一个String对象，它的值就不能被改变。如果需要修改字符串，实际上是创建了一个新的String对象。这种设计使得字符串在多线程环境下是安全的，因为不需要担心一个线程修改字符串会影响到其他线程。
字符串常量池：为了提高性能和节省内存，Java引入了字符串常量池（String Pool）。当我们使用双引号创建一个字符串时，Java会首先检查字符串常量池中是否已经存在这个字符串。如果存在，就直接返回这个字符串的引用；如果不存在，就在堆内存中创建一个新的String对象，并将其引用添加到字符串常量池中。这样，相同的字符串只会在内存中存储一份，节省了内存空间。
==和equals()方法：由于字符串的不可变性，我们可以使用==运算符来比较两个字符串对象的引用是否相同。但是，如果我们想要比较两个字符串的内容是否相同，就需要使用equals()方法。equals()方法会比较两个字符串的每个字符，只有当所有字符都相同时，才会返回true。
intern()方法：Java提供了一个intern()方法，用于将字符串对象的引用添加到字符串常量池中。如果字符串常量池中已经存在相同的字符串，intern()方法会返回已有字符串的引用；否则，会在字符串常量池中添加新的字符串，并返回其引用。这样，我们可以确保字符串常量池中只有一个字符串的引用。
substring()方法：substring()方法用于截取字符串的一部分，并返回一个新的String对象。需要注意的是，由于字符串的不可变性，substring()方法实际上会创建一个新的String对象，而不是直接修改原字符串。
hashCode()方法：hashCode()方法用于计算字符串的哈希码。在Java中，String类的hashCode()方法是根据字符串的内容计算的，不同的字符串可能会有不同的哈希码。这使得我们可以使用哈希表（如HashMap）来存储和查找字符串。

常量池

Java代码被编译成class文件时，会生成一个常量池（Constant pool）的数据结构，用以保存字面常量和符号引用（类名、方法名、接口名和字段名等）。

package com.ctrip.ttd.whywhy;
public class Test {  public static void main(String[] args) {  String test = "test";  }  
}

很简单的一段代码，通过命令 javap -verbose 查看class文件中 Constant pool 实现：

Constant pool:#1 = Methodref          #4.#13         // java/lang/Object."<init>":()V#2 = String             #14            // test#3 = Class              #15            // com/ctrip/ttd/whywhy/test#4 = Class              #16            // java/lang/Object#5 = Utf8               <init>#6 = Utf8               ()V#7 = Utf8               Code#8 = Utf8               LineNumberTable#9 = Utf8               main#10 = Utf8               ([Ljava/lang/String;)V#11 = Utf8               SourceFile#12 = Utf8               test.java#13 = NameAndType        #5:#6          // "<init>":()V#14 = Utf8               test#15 = Utf8               com/ctrip/ttd/whywhy/test#16 = Utf8               java/lang/Object

通过反编译出来的字节码可以看出字符串 "test" 在常量池中的定义方式：

# 2 = String             #14            // test
# 14 = Utf8              test

在main方法字节码指令中，0 ~ 2行对应代码 String test = "test"; 由两部分组成：ldc #2 和 astore_1。

// main方法字节码指令
public static void main(java.lang.String[]);Code:0: ldc           #2                  // String test2: astore_13: return

1、Test类加载到虚拟机时，"test"字符串在Constant pool中使用符号引用symbol表示，当调用 ldc #2 指令时，如果Constant pool中索引 #2 的symbol还未解析，则调用C++底层的 StringTable::intern 方法生成char数组，并将引用保存在StringTable和常量池中，当下次调用 ldc #2 时，可以直接从Constant pool根据索引 #2获取 "test" 字符串的引用，避免再次到StringTable中查找。

2、astore_1指令将"test"字符串的引用保存在局部变量表中。

常量池的内存分配在 JDK6、7、8中有不同的实现：

JDK6及之前版本中，常量池的内存在永久代PermGen进行分配，所以常量池会受到PermGen内存大小的限制。
JDK7中，常量池的内存在Java堆上进行分配，意味着常量池不受固定大小的限制了。
JDK8中，虚拟机团队移除了永久代PermGen。

字符串初始化

字符串可以通过两种方式进行初始化：字面常量和String对象。

字面常量

public class StringTest {public static void main(String[] args) {String a = "java";String b = "java";String c = "ja" + "va";}
}

通过 "javap -c" 命令查看字节码指令实现：

其中ldc指令将int、float和String类型的常量值从常量池中推送到栈顶，所以a和b都指向常量池的"java"字符串。通过指令实现可以发现：变量a、b和c都指向常量池的 "java" 字符串，表达式 "ja" + "va" 在编译期间会把结果值"java"直接赋值给c。

String对象

public class StringTest {public static void main(String[] args) {String a = "java";String c = new String("java");}
}

这种情况下，a == c 成立么？字节码实现如下：

其中3 ~ 9行指令对应代码 String c = new String("java"); 实现：

第3行new指令，在Java堆上为String对象申请内存；
第7行ldc指令，尝试从常量池中获取"java"字符串，如果常量池中不存在，则在常量池中新建"java"字符串，并返回；
第9行invokespecial指令，调用构造方法，初始化String对象。

其中String对象中使用char数组存储字符串，变量a指向常量池的"java"字符串，变量c指向Java堆的String对象，且该对象的char数组指向常量池的"java"字符串，所以很显然 a != c，如下图所示：

通过 "字面量 + String对象" 进行赋值会发生什么？

public class StringTest {public static void main(String[] args) {String a = "hello ";String b = "world";String c = a + b;String d = "hello world";}
}

这种情况下，c == d成立么？字节码实现如下：

其中6 ~ 21行指令对应代码 String c = a + b; 实现：

第6行new指令，在Java堆上为StringBuilder对象申请内存；
第10行invokespecial指令，调用构造方法，初始化StringBuilder对象；
第14、18行invokespecial指令，调用append方法，添加a和b字符串；
第21行invokespecial指令，调用toString方法，生成String对象。

通过指令实现可以发现，字符串变量的连接动作，在编译阶段会被转化成StringBuilder的append操作，变量c最终指向Java堆上新建String对象，变量d指向常量池的"hello world"字符串，所以 c != d。

不过有种特殊情况，当final修饰的变量发生连接动作时，虚拟机会进行优化，将表达式结果直接赋值给目标变量：

public class StringTest {public static void main(String[] args) {final String a = "hello ";final String b = "world";String c = a + b;String d = "hello world";}
}

指令实现如下：