首页 > 其他分享 >使用 StringUtils.split 的坑

使用 StringUtils.split 的坑

时间:2022-11-02 09:25:57浏览次数:78  
标签:String resultArray split str 使用 字符串 StringUtils

点赞再看,动力无限。 微信搜「 程序猿阿朗 」。

本文 Github.com/niumoo/JavaNotes未读代码博客 已经收录,有很多知识点和系列文章。

在日常的 Java 开发中,由于 JDK 未能提供足够的常用的操作类库,通常我们会引入 Apache Commons Lang 工具库或者 Google Guava 工具库简化开发过程。两个类库都为 java.lang API 提供了很多实用工具,比如经常使用的字符串操作,基本数值操作、时间操作、对象反射以及并发操作等。

<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-lang3</artifactId>
    <version>3.12.0</version>
</dependency>

但是,最近在使用 Apache Commons Lang 工具库时踩了一个坑,导致程序出现了意料之外的结果。

StringUtils.split 的坑

也是因为踩了这个坑,索性写下一篇文章好好介绍下 Apache Commons Lang 工具库中字符串操作相关 API。

先说坑是什么,我们都知道 String 类中到的 split 方法可以分割字符串,比如字符串 aabbccdd 根据 bc 分割的结果应该是 aabcdd 才对,这样的结果也很容易验证。

String str = "aabbccdd";
for (String s : str.split("bc")) {
    System.out.println(s);
}
// 结果
aab
cdd

可能是因为 String 类中的 split 方法的影响,我一直以为 StringUtils.split 的效果应该相同,但其实完全不同,可以试着分析下面的三个方法输出结果是什么,StringUtils 是 Commons Lang 类库中的字符串工具类。

 public static void testA() {
    String str = "aabbccdd";
    String[] resultArray = StringUtils.split(str, "bc");
    for (String s : resultArray) {
        System.out.println(s);
    }
}

我对上面 testA 方法的预期是 aabcdd ,但是实际上这个方法的运行结果是:

// testA 输出
aa
dd

可以看到 bc 字母都不见了,只剩下了 ab,这是已经发现问题了,查看源码后发现 StringUtils.split 方法其实是按字符进行操作的,不会把分割字符串作为一个整体来看,返回的结果中不也会包含用于分割的字符。

验证代码:

public static void testB() {
    String str = "abc";
    String[] resultArray = StringUtils.split(str, "ac");
    for (String s : resultArray) {
        System.out.println(s);
    }
}
// testB 输出
b
public static void testC() {
    String str = "abcd";
    String[] resultArray = StringUtils.split(str, "ac");
    for (String s : resultArray) {
        System.out.println(s);
    }
}
// testC 输出
b
d

输出结果和预期的一致了。

StringUtils.split 源码分析

点开源码一眼看下去,发现在方法注释中就已经进行提示了:返回的字符串数组中不包含分隔符

The separator is not included in the returned String array. Adjacent separators are treated as one separator. For more control over the split use the StrTokenizer class....

继续追踪源码,可以看到最终 split 分割字符串时入参有四个。

private static String[] splitWorker(
final String str, // 原字符串 
final String separatorChars,  // 分隔符
final int max,  // 分割后返回前多少个结果,-1 为所有
final boolean preserveAllTokens // 暂不关注
) {
}

根据分隔符的不同又分了三种情况。

1. 分隔符为 null

final int len = str.length();
if (len == 0) {
    return ArrayUtils.EMPTY_STRING_ARRAY;
}
final List<String> list = new ArrayList<>();
int sizePlus1 = 1;
int i = 0;
int start = 0;
boolean match = false;
boolean lastMatch = false;
if (separatorChars == null) {
    // Null separator means use whitespace
    while (i < len) {
        if (Character.isWhitespace(str.charAt(i))) { 
            if (match || preserveAllTokens) {
                lastMatch = true;
                if (sizePlus1++ == max) {
                    i = len;
                    lastMatch = false;
                }
                list.add(str.substring(start, i));
                match = false;
            }
            start = ++i;
            continue;
        }
        lastMatch = false;
        match = true;
        i++;
    }
}
// ...
if (match || preserveAllTokens && lastMatch) {
            list.add(str.substring(start, i));
}

可以看到如果分隔符为 null ,是按照空白字符 Character.isWhitespace() 分割字符串的。分割的算法逻辑为:

a. 用于截取的开始下标置为 0 ,逐字符读取字符串。
b. 碰到分割的目标字符,把截取的开始下标到当前字符之前的字符串截取出来。
c. 然后用于截取的开始下标置为下一个字符,等到下一次使用。
d. 继续逐字符读取字符串、

2. 分隔符为单个字符

逻辑同上,只是判断逻辑 Character.isWhitespace() 变为了指定字符判断。

// Optimise 1 character case
final char sep = separatorChars.charAt(0);
while (i < len) {
    if (str.charAt(i) == sep) { // 直接比较
      ...

3. 分隔符为字符串

总计逻辑同上,只是判断逻辑变为包含判断。

 // standard case
while (i < len) {
    if (separatorChars.indexOf(str.charAt(i)) >= 0) { // 包含判断
        if (match || preserveAllTokens) {

如何解决?

1. 使用 splitByWholeSeparator 方法。

我们想要的是按整个字符串分割,StringUtils 工具类中已经存在具体的实现了,使用 splitByWholeSeparator 方法。

String str = "aabbccdd";
String[] resultArray = StringUtils.splitByWholeSeparator(str, "bc");
for (String s : resultArray) {
    System.out.println(s);
}
// 输出
aab
cdd

2. 使用 Google Guava 工具库

关于 Guava 工具库的使用,之前也写过一篇文章,可以参考:Guava - 拯救垃圾代码

String str = "aabbccdd";
Iterable<String> iterable = Splitter.on("bc")
    .omitEmptyStrings() // 忽略空值
    .trimResults() // 过滤结果中的空白
    .split(str);
iterable.forEach(System.out::println);
// 输出
aab
cdd

3. JDK String.split 方法

使用 String 中的 split 方法可以实现想要效果。

String str = "aabbccdd";
String[] res = str.split("bc");
for (String re : res) {
    System.out.println(re);
}
// 输出
aab
cdd

但是 String 的 split 方法也有一些坑,比如下面的输出结果。

String str = ",a,,b,";
String[] splitArr = str.split(",");
Arrays.stream(splitArr).forEach(System.out::println);
// 输出

a

b

开头的逗号,前出现了空格,末尾的逗号,后却没有空格。

一如既往,文章中代码存放在 Github.com/niumoo/javaNotes.

<完>

文章持续更新,可以微信搜一搜「 程序猿阿朗 」或访问「程序猿阿朗博客 」第一时间阅读。本文 Github.com/niumoo/JavaNotes 已经收录,有很多知识点和系列文章,欢迎Star。

标签:String,resultArray,split,str,使用,字符串,StringUtils
From: https://www.cnblogs.com/niumoo/p/16849887.html

相关文章

  • linux下使用mysql
    linux下使用mysql1.登录mysqlMySQL-uroot-p123456#-u后面跟的是用户名-p后面跟的是密码2.查看所有数据库showdatabases;3.......
  • 关于SpringMvc使用@RequstBody报错500的原因
    在使用SpringMvc框架接收前端数据添加到数据库时报500错误,@PostMappingpublicResultsave(@RequestBodyBookbook){booleanflag=bookService.save......
  • 第三十四章 使用 CSP 进行基于标签的开发 - Hyperevent例子
    第三十四章使用CSP进行基于标签的开发-Hyperevent例子Hyperevent例子本节展示了一些超事件Hyperevent例子的示例;也就是说,使用#server和#call指令来执行服务器操作......
  • 关于使用Sublime4没有GBK的措施
    需求:当时要重新复习java,就又下载了sublime,结果cmd之后出现【错误:编码GBK的不可映射字符】这种错误整改方法是:通过安装插件的方式让它支持整改步骤是:(从别人那学的,当然也......
  • Ingress使用总结
    一、Kubernetesservice类型详解及案例Kubernetesservice类型:ExternalNameNodePortClusterIPloadBalancer1.1、ClusterIP#kubectlexplainservice.spec.type......
  • GCC使用预编译头文件
    GCC使用预编译头文件通常大型项目有许多头文件,每个源文件中都包含很多头文件。编译器一遍又一遍地处理这些头文件所花费的时间几乎可以占据构建项目的所有时间。为了使构......
  • docker 启动zookeeper 并使用Idea连接
    在docker中启动zookeeper#拉取zk官方镜像dockerpullzookeeper#启动容器dockerrun-d--name=zookeeper-p2181:2181--restartalways--privileged=true......
  • 一些Clion使用记录
    一些Clion使用记录编译链设置在设置“工具链”中可以按需增加不同的编译链访问越界溢出debug借助了clion里面打开addresssanitizer,但是自己折腾了挺久都没在windows......
  • 不支持虚拟化的Intel VT-x/EPT. 不使用虚拟化的Intel VT-x/EPT
     001、问题   解决方法如下: 001、win+i打开设置,点击隐私与安全性  002、点window安全中心  003、点设备安全性  004、点击内核隔离详细......
  • 使用Spring Boot DevTools自动重启,有什么用
    SpringBootDevTools的自动重启部署功能,个人感觉并没有什么用。默认,在引入这个依赖后,只要编译一下类,整个服务就自动重启了。没明白这个有啥提效的作用。这个自动重启,可以......