首页 > 编程语言 >http请求中加号被替换为空格?源码背后的秘密(转)

http请求中加号被替换为空格?源码背后的秘密(转)

时间:2023-03-27 18:45:38浏览次数:64  
标签:www http HTML 空格 源码 加号 encode BUG

add by zhj: 我比较奇怪,为什么Postman等Http客户端在发送请求时,为什么不默认对Query String中的值进行Encode URI Component呢?非要让用户手动选择。其实Postman默认对Query String的值进行url encode,但是对于+号,它不会进行encode,这就导致服务端收到请求后,解码出来的是空格。Spring的RestTemplate也有相同的问题,为什么这些Http客户端都这样做呢?我个人感觉还是应该由客户端自己解决这个问题。

原文:https://www.cnblogs.com/thisiswhy/p/12119126.html

作者:why技术

本周本来是没有时间写技术文章的,为了周更不断,想着去把之前发布在其他平台的一篇原创文章搬过来就行。结果发现,当年我写的那篇文章,离真相还差着十万八千里。

而去搜索这个问题时,我的文章是检索结果的第一个

原文《http请求参数中加号被替换为空格及请求参数被URLDeCode的记录》链接如下:

https://www.jianshu.com/p/1a30b585c39e

所以为了避免继续误导读者,就算周末"爆肝",也得输出此文,不得不发。

这是我作为程序员的自我修养。

加号变空格

之前写那篇文章的原因是碰到了两个有趣的问题,如下:

首先,我们进行场景复现,搭建项目的过程就不说了,用idea+springboot搭建一个简单的web项目还不是信手拈来的事?

正如上面的现象所示:我的入参是jay+love,但是后台接收到的是jay love,加号变空格了。为什么呢?

源码之下无秘密

本文分析的Tomcat源码版本为:9.0.29.

通过Debug可以找到两处关键的代码:

第一处:

org.apache.tomcat.util.http.Parameters#processParameters(byte[], int, int, java.nio.charset.Charset) 下图中的290行

在这个地方因为有'+',所以把decodeValue参数设置为true,表示需要对请求中的value进行decode操作。

decode的具体的源码位置如下,也就是第二处关键代码:

org.apache.tomcat.util.buf.UDecoder#convert(org.apache.tomcat.util.buf.ByteChunk, boolean)

可以看到,在源码里面有一段代码,是把'+'替换了为了空格,是特意做了这样的特殊处理。

整个方法的解读如下:

所以我的入参是jay+love,但是后台接收到的是jay love,加号变空格了。为什么呢?

原因很简单,在源码中有一段代码把'+'替换成了空格,刻意为之。

为什么这样做呢?

之前的文章里面我写的是:

由于历史原因,那到底是什么历史原因呢?

我在网上查了一圈,没有找到具体的历史原因,我看到的所有的关于这个问题的文章,要么只是给了解决方案,要么就是上面这一句历史原因,一带而过,含糊其辞。

这里,我就明明白白的告诉你为啥。

经过我长时间的摸排,我找到了很多蛛丝马迹,整理之后,我决定从JDK的一个"BUG"讲起。

对应链接:http://bugs.sun.com/view_bug.do?bug_id=4616184

从提交时间上可以看出,该问题早在2001年,距今18年前就有人指出来了,并给JDK上报了BUG,他的描述如下:

首先,我们先把他的测试代码拿出来跑一下:

他为什么说空格encode之后应该是%20呢?

因为他在BUG里面提到了RFC2396标准。(RFC就不解释了,你只要知道是业界认证的权威标准就行):

http://www.ietf.org/rfc/rfc2396.txt

在RFC2396的第2.4.1节,明确的说了:"%20"是US-ASCII空格字符的转义编码。

去查询标准的ASCII码你也可以发现确实是这样的:

用代码实践一下,证明以上结论:

看java.net.URLEncoder#encode(java.lang.String, java.lang.String)的源码也可以直观的看到,源码里面做了特殊处理

再看java.net.URLDecoder#decode(java.lang.String, java.lang.String)的源码:

这里就和前面的呼应上了,这处理方式,一模一样呀。所以为什么这样处理,两处地方属于同宗同源啊!

而提BUG的那个哥们为什么觉得这是一个BUG呢?

虽然经过试验,'+'和'%20'经过decode都能转化为空格,但是他认为,根据RFC2396来讲,这里只能是'%20',怎么能变成'+'呢?所以他觉得这是一个BUG。

那我们看看JDK官方是怎么回复这个问题的呢?

官方回复:

这不是BUG啊,朋友!这个类就是遵循了HTML规范中的规定:如何对 HTML表单中的URLs进行encode。它不打算用于其他用途。

 

而这样做的原因,是因为包括HTML 4.01第17.13.4节和RFC 1866(已经被W3C HTML推荐标准取代)都是这样规定的。

对于第一段话,官方的意思我理解是:这个类就是拿来对url进行encode的,不做其他用途。因为你调用了encode编码,那就需要decode解码,我只要保证你解码之后的数据和你encode之前的数据是一样的就行了。你要拿去搞其他事情,我就管不了了。

而为什么这样做呢?是因为规定就是这样的呀,类似于国家标准就是这样的,类似于产品经理提出的需求就是这样的呀。这里官方提出了两个标准,一个是HTML 4.01,一个是RFC1866(这个已经被其他的标准取代了,那我们就只看HTML 4.01)。

HTML4.01是1999年12月24日发布的,在HTML4.0基础上进行微小改进,W3C推荐标准 。

 

在w3c上找到该标准,地址如下

https://www.w3.org/TR/html401/interact/forms.html#h-17.13.4.1

下图圈起来的地方很关键,可以点开放大查看:

找到HTML 4.01第17.13.4节,其中明确指出:当content-type为application/x-www-form-urlencoded时,对names和vaules进行转义,空格用'+'代替。

HTML 4.01第17.13.4节原文如下:

Control names and values are escaped. Space characters are replaced by `+'

官方举的虽然是HTML 4.01的例子,但是我翻译了历史文献,发现其实在更早的HTML 3.2规范中就规定了,HTML 3.2规范在1996年就成为了W3C推荐标准,其中相关内容如下:

链接地址:https://www.w3.org/TR/2018/SPSD-html32-20180315/

而application/x-www-form-urlencoded是浏览器默认的content-type。

在BUG里面提到的RFC2396标准是1998年8月提出来的

HTML 3.2规范在1996年就成为了W3C推荐标准

所以,我觉得这就是历史原因!

再说一次,在HTML 4.01规范中就明确规定了:当content-type为application/x-www-form-urlencoded时,对names和vaules进行转义,空格用'+'代替。 

没有原因,就是规定!我在查询的过程中发现,其他的编程语言也有这样的问题,因为他们都遵从同样的标准,就有了同样的"历史原因"。

回到前面的这个地方:

这里解码的时候为什么把'+'转化为空格呢?因为"历史原因",如果URLs中出现了空格,需要用'+'替换,所以这里解码的时候把'+'转化回了空格。先有了编码的操作,所以才会有解码的操作。

很多的文章都在说这是'+'的原因,甚至有的文章说'+'的编码应该改为%20。但是其实上面分析过了,有问题的是空格,而不是'+'。

那为什么我们在做表单提交的时候,也经常写'+'号呀,为什么没有问题呢?

因为当Html的表单被提交时, 每个表单域都会被Url编码之后才在被发送,下面的小例子可以佐证:

解决方案

解决方案网上一大堆了,我这里罗列一下吧:

方案一:修改客户端,将客户端带'+'的参数中的'+'全部替换为‍'%2B',如下:

方案二:修改服务器端,将空格替换为'+',这种方式只适用于参数中'+'没有空格的情况。如下:

 

方案三:修改服务器端,将获取参数的方法由‍reuqest.‍getParameter改为‍request.getQueryString(),然后对得到的字符串进行解析。

最后说一句

正如我文章最开始说的,就算是熬夜爆肝,我也必须得输出这篇文章,因为我最开始的文章不仅写的表面,而且还有一些问题,我得对其进行纠正。

让我突然想起了之前和朋友的一次对话,他问我说:你作为程序员,时刻待命,只要系统一出问题你就立马会响应。你不觉得累吗?

我回答道:说真的,当系统出问题,需要我排查问题的时候,我不觉得累。因为这个系统是我负责的,代码是我自己一行行的写出来的。出现了问题,我得证明我的系统是没有问题的,是不是别人的打开方式不对。但是如果真的是我的代码导致的问题,我会心有愧疚,我也得立即响应,对其负责。

标签:www,http,HTML,空格,源码,加号,encode,BUG
From: https://www.cnblogs.com/ajianbeyourself/p/17262488.html

相关文章

  • 3-1初识HTTP|3-3HTTP报文|3-5HTTP方法|3-7GET和POST方法的对比|3-9状态码
    HTTP是什么超文本传输协议(HyperTextTransferProtocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息......
  • ChatGPT接入微信 C#完整源码
    1.无需搭建服务器2.winform运行程序扫码登录,就可以充当机器人调用chatGPT可实现自动回复(可以识别会话消息和群聊消息,拉入群聊@机器人可以进行群聊的消息回复),可以申请小......
  • 医院影像科室PACS系统源码包含三维重建源码
    PACS系统是PictureArchivingandCommunicationSystems的缩写,意为影像归档和通信系统。它是应用在医院影像科室的系统,主要的任务就是把日常产生的各种医学影像(包括核磁,CT,......
  • HTTP和HTTPS
    一、HTTP和HTTPS的基本概念HTTP超文本传输协议(HyperTextTransferProtocol)设计目的:提供一种发布和接受HTML页面的方法HTTP是以明文方式发送信息,不安全。HTTP原理:通......
  • Git使用 | 解决github下载源码慢的问题
    最近,准备在github上克隆一些开源代码来学习。通常情形就是,网页半天打不开或者无法访问,大一点的git仓库也无法克隆下来。后续,通过gitee码云加速下载github代码,解决了问题。下......
  • 初识HTTP&HTTP报文&HTTP方法
    初识HTTPHTTP是什么?HyperTextTransferProtocol超文本传输协议HTML:超文本标记语言超文本:原先一个个单一的文本,通过超链接将其联系起来,由原先的单一的文......
  • 直播平台搭建源码,Android进度条ProgressBar颜色的渐变设置
    直播平台搭建源码,Android进度条ProgressBar颜色的渐变设置1.第一步 在res/drawable目录下新建自己的样式文件my_progressBar.xml文件。 <?xmlversion="1.0"encod......
  • 我试图通过这篇文章,教会你一种阅读源码的方式。
    你好呀,我是歪歪。是的,正如标题描述的这样,我试图通过这篇文章,教会你如何阅读源码。事情大概是这样的,前段时间,我收到了一个读者发来的类似于这样的示例代码:他说他知道这......
  • jav中httpClient请求接口示例
    importorg.apache.http.HttpEntity;importorg.apache.http.HttpResponse;importorg.apache.http.client.HttpClient;importorg.apache.http.client.methods.HttpPo......
  • start线程开启(C源码分析)
    一个线程开启都经历了什么publicclassThreadBaseDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->{},"t1");......