首页 > 编程语言 >Java 编码那些事(一)

Java 编码那些事(一)

时间:2022-10-17 14:56:40浏览次数:76  
标签:编码 Java 字节 那些 ANSI Unicode UTF ASCII

编码

做Web的同学,最开始一定遇到过乱码问题,工作这么久,一定听说过Unicode, GB2312等编码。典型的记事本选择的四种选项:ANSI,Unicode,Unicode big endian,UTF-8,有没有疑惑,这都是些什么鬼???

什么是编码?

众所周知,计算机存储都是0和1,那计算机是如何区分开汉字,字母呢?后来人们就规定了一个编码表,这个表就相当于一个字典,比如我们通俗约定1100001就表示A,1100002表示B做计算机显示的时候,发现一个字符对象存储的值是1100001那就显示A就行了。像这样,由信息的一种形式转换为另外一种形式的过程,称为编码。而编码表便是编码过程的一种规则。

ASCII

ASCII(American Standard Code for Information Interchange)是最出名也是最基本的编码表,最开始计算机发明的时候,计算机的使用一般都是一些特殊字符加上26个字母,因此美国人定制了ASCII表用来显示通用的26个字符加上一些特殊字母,ASCII码只占用一个1字节。

ANSI

最开始ASCII编码是够用的,但是随着计算机的发展,越来越多的国家陆续用上了计算机,这个时候,母语非英语的国家就开始不满意了,ASCII只能表示26个英文字母,那法语(é),汉语(中国),德语(Ä ä)等也要在计算机中表示,于是最开始,每个国家都自己定义了一套关于自己的编码规则,其中比较出名的有:

  • 西欧 ISO 8859-1

  • 中国国标 GB 2312

  • 台湾同胞的繁体 Big 5

  • 日本 Shift_ JIS

这些都是编码都是在原有的ASCII基础上扩展而来,统称为ANSI编码。但是最大的缺点就是互不兼容,也就是每个编码都是在没有考虑其他国家的定义的基础上扩展的。一边来说,在解码/编码过程中,都是指定具体的编码,比如GBK2312ISO 8859-1 等,ANSI只是对上述编码的一种统称。使用ANSI来作为一种编码格式的一般只见于Windows自带的记事本中。而在Windows记事本中,不同语言的操作系统,记事本所指的ANSI是不同的,

  • 简体中文 GBK
  • 日文 Shift_JIS
  • 繁体中文 Big 5
  • ...

因此,对于Windows的记事本,ANSI需要看具体的编码。

UNICODE

首先需要明确的是UNICODE是将字符集编码方式分开的一种方案,在维基百科中又被称做万国码、国际码。由名字便可知道,Unicode统一了各个国家的字符并规定了每个符号的编码,在Unicode字符集中,每个字符占用两个字节表示。ANSI类的字符集合编码都是一对一的关系,一种字符集对应一种编码。在Unicode编码中,Unicode编码的实现方式被称为Unicode转换格式Unicode Transformation Format,简称为UTF):代表性的有以下几种:

  • UTF-8: 前面说得到,Unicode字符集是以2个字节表示一个字符,但是在有时候只需要ASCII编码即可完整表示所有内容的系统中,使用Unicode会浪费比较多的控件,因此出现了UTF-8编码,UTF-8 是一种变长编码。UTF-8在编码Unicode码的时候,会将小位数的字符进行压缩,因此使用UTF-8的表示一个字母的时候,依然只使用一个字节。UTF-8对常用的字符一般3个字节即可表示,最多6个字节。(尽管如此,2003年11月UTF-8RFC 3629重新规范,只能使用原来Unicode定义的区域,U+0000U+10FFFF,也就是说最多四个字节:维基百科
  • UTF-16: UTF-16使用16位作为一个字长单位,使用UTF-16要么是两个字节表示一个字符,要么是4个字节。不过值得注意的是不同的操作系统读取直接的顺序不同,就好像古人写字是从右往左写一样,这里顺序,称为字节序,比如1122,有些系统读出来是1122,而有些系统读出来是2211,所以UTF-16又分大端(utf16-big endian)和小端(utf16-little endian)表示。

关于为什么UTF-8 没有字节序的问题,感兴趣的同学可以看看为什么 UTF-8 不存在字节序的问题? - 孙笑凡的回答 - 知乎

说到这里,大概就能分清UNICODE,ANSI,UTF-8,GBK编码了,但是可能有的同学比较疑惑的是Windows自带的笔记本为什么会有个Unicode编码选项??这算是Windows混用概念问题,在Windows自带笔记本下的Unicode表示的是“Unicode”(对应UTF-16 LE)、“Unicode big endian”(对应UTF-16 BE

URLEncoding

URLEncoding又称为百分号编码,其主要作用在于解决在使用url中混合其他编码的时候所带来的语法冲突,比如?在URL中,表示参数分割,但是如果想要在参数中传递就必须通过特殊的转换,而URLEncoding则正是用来将这些特殊符号转换为其他不会有歧义的统一编码。

其主要编码原理在于:将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY格式

部分特殊字符转换规则如下:

空格!#$%+@:=?
%20 %21 %23 %24 %25 %2B %40 %3A %3D %3F

一般当参数会混合在URL中,都会先将参数进行URL编码再进行传递。比如Get请求,或者HTTPMIME类型为application/x-www-form-urlencoded的请求

~~

微信搜索:StackTrace,一起学习,一起讨论,一起进步

标签:编码,Java,字节,那些,ANSI,Unicode,UTF,ASCII
From: https://www.cnblogs.com/printStackTrace/p/16799192.html

相关文章

  • java--Lang包常用类
    1.1Integer对int类型的数据的包装。privatefinalintvalue;维护Integer的数据publicfinalclassInteger extendsNumber implementsComparable<Integer>st......
  • Java使用Calendar获取月最大天数
    Calendarcalendar=Calendar.getInstance();calendar.set(Calendar.YEAR,year);calendar.set(Calendar.MONTH,month-1);//月份要-1,因为Calendar中一到十二月是0-1......
  • JavaDoc文档生成
    JavaDoc文档1、通过命令行生成JavaDoc文档  -encodingUTF8-charsetUTF-8防止中文乱码   2、用IDEA生成JavaDoc文档 在IDEA中选择工具Tool打开选择Gene......
  • Java线程的生命周期
    新建运行阻塞等待计时等待中止在java.lang.Thread.State类中可以查看一个线程在给定的时间点只能处于一种状态面试题:一个线程两次调用start()方法会出现什么情况......
  • 网页源码加密JavaScript程序,有效压缩和加密JS、Html、Css页面数据
    我们知道,基于Des或Aes对称加密时,当明文和密码相同,则密文相同。而我们此次发布是WJLSymmetricEncryption4.js(点击链接跳转到下载页面)加密程序,当明文和密码相同,每次加密后的......
  • java学习笔记37
    面向对象方法重写方法调用​packageoopzong.oop.oop4;​publicclassApplication{  publicstaticvoidmain(String[]args){    //方法的调用只和左......
  • Idea_Java错误集锦
    1.Invalidboundstatement(notfound):...在pom.xml中添加:<build><resources><resource><directory>src/main/java</direct......
  • JAVA 构造器
    构造器和类名相同没有返回值作用:new本质在调用构造方法;初始化对象的值;注意点定义有参构造后,如果想使用无参构造,一定要显示定义无参构造IDEA快捷键:ALT+INSERT......
  • javaweb学习记录
    学习javaweb是完完全全自学的,从mysql,tomcat,到Servlet,html都是自学的,主要是看黑马次程序员,但是因为时间原因,我并没有哪个都看,在寒假时我需要再次观看一遍。首先......
  • java String字符串split分割【/n】无效
    记录仅以此来记录一下,整整耽误了两个小时,单个\需要转变成四个-【\\】才可以转换成功;List<String>arrays=Arrays.asList(stringContent.split("\\\\n"));for(Strin......