首页 > 其他分享 >字符编码介绍

字符编码介绍

时间:2023-04-01 21:34:05浏览次数:32  
标签:编码 字节 字符 字符集 介绍 Unicode 编码方式

字符编码是用于将字符集中的字符转换为二进制数据的方式。以下是常见的字符编码:

  1. ASCII编码:American Standard Code for Information Interchange(美国信息交换标准代码),它使用7位二进制数来表示128个字符,ASCII编码最早用于电报通信,包括大小写字母、数字和一些特殊字符。ASCII编码在计算机发展早期使用广泛,但无法表示更多的字符集。

  2. Unicode编码:Unicode是一种国际标准字符集,它也叫统一码、万国码等。Unicode使用定长的16位(UCS-2)或32位(UCS-4)的二进制数来表示所有的字符,覆盖了所有的书面字系统。Unicode标准是一种字符集,包含许多字符,但是不规定如何存储这些字符,因此出现了UTF-8、UTF-16、UTF-32等编码方式用于存储Unicode字符集。

  3. UTF-8编码:是一种变长的、以字节为单位的Unicode编码方式。UTF-8最少使用1个字节表示一个字符,最多使用4个字节。UTF-8是Unicode字符集的一种存储方式,它保持了和ASCII编码的兼容性,也支持各种语言文字,因此在互联网上应用非常广泛。

  4. UTF-16编码:与UTF-8一样是Unicode编码方式对之一,它使用16位编码存储Unicode字符,因此可以表示65536个字符。UTF-16编码方式分成两种字节序,分别是Big-Endian(需先存储高位字节)和Little-Endian(需先存储低位字节)。UTF-16编码方式在某些系统(如微软的Windows操作系统)中得到较广泛应用。

  5. GB2312编码:是中国国家标准规定的汉字字符集与编码方式,它使用2个字节(16位)来表示汉字,而使用1个字节(8位)来表示英文字母、数字等。GB2312编码仅覆盖基本的汉字字符集,因此无法表示所有的汉字。

  6. GBK编码:是将GB2312进行了扩展,使用双字节编码表示汉字,可以表示,覆盖到了99.9%的汉字,同时也支持一些常见的外文字符,例如日语假名等。

  7. GB18030编码:是中国现行的国家标准,它包括了GBK编码中所有的字符,同时增加了很多生僻汉字,因此可以完整地覆盖Unicode字符集,是一种全面的中文编码方案。

  8. ISO-8859编码:是一种拉丁文字母的编码方式,包括Latin-1(ISO-8859-1)、Latin-2(ISO-8859-2)等子集,它使用单字节编码表示字符,常用于欧洲地区的语言。

  9. Windows-1252编码:是Windows操作系统中常用的字符编码方式,它是ISO-8859-1的一个扩展,支持欧洲多语言。

  10. Shift-JIS编码:是一种日语字符编码方式,它使用双字节编码表示汉字、片假名和平假名等字符。

  11. EUC编码:是一种亚洲文字编码方式,包括EUC-JP、EUC-KR、EUC-TW等,它使用双字节编码表示汉字、日语、韩语、繁体中文等语言。

  12. KOI8编码:是一种俄语字符编码方式,它使用单字节编码表示字符。

  13. HZ编码:一种中文字符编码方式,使用ASCII字符表示各种汉字,对于汉字的转义采用类似于URL的方式,典型地用于电子邮件的编码中。

  14. GBK18030编码:GBK编码的升级版,可以表示所有的汉字和全球语言文本,是一种全面的编码方案。

  15. BIG5编码:因为在台湾流通,以“大五码”命名的字符编码方式,使用双字节编码表示汉字、注音符号,常用于繁体中文的编码。

  16. ISCII编码:是一种泛南亚字符集的标准,针对印度地区的语言,使用单字节或双字节编码表示字符。

  17. TSCII编码:是一种泛泰米尔字符集的标准,使用单字节或双字节编码表示字符,适用于泰米尔语的字符表示。

标签:编码,字节,字符,字符集,介绍,Unicode,编码方式
From: https://www.cnblogs.com/zouzhibin/p/17279440.html

相关文章

  • Nexus 为 IDEA 提供 Jar 包私服介绍
    每个公司根据自身的需要,必然有自己研发的jar包,需要在项目之间共享使用。对于企业级项目来说,需要引用的jar包数量庞大,而且jar包也会不断更新,因此开发人员绝对不可能互相拷贝jar包来使用,这样就会造成项目管理和维护上的沉重负担。使用Nexus作为私服就能够很好的解决上述......
  • 每日总结--2023/3/29(解决sevlet报错问题和数据库中文编码错误)
    今日完成:昨天的残留问题,查询了很多资料,也没能完全解决。首先是tomcat版本问题,重新下载并且部署了tomcat10版本的内容,解决了sevlet代码报错的问题。但是连接数据库仍然是不成功,报500错误,检查了mysql数据库,发现数据库正常(除中文变为?的bug)。连接数据库暂时仍不成功,但是成功解决......
  • 提取横杠以左的字符串
    问题:一列数据中,提取最右一个横杠以左的字符。 数据规律是,A列字符串长度为15位或16位,横杠以右都是7位。函数公式解决:=IF(LEN(A2)=15,LEFT(A2,7),LEFT(A2,8))=LEFT(A2,FIND("-",A2,8)-1)=LEFT(A2,LEN(A2)-8)公式1:先用IF判断,A2的长度为15时,左取7位,否则左取8位。公式2:FI......
  • 字符串(提高组)详解
    字符串(提高组)详解前提提要:本文为提高组字符串,不涉及到后缀科技等相关算法,请放心食用Part1.字符串Hash题目概要如题,给定\(N\)个字符串(第\(i\)个字符串长度为\(M_i\),字符串内包含数字、大小写字母,大小写敏感),请求出\(N\)个字符串中共有多少个不同的字符串。输入格式......
  • OpenHarmonyllvm交叉编译工具链编译介绍
    一、工具链基础介绍1.1工具链下载repoinit-uhttps://gitee.com/OpenHarmony/manifest.git-bmaster-mllvm-toolchain.xmlreposync-crepoforall-c'gitlfspull'repostartmaster--all1.2环境配置下载clang+llvm-10.0.1-x86_64-linux-gnu-ubuntu-16.04.tar.xz为g......
  • 4·2HTTP协议中的编码和解码、4·3协议之基本认证、4·4中长连接与短连接、4·5中介之
     。。Http协议中的编码和解码YRL的编码与解码%编码规范对URL中属于ASCII字符集的非保证留字不做编码;对URII中的保留字需要取其ASXII内码,然后加上%前缀将该字符进行编码;对于URL中的非ASCII字符需要取其Unicode内码然后加上%前缀将该字......
  • day11| 20.有效的括号;150.逆波兰表达式求值;1047.删除字符串中的所有相邻重复项
    20.有效的括号 题目简述:给定一个只包括'(',')','{','}','[',']' 的字符串s,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的相同类型的左括号。 思路:1.利用一个栈实现2.构建一个字典,键......
  • 容器运行时介绍
    在学习Containerd之前我们有必要对Docker的发展历史做一个简单的回顾,因为这里面牵涉到的组件实战是有点多,有很多我们会经常听到,但是不清楚这些组件到底是干什么用的,比如libcontainer、runc、containerd、CRI、OCI等等。1、Docker从Docker1.11版本开始,Docker容器运行......
  • 我如何回答编码面试问题的框架
    我讨厌编码面试已经不是什么秘密了。他们是一种糟糕的招聘方式并且容易出现误报(也就是不必要地拒绝优秀候选人)。对于大多数公司来说,提出白板式的问题并不符合他们的最大利益。不幸的是,它们是行业标准。作为一名软件工程师,您必须在求职过程中回答白板上的问题。所以,这是我如何擅......
  • sublime编辑器中ANSI编码的汉字出现乱码
    问题:使用sublime打开一个ANSI编码的文件,出现乱码。解决方法:安装ConvertToUTF8插件打开sublime,按键Ctrl+Shift+p ,会出现如下图所示 然后,你输入installpackage点击InstallPackage,然后,你再输入ConvertToUTF8点击回车.这时,你可以在sublime的左下角看见提示,这说明正在安装C......