字符编码
一、字符编码
字符编码(英语:Character encoding)、字集码是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储
和通过通信网络的传递
字符编码的主要目的是为了存储和通讯,但全世界各个国家都有不同的字符,且字符数量也不相同,故全世界各个国家、地区都有一套编码规则。常见有ASCII编码
、ANSI编码
、Unicode编码
二、ASIIC编码
ASCII(发音: /ˈæski/ ASS-kee[1],American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母
的一套电脑编码系统
ASCII将字母
、数字
和其它符号
编号,并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。
ASCII控制字符
的编号范围是0-31和127(0x00-0x1F和0x7F),共33个字符
、可显示字符
编号范围是32-126(0x20-0x7E),共95个字符
。
ASCII对照表:
ASCII值 | 控制字符 | ASCII值 | 控制字符 | ASCII值 | 控制字符 | ASCII值 | 控制字符 |
---|---|---|---|---|---|---|---|
0 | NUT | 32 | (space) | 64 | @ | 96 | 、 |
1 | SOH | 33 | ! | 65 | A | 97 | a |
2 | STX | 34 | " | 66 | B | 98 | b |
3 | ETX | 35 | # | 67 | C | 99 | c |
4 | EOT | 36 | $ | 68 | D | 100 | d |
5 | ENQ | 37 | % | 69 | E | 101 | e |
6 | ACK | 38 | & | 70 | F | 102 | f |
7 | BEL | 39 | , | 71 | G | 103 | g |
8 | BS | 40 | ( | 72 | H | 104 | h |
9 | HT | 41 | ) | 73 | I | 105 | i |
10 | LF | 42 | * | 74 | J | 106 | j |
11 | VT | 43 | + | 75 | K | 107 | k |
12 | FF | 44 | , | 76 | L | 108 | l |
13 | CR | 45 | - | 77 | M | 109 | m |
14 | SO | 46 | . | 78 | N | 110 | n |
15 | SI | 47 | / | 79 | O | 111 | o |
16 | DLE | 48 | 0 | 80 | P | 112 | p |
17 | DCI | 49 | 1 | 81 | Q | 113 | q |
18 | DC2 | 50 | 2 | 82 | R | 114 | r |
19 | DC3 | 51 | 3 | 83 | S | 115 | s |
20 | DC4 | 52 | 4 | 84 | T | 116 | t |
21 | NAK | 53 | 5 | 85 | U | 117 | u |
22 | SYN | 54 | 6 | 86 | V | 118 | v |
23 | TB | 55 | 7 | 87 | W | 119 | w |
24 | CAN | 56 | 8 | 88 | X | 120 | x |
25 | EM | 57 | 9 | 89 | Y | 121 | y |
26 | SUB | 58 | : | 90 | Z | 122 | z |
27 | ESC | 59 | ; | 91 | [ | 123 | { |
28 | FS | 60 | < | 92 | \ | 124 | |
29 | GS | 61 | = | 93 | ] | 125 | } |
30 | RS | 62 | > | 94 | ^ | 126 | ` |
31 | US | 63 | ? | 95 | _ | 127 | DEL |
三、Unicode编码
Unicode是ASCII(美国信息交换标准码)字符编码的一个扩展,形成了例如UTF-8
、UTF-16
、UTF-32
UTF-8使用1~4字节为每个字符编码
UTF-8是最常见的编码方式,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。
最大的特点是可变长编码
,例如英文字符可以用1个字节表示,中文可以用3字节表示
四、ANSI编码
ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码
中国大陆(简体)扩展了GB2312编码、中国台湾(繁体)扩展了Big-5编码、中国香港扩展了HKSCS编码、日本扩展了Shift_JIS编码、韩国扩展了EUC-KR编码...
若存储和打开文件的编码格式不一致,基本会出现常见的火星文乱码,这个时候不要慌,选择正确的编码格式打开文件就好了
标签:编码,UTF,字节,字符,控制字符,ASCII From: https://www.cnblogs.com/caojun97/p/16703387.html