字符集与字符编码

时间：2024-08-11 11:27:09浏览次数：15

文章目录

ANSI多字节字符集
Unicode字符集
Windows平台的字符转换
GB2312与UTF-8的转换

ANSI多字节字符集

最初，Internet上只有一种字符集——ANSI（American National Standard Institute）的ASCII（American Standard Code for Information Interchange）字符集。

后来，不同的国家和地区制定了不同的标准，由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。

由字节数据的最高位判断：

最高位为0，代表是单字节，按照ASCII表进行编码
ASCII编码是用一个字节（8bit）表示的字符编码，其中只用到了7位，表示127个字符。
最高位为1，代表是本地化扩展字符，需要将相邻的两个字节组成一个整体，来进行码值求取，得到的码值对应的本地化字符集中可以得到相应的字符是什么。
- 简体中文系统下，ANSI编码代表GB2312编码(GBK是GB2312的扩展，兼容GB2312)
- 繁体中文系统下，ANSI编码代表BIG5编码
- 日文系统下，ANSI编码代表JIS编码

不同ANSI编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段ANSI编码的文本中。需要将不同的ANSI编码都转换成UTF-8编码，进而存储。

Unicode字符集

Unicode即Universal Multiple-Octet Coded Character Set，通用多八位编码字符集。
国际组织制定的可以容纳世界上所有文字和字符的编码方案，分为多个平面，一般常用0号平面也叫基本多文种平面（Basic Multilingual Plane）即Ox0000-OxFFFF来表示一个字符（对于英文浪费了一个字节）。

UTF-8（最主流的编码方式）
UTF-8是Unicode的实现方式之一，是一种针对Unicode的可变长度字符编码，使用1-4个字节进行编码。

Unicode编号范围	码位数	UTF-8使用字节数	UTF-16使用字节数	二进制最大有效位数	转换为字节编码
00-7F	128	1	2	7	0xxxxxxx
80-7FF	1920	2	2	11	110xxxxx 10xxxxxx
800-FFFF	63488	3	2	16	1110xxxx 10xxxxxx 10xxxxxx
100000-10FFFF	1048576	4	4	21	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-16
可变长度字符编码，将字符编码成2字节或者4字节
UTF-32
固定长度的编码，始终占用4字节。

Windows平台的字符转换

头文件<tchar.h>作用就是为了进行ASCII码和UNICODE(wide-character)码的头文件（该头文件由微软提供）

L指令

字符串前面加L表示该字符串是Unicode字符串，可以将ANSI字符串转换为Unicode字符串，就是每个字符占2个字节。

strlen("abc") = 3;
strlen(L"abc") = 6;

_T()宏

_T(“”)是一个宏定义在tchar.h下。

_T()或者TEXT()宏，可以把引号括起来的字符串，根据环境选择合适的编码方式。

如果定义的是Unicode，那么_T(“abc”)就相当于L"abc"，也就是宽字符；
如果是多字节编码，那么英文采用单字节，汉字采用双字节；
在Unicode环境下，要求LPCWSTR的地方不可以给一个char*，而在多字节编码下可以。

比如

wchar_t Str[] = L"Hello World!";是双字节存储字符串，_T是与之适配的宏。

当有#ifdef _UNICODE的时候，_T()就是L；

当没有#ifdef _UNICODE的时候，_T()就是ANSI的。

MFC中CString

CString实际是CStringT，也就是模板类

在Unicode环境下，实际是CStringW

在多字符集环境下，实际是CStringA

GB2312与UTF-8的转换

	char* U2G(const char* utf8)
	{
		int len = MultiByteToWideChar(CP_UTF8, 0, utf8, -1, NULL, 0);
		wchar_t* wstr = new wchar_t[len + 1];
		memset(wstr, 0, len + 1);
		MultiByteToWideChar(CP_UTF8, 0, utf8, -1, wstr, len);
		len = WideCharToMultiByte(CP_ACP, 0, wstr, -1, NULL, 0, NULL, NULL);
		char* str = new char[len + 1];
		memset(str, 0, len + 1);
		WideCharToMultiByte(CP_ACP, 0, wstr, -1, str, len, NULL, NULL);
		if (wstr) delete[] wstr;
		return str;
	}

	char* G2U(const char* gb2312)
	{
		int len = MultiByteToWideChar(CP_ACP, 0, gb2312, -1, NULL, 0);
		wchar_t* wstr = new wchar_t[len + 1];
		memset(wstr, 0, len + 1);
		MultiByteToWideChar(CP_ACP, 0, gb2312, -1, wstr, len);
		len = WideCharToMultiByte(CP_UTF8, 0, wstr, -1, NULL, 0, NULL, NULL);
		char* str = new char[len + 1];
		memset(str, 0, len + 1);
		WideCharToMultiByte(CP_UTF8, 0, wstr, -1, str, len, NULL, NULL);
		if (wstr) delete[] wstr;
		return str;
	}

标签：编码,字节,字符,字符集,len,ANSI,wstr,NULL
From： https://blog.csdn.net/qq_39281631/article/details/141098322

通信编码揭秘：（二）信道编码（汉明码、循环冗余校验码、里德所罗门码）与其应用
通信编码揭秘：2.信道编码（汉明码、循环冗余校验码、里德所罗门码）与其应用摘要信道编码的目的是提高数据传输的可靠性，确保即使在噪声环境下传输的数据也能被正确接收。本文将探讨汉明码、循环冗余校验（CRC）和里德-所罗门码三种常见的信道编码方法，并通过实际例子说明它们的应用......
【C语言】字符函数和字符串函数
目录一、字符函数（1）字符分类函数（2）字符转换函数二、字符串函数（1）strlen①函数原型②注意事项③模拟实现函数（2）strcpy①函数原型②注意事项③模拟实现函数（3）strcat①函数原型②注意事项③模拟实现函数（4）strcmp①函数原型②模拟实现函数（5）strncpy①函......
C/C++数字与字符串互相转换
前言：在C/C++程序中，会需要把数字与字符串做出互相转换的操作，用于实现程序想要的效果。下面将介绍多种方法实现数字与字符串互相转换。字符串转为数字一、利用ASCII我们知道每个字符都有一个ASCII码，利用这一点可以将字符-'0'转为数字。在字母大小写转换时也可以利用这个性质......
如何用工具检查 ABAP 代码是否符合 Clean ABAP 编码规范
本文在ABAP系统里的操作截图，来自SAP社区博客，地址如下：https://community.sap.com/t5/application-development-blog-posts/how-to-enable-clean-code-checks-for-abap/ba-p/13544856https://community.sap.com/t5/technology-blogs-by-sap/clean-code-checks-for-aba......
transformer的位置编码具体是如何做的
VisionTransformer(ViT)位置编码VisionTransformer(ViT)位置编码1.生成位置编码对于每个图像块（patch），根据其位置生成一个对应的编码向量。假设每个图像块的嵌入向量维度为D，则位置编码的维度也是D。ViT通常使用可学习的绝对位置编码，这意味着这些位置编码是在训练过程......
熵编码(五)-CABAC(一) 基础篇
目录1.前言2.二进制算术编码3.CABAC编码原理分析3.1.自适应算术编码3.1.1.算法流程流程3.1.2.自适应3.1.3.码流输出(区间缩放)3.1.4自适应算术编码的计算复杂度及优化3.1.4.1自适应概率模型背景3.1.4.2.自适应概率模型设计3.1.4.2.1.自适应概率模型量化3.1.4.2.1.自适......
Java中字符串的常量池
计算机存储中存在一个堆区域，堆区域中存在一个常量池，当申请了字符串变量后，会将值放入常量池中，下次申请新的变量时，会优先从常量池中查找，如果常量池中已经存在，则变量会直接指向常量池中的值，从而节省空间（jdk1.8之后的字符串常量池存在于堆中） Stringx1="aaa";//在常量池......
常见字符串库函数的使用与模拟实现 #strlen #strcpy #strcat #strcmp#strstr #strto
文章目录前言路漫漫其修远兮，吾将上下而求索。在C语言之中，提供了字符类型，也有字符串的概念，但是却并没有字符串的类型。没有类型就不方便操作，于是乎就提供了一系列的字符串函数来支持对字符串的操作；一、求字符串长度strlen专门用来求字符串长度的函数size_t strl......
字符串逆序（递归实现）
题目内容：编写一个函数reverse_string（char*string）（逆序实现）实现：将参数字符串中的字符反向排列，不是逆序打印。要求：不能使用C函数库中的字符串操作函数比如：char[]="abcdef" 逆序之后是数组内容变成："fedcba";非函数：#include<stdio.h>intmain(){ ch......
C++ int32, int64 和十六进制字符串的转换
#include<iostream>#include<string>#include<cstring>//用于memset,strlen#include<algorithm>/***@brife:将一个int64数字转为十六进制字符串*@note:int64Value:0,hexStr:0000000000000000int64Value:-1,h......