首页 > 其他分享 >GB 18030及生僻字治理

GB 18030及生僻字治理

时间:2024-10-10 10:24:40浏览次数:1  
标签:编码 UTF 字节 生僻字 字符集 汉字 字库 GB 18030

 

名词解释:

编码字符集 coded character set 一组无歧义的规则,用以建立一个字符集和该字符集中的字符及其编码表示之间的对应关系,通常 也指按照这种规则确定的文字的有序集合。 示例:1.GB 18030 是我国制订的以汉字为主并包含多种我国少数民族文字(例如藏、蒙古、傣、彝、朝鲜、维吾 尔文等)的大型中文编码字符集标准,业界对该标准的全字符集的技术实现一般称作 GB18030 编码,该编 码包含单字节字符、双字节字符、四字节字符,其中双字节字符编码的技术实现又称作 GBK 编码。 2.EBCDIC 是大型主机的 8 比特单字节或双字节编码字符集。 注:GB 18030(含空格)指《信息技术 中文编码字符集》标准;GB18030(无空格)指具体字符编码。 [来源:ISO/IEC 8859-1:1998,4.5,有修改]   字库 font library 建立在计算机存储媒体上的字形数据集合。 注:1.字库在存储方式上一般分硬字库、软字库。硬字库指预烧录在只读存储器等介质中且不能再更改的字库,软 字库指以文件形式存储在光盘或者硬盘上的字库。 2.字库一般以ttf、otf、ttc等字体格式文件的形式存在。ttf指True Type Font字体文件,otf指Open Type Font 字体文件,ttc指True Type Collection字体文件。 3.4 人口信息字库 font library of population information 户籍管理部门针对人口信息(人名、地名等)数据数字化而定制的字库(3.3),采用GB/T 13000 编码。 3.5 用户自定义区 private use area;PUA 未在通用编码字符集中指定,由私有规则决定字符用途的一系列码点,使用三个编码区块: U+E000~ U+F8FF、U+F0000~U+FFFFD、U+100000~U+10FFFD。 注:1.一般指人口信息字库中使用的PUA编码,在人口信息字库中,户籍管理部门对未收录进GB/T 13000但实际使 用的生僻汉字利用PUA编码予以补充,人口信息字库通过转换对照表提供编码转换解决方案。 2.人口信息字库中部分PUA编码字符陆续被通用编码字符集收录而拥有正式编码,会导致一个字符同时存在正 式编码和PUA编码,造成一字多码的情况。 [来源:GB 18030,3.3,有修改 ]   生僻字 rarely used Chinese characters GB/T 13000编码区间(U+4E00~U+9FA5,20,902字)之外的汉字。 注:1993年发布的GB 13000收录了U+4E00~U+9FA5共20,902个汉字,1995年发布的《汉字内码扩展规范》(以下简 称GBK)含21,003个汉字(增加了101个汉字及偏旁部首,包括 “䶮”“䴖”“䦅”等52个汉字),现已被GB 18030 代替;由于GBK字符集内的20,902个汉字已能被国内外绝大部分技术产品和国内的应用系统所支持,而其他的 汉字往往会遇到问题,故一般认为在20,902个汉字之外的汉字为生僻字。   3.7 通用编码字符集 universal coded character set 国际通用的多八位编码字符集。 注:1.通用编码字符集(UCS)标准由国际标准化组织(ISO)与国际电工委员会(IEC)制订,编号为ISO/IEC 10646, 最新版本为ISO/IEC 10646:2020。我国现行GB/T 13000—2010采标自ISO/IEC 10646:2003。 2.统一码(Unicode)是由统一码联盟依据UCS制定的可以容纳世界上所有文字和符号的编码字符集,Unicode 比UCS额外定义了与字符有关的语义符号学内容。 3.UCS将中国、日本、韩国等国使用的汉字通称为中日韩统一表意文字(CJK)。 4.CJK按编码区块分为基本集(URO)、扩充A~G、兼容区,急用汉字会在各编码区块末尾增补(见附录A.2)。 5.UCS在技术实现上,使用UTF-8、UTF-16、UTF-32三种编码方式对字符进行编码。UTF-8是一种以一个或多个8 位为单元的编码方式;UTF-16是一种以一个或两个16位为单元的编码方式;UTF-32是一种以一个32位为单 元的编码方式。16位以2字节表示,32位以四字节表示。对于多个字节的排列顺序,如果第一个字节是整数 二进制中的最高位字节,最后一个字节是整数二进制中的最低位字节,则该字节序称为“大端”(Big Endian, BE);如果第一个字节是整数二进制中的最低位字节,最后一个字节是整数二进制中的最高位字节,则该 字节序称为“小端”(Little Endian, LE)。UTF-16分UTF-16BE和UTF-16LE两种方式,UTF-32分UTF-32BE 和UTF-32LE两种方式。 6.本文件以U+XXXX或U+XXXXX表示UCS的一个码点或字符,如U+0000~U+FFFF称为基本多文种平面(BMP), U+20000~U+2FFFF称为辅助表意文字平面。  

4 缩略语

下列缩略语适用于本文件。 APP:移动应用程序(Mobile Application) ASCII:美国信息交换标准代码(American Standard Code for Information Interchange) ATM:自动柜员机(Automatic Teller Machine) BOM:字节顺序标记(Byte Order Mark) CCSID:编码字符集标识(Coded Character Set Identifier) CJK:中日韩统一表意文字(China, Japan and Korea unified ideographs) CTID:网络电子身份证(Cyber Trusted ID) EBCDIC:扩展二进制编码十进制交换码(Extended Binary Coded Decimal Interchange Code) FTP:文件传输协议(File Transfer Protocol) GDI:图形设备接口(Graphics Device Interface) HTML5:超文本标记语言第5版(HyperText Markup Language 5) JDK:Java语言开发工具(Java Development Kit) MFC:微软基础类库(Microsoft Foundation Classes) OCR:光学字符识别(Optical Character Recognition) PC:个人电脑(Personal Computer) PUA:用户自定义区(Private Use Area) SDK:软件开发工具(Software Development Kit) UCS:通用编码字符集(Universal Coded character Set) XML:可扩展标记语言(Extensible Markup Language)  

5.3 生僻字处理分级

本文件将生僻字处理分为以下三个级别。 a)基础级: ——CJK 基本集和扩充 A,其中包含 52 个 GBK 双码字。 ——《通用规范汉字表》全部汉字(含补字区、CJK 扩充 B~E 共 199 个字)。 ——人口信息字库 PUA 编码部分对应的正式编码汉字(含 CJK 扩充 B~G)。 b)实用级(包含基础级,增加实际在用汉字): ——CJK 扩充 B~G 中已知的人名、地名在用汉字。 ——人口信息字库 PUA 编码部分,虽有正式编码但仍在用 PUA 编码的汉字。 ——人口信息字库 PUA 编码部分,没有正式编码只能使用 PUA 编码的汉字。 c)完整级:UCS 收录的全部 CJK 汉字,包含实用级。        

标签:编码,UTF,字节,生僻字,字符集,汉字,字库,GB,18030
From: https://www.cnblogs.com/guanghuiqq/p/18455754

相关文章

  • 基于SpringBoot+MySQL+SSM+Vue.js的电影票信息管理系统(附论文)
    获取见最下方名片获取见最下方名片获取见最下方名片演示视频基于SpringBoot+MySQL+SSM+Vue.js的电影票信息管理系统(附论文)技术描述开发工具:Idea/Eclipse数据库:MySQLJar包仓库:Maven前端框架:Vue/ElementUI后端框架:Spring+SpringMVC+Mybatis+SpringBoot......
  • 基于SpringBoot+MySQL+SSM+Vue.js的二手家电管理系统(附论文)
    获取见最下方名片获取见最下方名片获取见最下方名片演示视频基于SpringBoot+MySQL+SSM+Vue.js的二手家电管理系统(附论文)技术描述开发工具:Idea/Eclipse数据库:MySQLJar包仓库:Maven前端框架:Vue/ElementUI后端框架:Spring+SpringMVC+Mybatis+SpringBoot文......
  • springboot+vue基于springboot的计算机考研交流平台【开题+程序+论文】
    系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展和高等教育的普及,计算机考研已成为众多学子追求深造的重要途径。然而,考研过程中,学生面临着信息获取不畅、学习资源分散、备考策略迷茫等问题。传统的考研辅导方式往往局限于线下课堂和纸质资料,难以满足学生个性......
  • springboot+vue基于O2O模式的外卖订餐系统【开题+程序+论文】
    系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展,人们的生活方式正经历着深刻的变革。特别是在餐饮领域,线上订餐已成为现代人日常生活的重要组成部分。近年来,O2O(OnlineToOffline)模式以其独特的线上线下融合优势,在外卖订餐行业中展现出巨大的发展潜力。传统......
  • springboot+vue基于javaweb电费管理系统【开题+程序+论文】
    系统程序文件列表开题报告内容研究背景随着信息化技术的飞速发展,各行各业的管理效率与服务质量均得到了显著提升。在电力行业中,电费管理作为其核心业务流程之一,直接关系到电力企业的运营效益与用户的满意度。传统的电费管理方式大多依赖于人工操作,不仅耗时费力,还容易出错,难......
  • springboot+vue基于SpringBoot的校园失物招领管理系统【开题+程序+论文】
    系统程序文件列表开题报告内容研究背景在当今信息化高速发展的社会,校园作为知识传播与人才培养的重要场所,其日常管理与服务效率直接关系到师生的生活质量与学习体验。然而,传统的失物招领方式往往依赖于公告栏、广播等媒介,信息传播范围有限且时效性差,导致大量失物难以迅速找......
  • Springboot 阿里云OSS对象存储
        Springboot阿里云OSS对象存储    OSSControllerpackagecom.wzb.OSSController20241009;importcom.aliyun.oss.ClientException;importcom.aliyun.oss.OSS;importcom.aliyun.oss.OSSClientBuilder;importcom.aliyun.oss.OSSException;import......
  • 黑马毕设分享《基于springboot招生管理系统》(源码+lw+部署文档+讲解等)
    文章目录1.前言黑马设计——专注大学生的项目实战开发,免费讲解,毕业答疑辅导黑马设计工作室简介:黑马设计是一家专注大学生的项目实战开发,免费讲解,毕业答疑辅导的工作室✅,创始人是硕士毕业于华南理工大学,工科专业,目前团队成员全职+兼职上百余人,运营线上店铺2家,与B站(IT实战,黑......
  • 黑马毕设分享《基于springboot学生综合测评系统》(源码+lw+部署文档+讲解等)
     文章目录1.前言黑马设计——专注大学生的项目实战开发,免费讲解,毕业答疑辅导黑马设计工作室简介:黑马设计是一家专注大学生的项目实战开发,免费讲解,毕业答疑辅导的工作室✅,创始人是硕士毕业于华南理工大学,工科专业,目前团队成员全职+兼职上百余人,运营线上店铺2家,与B站(IT实战......
  • [SpringBoot] 苍穹外卖--面试题总结--上
    前言     1--苍穹外卖-SpringBoot项目介绍及环境搭建详解-CSDN博客2--苍穹外卖-SpringBoot项目中员工管理详解(一)-CSDN博客3--苍穹外卖-SpringBoot项目中员工管理详解(二)-CSDN博客4--苍穹外码-SpringBoot项目中分类管理详解-CSDN博客5--苍穹外卖-SpringBoot项目......