首页 > 其他分享 >遍历utf-8编码下的所有汉字得出的个数是20901个,最终发现实际里面多数是不认识的,常用汉字也就几千个。

遍历utf-8编码下的所有汉字得出的个数是20901个,最终发现实际里面多数是不认识的,常用汉字也就几千个。

时间:2023-12-16 16:34:37浏览次数:33  
标签:几千个 编码 遍历 utf 20901 汉字

utf-8编码下的汉字个数是多少? 从正则表达式可以看出  4E00-9FA5

实用php遍历一下所有汉字

 1 <?php 
 2 //4E00-9FA5
 3 //输出所有汉字
 4 header('Content-Type: text/html;charset=utf8'); //非必要
 5 $start = hexdec('4e00'); // 等于 0x4e00; hexdec是 16进制转为10进制
 6 $end   = hexdec('9fa5');  // 等于 0x9fa5;  //
 7 $count=0; //统计个数
 8 for($i=$start; $i<$end; $i++) {
 9   // echo chr($i); //实测发现直接输出chr不可行
10    echo(json_decode('["\u'.dechex($i).'"]')[0]);
11    $count++;
12 }
13 echo ' =>共'.$count.'个';
14 ?>

最终结果是:

一丁丂七丄丅丆万丈三上下丌不与丏丐丑丒专且丕世丗丘丙业丛东丝丞丟丠両丢丣两严並丧丨丩个丫丬中丮丯丰丱串丳临丵丶丷丸丹为主丼丽举丿乀乁乂乃乄久乆乇么义乊之乌乍乎乏乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也习乡乢乣乤乥书乧乨...

鼶鼷鼸鼹鼺鼻鼼鼽鼾鼿齀齁齂齃齄齅齆齇齈齉齊齋齌齍齎齏齐齑齒齓齔齕齖齗齘齙齚齛齜齝齞齟齠齡齢齣齤齥齦齧齨齩齪齫齬齭齮齯齰齱齲齳齴齵齶齷齸齹齺齻齼齽齾齿龀龁龂龃龄龅龆龇龈龉龊龋龌龍龎龏龐龑龒龓龔龕龖龗龘龙龚龛龜龝龞龟龠龡龢龣龤 

 =>共20901个.

可以发现如果外国人学中文如果使用记所有汉字的方式是错误的,记住常用的几千个就可以了。反之学习英语也是如此,不需要学太多的单词,几千个常用的就足够了,剩下的就是熟练使用。

标签:几千个,编码,遍历,utf,20901,汉字
From: https://www.cnblogs.com/smxjue/p/17904982.html

相关文章

  • 解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd3 in position 238:
    解决UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0xd3inposition238:invalidcontinuationbyte在处理文本数据时,经常会遇到​​UnicodeDecodeError​​错误,特别是当使用​​utf-8​​编码读取文件时。这个错误通常表示文件中包含无法解码的字符,导致解码失败。在本......
  • 【异常】File encoding has not been set, using platform encoding UTF-8, i.e. buil
    From: https://www.cnblogs.com/duanxianyouyang/p/14679926.htmlFileencodinghasnotbeenset,usingplatformencodingUTF-8,i.e.buildisplatformdependent!Usingplatformencoding(UTF-8actually)tocopyfilteredresources,i.e.buildisplatformdepen......
  • C#正则表达式提取字符串中的汉字、数字
    转自:https://blog.csdn.net/m0_71654608/article/details/126541896一、提取字符串里的汉字 去掉字符串里的数字下划线1stringstr="你好_2022";2stringstr1=Regex.Replace(str,@"\d|\W|[A-Za-z]","");3Console.WriteLine(str1);输出结果:你好二、提取字符串里......
  • C# --UTF8字符串解码
    今天在调用一个接口的时候,中文一直乱码,当时就各种搜,,,{"TaskId":12732823,"HospitalId":4,"TaskNo":"42312120179","PatientName":"李丽琴","PatientLocation":"新院手术室||李丽琴"}只要是中文的我收到都是乱码,......
  • C++语言string、wstring、utf-8互转
    实现了一个CStrCvt类,采用STL实现,可跨平台。注意的是,在s2ws和ws2s函数中需要locale信息,在使用过程中,需要根据实际情况进行设置。如果有需要可以检测文本编码,网上有开源的第三方库,可供使用。不过,准确率需自己判断。为了不影响效率,此类默认按照中文处理。头文件classCStrCvt{pu......
  • Illegal mix of collations (utf8mb4_0900_ai_ci,IMPLICIT) MySql字符集及校对规则不
    查询时报错--用于解决报错>1267-Illegalmixofcollations(utf8mb4_0900_ai_ci,IMPLICIT)and(utf8mb4_general_ci,IMPLICIT)foroperation'='这个错误是由于在进行比较操作时涉及到不同的字符集和校对规则(collations)。涉及到了utf8mb4_0900_ai_ci和utf8mb4_general......
  • c#利用正则表达式获取字符串中汉字的个数
    利用正则表达式获取字符串中汉字的个数stringstr=@"D:\文档\C#BASE\StringBuilder.md";Regexregex=newRegex("^[\u4e00-\u9fa5]{0,}$");intcount=0;for(inti=0;i<str.Length;i++){count=regex.IsMatch(str[i].ToString())?++......
  • 使用PyUIC将.ui文件转换为.py文件时出现 <?xml version="1.0" encoding="UTF-8"?>
    弄好相应第三方库在Pycharm中的配置后,完成窗口界面后生成.ui文件使用PyUIC将.ui文件转换为.py文件时出现<?xmlversion="1.0"encoding="UTF-8"?>   ^SyntaxError:invalidsyntax查了网上方法没解决,最后将PyUIC配置的Program路径从python.exe改为pyuic5.exe,问题解决......
  • 深入了解汉字转拼音转换工具:原理与应用
    一、引言汉字作为世界上最古老、最具象形意的文字之一,承载了数千年的历史文明。然而,在现代信息技术环境下,汉字的输入、输出和检索等方面存在一定的局限性。拼音作为汉字的一种音标表达方式,能够有效地解决这些问题。本文将为您介绍一款汉字转拼音转换工具,帮助您更好地理解和应用......
  • unicode 与 utf-8 与 utf-16
    内容[[unicode]]是一个字符集,包含了几乎所有已知的字符[[utf8]]是一个编码规则,用于将[[unicode]]编码成可传输可发送的字节序列总结:最好还是使用utf8,因为一个兼容ascii就足够了。User:utf8与utf16有什么区别Assistant:UTF8与UTF16都是字符编码的标准,它们的区别......