首页 > 其他分享 >第六章 字符串

第六章 字符串

时间:2024-03-01 15:47:48浏览次数:14  
标签:编码 jieba 字符 text 查询 字符串 第六章

第6章 字符串

一、字符编码格式

最早字符串编码:ASCII

GB2312-1980:中国定制的中文编码,1个字节兼容ASCII,2个字节表示中文

GBK:是GB2312-1980的扩充

CP936:是微软在GBK上扩充

UTF8:1个字节兼容ASCII,3个字节表示汉字

二、转义字符与原始字符串

转义字符 含义 转义字符 含义
\b 退格 \\ 斜线
\f 换页符 \' 单引号
\n 换行符 \" 双引号
\r 回车 \ooo 3位8进制字符
\t 水平制表符 \xhh 2位16进制字符
\v 垂直制表符 \uhhhh 4位16进制字符

三、常用方法和操作

序号 功能 方法明细 举例
1 格式化 format()
2 编码、解码 encode(),decode()
3 查询、统计 find(),查询首次出现位置
rfind(),查询最后一次出现位置
index(),查询最后一次出现位置
rindex(),查询首次出现位置
count()查询出现次数
4 分列 split(),从左往右根据分隔符进行分割
rsplit()从右往左根据分隔符进行分割
5 连接 join()
6 大小写转换 lower(),小写
upper(),大写
capitalize(),字符串首字母大写
title(),单词首字母大写
swapcase()大小写互换
7 替换 replace(),
maketrans()
translate()
8 删除 strip()两端删除
rstrip()右端删除
lstrip()左端删除
9 指定字符开始或结尾 startswith()
endswith()
10 是否为字母,数字等 isalnum()
isalpha()
isdigit()
isspace()
isupper()
islower()
11 排版 center()
ljust()
rjust()
12 运算 +拼接
*复制多份
in判断是否存在
%格式化
13 内置函数 ord()查看单字符Unicode编码
chr()查看Unicode编码对应的字符
14 切片 [::-1]翻转文字
[:8]前8个字符
15 压缩与解压 zlib.compress(text)压缩
zlib.decompress(y).decode()解压

四、拼音与分词

>>> import jieba
>>> text="我是一个优秀的工程师"
>>> jieba.lcut(text)
['我','是','一个','优秀','的','工程师']

1、分词:

扩展库jieba和snownlp支持中英文分词

jieba.lcut(text)
snownlp.SnowNLP(text).words

2、拼音处理

扩展库pypinyin支持汉语到拼音的转换

pypinyin.lazy_pinyin(text)

pypinyin.lazy_pinyin(text,1)带声调

五、应用

统计一段文字出现次数最多的6个词

from collections import Counter
from jieba import lcut

text='''红黄蓝绿,绿黄蓝红,蓝黄绿红,红绿蓝黄。六只小刺猬,绕着细绳转,转啊转,绕啊绕,刺猬疯了绕不停。三十三只燕子,三三两两排成行,翅膀一扇,飞向远方。七只鹅,高高盘旋在蓝天,呱呱呱,鹅儿飞翔快乐又安康。'''
words=lcut(text)
fre=Counter(words)
print(fre.most_common(6))

[(',', 13), ('。', 4), ('绕', 4), ('转', 3), ('绿', 2), ('刺猬', 2)]

标签:编码,jieba,字符,text,查询,字符串,第六章
From: https://www.cnblogs.com/tihumenjiang/p/18047224

相关文章

  • 541. 反转字符串 II
    voidreversestring(char*s,inthead,inttail){while(head<=tail){chartemp=s[head];s[head]=s[tail];s[tail]=temp;head++;tail--;}}char*reverseStr(char*s,intk){intns=0;while(s......
  • 程序是怎样跑起来的第六章读书笔记
    第六章的主题是文件的压缩通过询问读者为什么文件可以压缩来展开文件压缩机制的讲解6.1我们可以了解到,文件是以字节为单位的保存,每个字节可以表示一个字符、一个数字或其他类型的数据。在文件系统中,文件的大小通常以字节为单位来衡量。通过对字节的读取和写入计算机可以实现对文件......
  • 掌握字符与字符串:C语言中的神奇函数解析(三)
    ✨✨欢迎大家来到贝蒂大讲堂✨✨......
  • 期初单据打不开(等等其他地方),只要报错:从字符串转换日期/或者时间时,转换失败。那么说明
    期初单据打不开(等等其他地方),只要报错:从字符串转换日期/或者时间时,转换失败。那么说明服务器的时间格式不正确解决方案,步骤:  1、打开注册表,修改注册表里面的时间格式,修改完后重启一下电脑1)按下Win+R快捷键,打开运行对话框。在运行对话框中输入regedit回车2)按下图设置值,设......
  • Rust的Display和ToString:将对象转换为字符串
    在写代码的时候,我们经常需要将对象输出到屏幕上,或者转换为字符串;在Python中,我们可以为类型定义魔法函数__str__,print和str()都会调用它;在C++中,我们可以为对象重载ostream&operator<<(ostream&os)函数,使用ostringstream、fstream和cout的时候会调用它。在Rust中该实现什么,想必大......
  • 程序是怎么跑起来的第六章读书笔记
    第六章:进程和线程1.进程:进程是计算机中程序的执行实例。每个进程都有自己的内存空间和系统资源(如文件描述符),相互之间互不干扰。操作系统负责在进程之间切换,并确保每个进程都得到足够的CPU时间。2.线程:线程是进程中的一个执行路径。与进程相比,线程共享同一个地址空间和系统资......
  • 《程序是怎样跑起来》第六章读后感
    通过阅读第六章,我们和作者深入了解和探究了核心机制,包括程序的编译与执行过程、操作系统的角色以及内存管理等关键概念。这一章节不仅介绍了这些概念的理论基础,还通过具体的例子和类比,帮助我们更好地理解程序是如何在计算机中运行的。在这一章所讲述的程序运行机制对我启发很大。......
  • 代码随想录算法训练营day09 | leetcode 28. 找出字符串中第一个匹配项的下标、459. 重
    目录题目链接:28.找出字符串中第一个匹配项的下标-简单题目链接:459.重复的子字符串-简单题目链接:28.找出字符串中第一个匹配项的下标-简单题目描述:给你两个字符串haystack和needle,请你在haystack字符串中找出needle字符串的第一个匹配项的下标(下标从0开始)。如果ne......
  • 阅读《程序是怎样运行的》第六章
    第六章主要讲亲自尝试压缩数据。首先文件存储的基本单位是1字节(=8位),文件是字节数据的集合体;其次LZH是压缩文件的扩展名,例如,AAABB这个数据压缩后就是A3B2。然后,文件内容用“数据的值*循环次数”来表示的压缩方法是RLE算法。例如,AAABB这个数据压缩后就是A3B2。;接下来在Windows计算机......
  • 阅读《程序是怎样运行的》第六章
    第六章主要讲亲自尝试压缩数据。首先文件存储的基本单位是1字节(=8位),文件是字节数据的集合体;其次LZH是压缩文件的扩展名,例如,AAABB这个数据压缩后就是A3B2。然后,文件内容用“数据的值*循环次数”来表示的压缩方法是RLE算法。例如,AAABB这个数据压缩后就是A3B2。;接下来在Windows计算机......