首页 > 其他分享 >文本处理工具

文本处理工具

时间:2023-04-20 20:57:20浏览次数:36  
标签:文件 匹配 文本处理 命令 查找 搜索 内容 工具

文本处理工具

文件查找

在文件系统上查找符合条件的文件

文件查找:

非实时查找(数据库查找):locate

实时查找:find

locate命令用于按照名称快速搜索文件所对应的位置,语法格式为“locate文件名称”。

使用find命令进行全盘搜索虽然更准确,但是效率有点低。如果仅仅是想找一些常见的且又知道大概名称的文件,不如试试locate命令。在使用locate命令时,先使用updatedb命令生成一个索引库文件,这个库文件的名字是/var/lib/mlocate/mlocate.db,后续在使用locate命令搜索文件时就是在该库中进行查找操作,速度会快很多。

第一次使用locate命令之前,记得先执行updatedb命令来生成索引数据库,然后再进行查找

常用选项

-i 不区分大小写搜索

-n N 只列举前N个匹配的文件

-r 使用基本正则表达式

搜索名称或路径包含“conf”的文件

find命令

find命令用于按照指定条件来查找文件所对应的位置,语法格式为“find [查找范围] 寻找条件”。

本书中会多次提到“Linux系统中的一切都是文件”,接下来就要见证这句话的分量了。在Linux系统中,搜索工作一般都是通过find命令来完成的,它可以使用不同的文件特性作为寻找条件(如文件名、大小、修改时间、权限等信息),一旦匹配成功则默认将信息显示到屏幕。

head命令 – 显示文件开头的内容,head命令的功能是显示文件开头的内容,默认为前10行

语法格式:head [参数] 文件

常用参数: -n <数字> 定义显示行数

-c <数字> 指定显示头部内容的字符数

-v 总是显示文件名的头信息

-q 不显示文件名的头信息

tac命令 – 反向显示文件内容,tac命令的功能是用于反向显示文件内容,即常见的查看文件内容命令cat的反写形式,当我们使用tac命令查看文件内容时,最先显示的是最后一行,倒数第二行,倒数第三行,以此类推到最后显示原本文件的第一行内容。

语法格式:tac [参数] 文件

常用参数:

-b 在行前而非行尾添加分隔标志

-r 将分隔标志视作正则表达式来解析

-s 使用指定字符串代替换行作为分隔标志

--help 显示此帮助信息并退出

tr命令 – 字符转换工具;tr命令来自于英文单词transform的缩写,中文译为转换,其功能是用于字符转换。tr命令是一款批量字符转换、压缩、删除的文本工具,但仅能从标准输入中读取文本内容,需要与管道符或输入重定向操作符搭配使用。

语法格式:tr [参数] 字符串1 字符串2

常用参数:

-c 反选字符串1的补集(取反)

-d 删除字符串1中出现的所有字符

-s 删除所有重复出现的字符序列
uniq命令 – 去除文件中的重复内容行;uniq命令来自于英文单词unique的缩写,中文译为独特的、唯一的,其功能是用于去除文件中的重复内容行。uniq命令能够去除掉文件中相邻的重复内容行,如果两端相同内容中间夹杂了其他文本行,则需要先使用sort命令进行排序后再去重复,这样保留下来的内容就都是唯一的了。

语法格式:uniq [参数] 文件

常用参数:

-c 打印每行在文本中重复出现的次数

-d 每个重复纪录只出现一次

-u 只显示没有重复的纪录

grep命令 – 强大的文本搜索工具

通常将grep命令与正则表达式搭配使用,参数作为搜索过程中的补充或对输出结果的筛选,命令模式十分灵活。 与之容易混淆的是egrep命令和fgrep命令。如果把grep命令当作是标准搜索命令,那么egrep则是扩展搜索命令,等价于“grep -E”命令,支持扩展的正则表达式。而fgrep则是快速搜索命令,等价于“grep -F”命令,不支持正则表达式,直接按照字符串内容进行匹配。

语法格式: grep [参数] 文件名

常用参数:

-i 忽略大小写

-c 只输出匹配行的数量

-l 只列出符合匹配的文件名

-n 列出所有的匹配行并显示行号

-h 查询多文件时不显示文件名

-s 不显示没有匹配文本的错误信息

-v 显示不包含匹配文本的所有行

-w 匹配整词

-x 匹配整行

-r 递归搜索

-q 禁止输出任何结果

-b 显示匹配行距文件头部的偏移量

-o 显示匹配的词据文件头部的偏移量

-F 匹配固定字符串的内容

-E 支持扩展的正则表达式

标签:文件,匹配,文本处理,命令,查找,搜索,内容,工具
From: https://www.cnblogs.com/m490545607/p/17338272.html

相关文章

  • 让写作技能狂飙的5个工具,文笔不好的人快收藏
    记得刚出来上班的时候,我的写作效率很低,经常没有思路,也找不到选题。甚至一两个小时过去了,仍然不知道如何动笔,经常写了删,删了又写。工欲善其事,必先利其器。在写作过程中,需要一些工具,解决我们的写作问题。有人说,这不是“差生文具多”吗?其实并不然,在互联网时代,有些工具确实是很有必要的......
  • 软件安全测试担心效果不好?这3个安全测试工具你用了吗?
    其实在信息科技发展的初期,很多互联网公司就有意识到保护软件产品安全的重要性。但时至今日,我们还是经常能看到某某app软件泄露用户隐私信息,或遭受黑客攻击导致一些损失,其中不乏有一定市场地位的大厂。此类信息安全问题屡见不鲜,安全测试重要性不言而喻。软件安全测试要想获得更......
  • 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3
    知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3一、功能介绍1、代码文件夹结构2、运行环境3、自定义命名实体、关系模板4、导入文件5、选择自定义实体和关系文件6、文本标注7、撤销和取消标注8、导出和导出并退出系统9、导出文件后解析10、标注规范和KG规范11、系统提示......
  • 原型设计工具比较及实践
    目录一、原型设计工具比较1. 墨刀2. Axure3. Mockplus二、原型设计1.主题名称2.功能3.界面设计考虑因素4.切换界面1.搜索界面2.搜索结果界面3.商铺陈列页4.菜品页面五、界面切换流程一、原型设计工具比较1. 墨刀• 适用领域:适合设计团队和个人用户使用,可用于移动端和Web......
  • json字符串格式化工具
    publicclassJsonFormatTool{/***单位缩进字符串。*/privatestaticStringSPACE="";/***返回格式化JSON字符串。**@paramjson未格式化的JSON字符串。*@return格式化的JSON字符串。*/publicstat......
  • 构建树状结构工具类
    实体类@DatapublicclassTreeNode{/**节点ID*/privateIntegerid;/**父节点ID:顶级节点为0*/privateIntegerparentId;/**节点名称*/privateStringlabel;/**子节点*/privateList<TreeNode>children;/**......
  • 系统文件管理工具:Path Finder 中文激活版
    PathFinder是一款Mac平台上的文件管理和操作工具,提供了比Finder更丰富的功能和更直观的用户界面。它可以帮助用户更高效地浏览、复制、移动、删除和管理文件,以及进行各种高级操作。PathFinder的主要功能包括:-文件浏览:可以快速浏览文件夹、文件和磁盘,并支持多标签页和侧边栏视图......
  • SATI 文献题录信息统计分析工具
    SATI支持以下数据分析任务:   多种数据清洗工具:文献去重、词干提取、应用停用词、智能清洗等。   提取高频字段,并输出频次排名列表。   基于高频字段生成时间序列图,可输出下载时间序列数据。   构建高频字段共现矩阵,并输出Excel/TSV格式矩阵。   自动基于共现......
  • 低代码开发重要工具:jvs-logic(逻辑引擎)可视化设计要素
    逻辑引擎可视化的交互可视化的服务编排是逻辑引擎的核心功能,逻辑引擎的界面可视化设计是为了方便用户使用和操作逻辑引擎而设计的。一个好的界面设计能够提高用户的工作效率和使用体验,同时也能增加软件的可靠性和可维护性。以下是逻辑引擎界面可视化设计的一些要素:1.界面布局界面......
  • IE开发人员工具无法使用
    第一种情况:开发人员工具只在任务栏显示,桌面上看不到(我遇到的是这种情况,解决方法如下)将鼠标放在任务栏的开发者工具,出现缩略图,也就是任务栏上方的预览图,可以看到开发人员工具是显示一片透明的区域,选中之后怎么都出不来。这时将鼠标移到那个开发人员工具的缩略图上,注意,是缩略图,不是......