首页 > 编程语言 >知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

时间:2023-04-20 17:42:16浏览次数:39  
标签:关系 文件 图谱 实体 导出 文本 Python3 标注



知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

  • 一、功能介绍
  • 1、代码文件夹结构
  • 2、运行环境
  • 3、自定义命名实体、关系模板
  • 4、导入文件
  • 5、选择自定义实体和关系文件
  • 6、文本标注
  • 7、撤销和取消标注
  • 8、导出和导出并退出系统
  • 9、导出文件后解析
  • 10、标注规范和KG规范
  • 11、系统提示
  • 二、优点与未来工作
  • 三、标注软件获取方式
  • 致谢


一、功能介绍

你好! 这是一款实体关系联合标注的本地小程序,以知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python 实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_02编程实现可视化界面和主要功能,利用知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_03知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_04提示标注教程与规范(无需关心它们如何实现)。

利用本系统进行文本标注将原始段落文本更新为带有事先定义的命名实体、关系或属性的文本标签数据。通过自动分配快捷键、背景色将不同实体在文本中进行区分,并生成固定格式文本呈现在标注界面。选中固定符号,将实体对之间标注关系,自动生成关系序号、关系类别以及头尾实体序号。执行导出生成一对一的文本和标签结果,通过格式化、撤销、取消标注等功能实现标注的更新。本系统帮助自然语言处理的标注专家对文本中实体或实体关系进行提取,导出结果用作机器训练、知识图谱构建等方向。

主要功能: 主要功能实现文本命名实体标注、实体间关系标注。

  1. 文本标注:用户根据提前约定的命名实体、关系属性标注规范,对导入的段落文本进行标注,主要通过背景色、快捷键以及自定义特殊符号组合形成文本的命名实体标注与区别。通过选中固定符号,标注实体间关系,系统自动更新标注的关系类别等信息。
  2. 撤销、取消标注:点击撤销按钮可实现操作回滚,返回到上一状态。也可以通过选中已经标注的实体、关系进行取消标注,系统会删除段中特殊符号。
  3. 格式化:导入文件之后,通过格式化文本,清除文本中多余的空行空格等冗余无效字符。
  4. 导出文件:导出文件即可以将用户标注的段落文本,解析生成文本与标签一对一的结果文件,存储在用户读取文本同一目录下。

1、代码文件夹结构

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_05

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_06文件夹中,有知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_07知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_08知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_09三个文件夹,并且有知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_10知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_11知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_12知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_13知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_14 共5个知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_02代码文件。

  1. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_16文件中,是用以自定义命名实体、关系的文件,你可以使用文本文件方式打开,并自定义命名实体类别、关系。(自定义实体、关系,除了知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_16文件夹,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18也需要修改)
  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_19文件夹中,是一些图片文件,无需关心。
  3. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_20文件夹中,除了用作渲染颜色的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_21文件外,还存有一些知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_22知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_23文件(即使你完全不了解它们也不影响你正常使用)。
  4. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18是主文件,你只需要运行它,就可以立即开始标注工作。
  5. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_25是一个登录窗口,和知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18分离,如果你对它不感兴趣,也可以将它删除,即不登陆直接开始标注工作。
  6. 如果你希望尝试先登录,再标注的流程,那么你将用到知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_27。执行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_27,会生成一个注册码,凭借注册码,可以在知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_25注册你的信息(本地模拟),程序会自动跳转到知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18主文件。
  7. 注意,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_25知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_27两个文件是非必要的,你可以直接运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18开始你的工作。

2、运行环境

本系统通过知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_34知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_35 开发。在运行代码之前,你需要检查你的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_02本地环境是否具备下面这些工具,其中一些必备 python科学库

# Windows python3.7
ast、tkinter、platform、collections、json、re、time、PIL、webbrowser、os、sys、datetime;

3、自定义命名实体、关系模板

自定义命名实体、关系,则需要在两处修改。第1处是 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_07文件夹、第2处是知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_10文件中。

  1. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_39文件夹中,包含知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_40知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_41两个文件,通过文本文件的方式即可打开。
  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_42

  3. 例如知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_40中,存储了命名实体字典,键为键盘上的快捷键,值为具体的命名实体。比如选中一段文本,按下键盘上的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_44即可将选中的文本标注为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_45这种实体。知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_41中,自定义关系,与之类似。
  4. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_47

  5. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_48文件中,构造两个字典知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_49,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_50,分别表示键盘快捷键到命名实体,命名实体英文简写到键盘快捷键两个映射。
  6. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_51

  7. 通过上面两个步骤的成功修改,即可将本工具用作你自己的本地化任务。(你可以尝试在这里将两个步骤并为一个步骤)

4、导入文件

  1. 运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18主文件,自动弹出下方所示的主界面,即可开始标注工作。
  2. 进入主页面后点击右上方红色打开文件,选择待标注的文本文件(文件格式,后缀为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_53知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_54知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_55最为适宜)。导入文件后,会常驻提示去读文本所在的本地位置、提示当前键盘应当处于英文大写状态、导入文件状态、以及当前光标所处的文本段落位置。

5、选择自定义实体和关系文件

  1. 在主页面右侧选择模板中,点击选实体下拉框选择提前自定义的命名实体文件,点击选关系下拉框选择提前自定义的关系文件。这样的设计可以方便你进行多个标注任务。
  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_56


  3. 如果读取的文件中有很多无效的空行空格等情况,点击右侧菜单栏的“格式化”,清理读取文本格式,方便后续标注。
  4. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_57


  5. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_58


6、文本标注

  1. 成功导入文本、选取实体和关系文件后,即可开始标注。保持键盘处于大写状态,用鼠标选中待标注的实体,在键盘上点击右侧菜单栏默认分配的快捷键即可完成实体的标注。无需把所有实体都标注完成后再标注关系,可以实体与关系交替标注。(显然,结合你标注任务的需要,可以只标注实体,不标注关系)。简言之,选中文本,按下键盘快捷键,界面自动渲染颜色和标注类别,并生成一个同心圆。 同心圆是为了方便两个实体之间标注关系。
  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_59


  3. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_60


  4. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_61


  5. 通过选中固定的特殊符号(同心圆),按下快捷键,即可标注关系。标注关系时,系统会自动的为每个关系分配关系的序号、关系的类别、头尾实体信息。建议标注两个命名实体之后,紧接着标注两者关系。系统会自动生成标记信息,例如对“碘过量”这个实体标注关系知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_62、对“碘缺乏”这个实体标注关系知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_63知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_62它表示第7对关系,关系类别为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_65的1(头)实体, 解码时,它会自动去寻找知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_63 的2(尾)实体。
  6. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_67


7、撤销和取消标注

在标注过程中,如果需要返回到上一步或者返回之前多步,可以点击右侧菜单栏的“撤销”,即可撤销。如果在标注完成后,发现需要取消标注某一实体或者关系,需要用鼠标选中待取消标注段,键入快捷键,即可取消标注,防止格式错误,取消标注后剩余文本将固定在原始位置。

选中文本

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_68


选择撤销

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_69

8、导出和导出并退出系统

点击 导出 即可将标注文件导出到本地,导出的内容样式即当前页面所看见的样式(并没有解析为三元组后再导出,因为这样可以方便下次继续标注),文件存储的位置和导入文件位置在同一目录下。也可以选择“导出并退出系统”即可导出文件并且退出系统,导出的文件会以读取文件名+用户信息+导出时间三者整体作为文件名保存在本地。如果无需导出文件直接退出,点击右上侧系统关闭按钮,会提示保存文件,即可退出系统。

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_70


知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_71

9、导出文件后解析

  1. 直接导出的文件格式是没有解析的,原因在于不解析,可以方便下次继续标注,即导出文件后,再打开导出的文件继续标注(下次打开时,关系标签会重新标号,这不影响正常使用,因为在解析时,标签会匹配最近的一个符合规则的标签),另外一个原因在于,解析部分的工作也是私有化的,不同的知识图谱标注任务有不同的需求,模块化方便后续任务。为了便于理解,这里将知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18导出的标注文件取名为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_73文件。
    这是直接导出的文件-A
  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_74


  3. 运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_75文件,读入知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_18导出的标注文件知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_73,将其转换成下面这种格式的文件知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_78,类似于知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_79标注工具的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_54文件。知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_78文件中,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_75将每一段文字,都打上了标签。
  4. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_83


  5. 为什么不直接转换成适合下游任务的一对一标签形式呢?因为在上一个步骤中,可以手动的或者通过编程规则化的修正一些文本和标签。例如,类别为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_84的文本太多了,或者重复内容太多了,那么就可以删除,倘若转换成一对一的标签形式后再处理,将会增加一些不必要难度。
    运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_85文件,读入知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_75生成的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_78文件,最终将其转换为一对一适合下游任务的文件知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_88。(知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_85实现的是实体关系联合抽取标注,你可以调整代码,以适应你自己的图谱工作,它很容易实现)。同时,会导出五元组知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_90文件(建议通过知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_91或者记事本打开),在知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_90文件中,会显头实体、头实体类别、头尾实体间关系、尾实体类别、尾实体。

自动生成五元组表格,方便快速导入知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_93图库、知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_94知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_人工智能_95结构化数据库。

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_96

生成的一对一适合下游任务标签。(你可以更改知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_python_97, 以调整标签生成规则)

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_98

10、标注规范和KG规范

在标注过程中,如果需要查看标注教程、KG规范和标注规范,点击右侧菜单栏按钮,即可自动打开HTML网页查看信息。由于涉及到知识成果,文件夹中的 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_99 以及 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_100 我会提供空白文件,但不会影响到你正常使用。

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_自定义_101

11、系统提示

如果键入了无效快捷键或者未选中文本,系统右上侧会提示当前状态。例如:未选中文本、无效快捷键、导入成功、导出失败、配置信息有误等。当原始文本为PDF、图片、表格等形式存在,需要通过自定义转换器转换成文本文档,再进一步通过上面步骤进行标注。

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3_知识图谱_102

二、优点与未来工作
  1. 本项目使用特殊格式符号和背景色标注段落文本中的实体与关系,使用正则解析标注结果,相比一般的标注软件增加了标注实体间关系的功能以及撤销、取消标注功能。相比大型的标注平台,本项目中软件具有操作简便直接、使用门槛低等优点。
  2. 未来可以实现一键标注功能,即选中一个实体,即可将全篇同名实体全部标注。未来还可以将其通过网页形式部署,显然这也会涉及到用户信息的问题。


标签:关系,文件,图谱,实体,导出,文本,Python3,标注
From: https://blog.51cto.com/guog/6210007

相关文章

  • python3 猜数字小游戏
    Guess_the_Number.pyimportrandom......
  • 电解电容标注的 100WV 是什么意思?
    电解电容标注的100WV是什么意思?如上显示,一般显示100V,但是这个电解电容却是标注为100WV。这是什么意思呢?100万V?错!大错特错。WV是电解电容器标注电压的单位,它表示电容器的额定电压值。在电子电路中,电容器的额定电压是非常重要的参数,因为它决定了电容可以承受的最大电压值。......
  • 简单的python3脚本:从日志中提取信息
    命名:log_extractor.pyordownload_stats_extractor.py#coding:utf-8#!/usr/bin/python3deffilter_line(line,contains,contains_not):ifall(cinlineforcincontains)andnotany(ninlinefornincontains_not):ifint(line.split()[8])==2......
  • Mac Os Python3安装与配置
    1.安装 使用brew命令安装,未安装Homebrew,详见官网安装方法 https://brew.sh/brewinstallpython3安装好后配置环境变量exportPATH=/Library/Frameworks/Python.framework/Versions/3.9/bin:$PATH测试安装是否成功python3--versionPytho......
  • 【获奖案例巡展】信创先锋之星——中信证券基于国产图数据库构建企业图谱的应用实践
    为表彰使用大数据、人工智能等基础软件为企业、行业或世界做出杰出贡献和巨大创新的标杆项目,星环科技自2021年推出了“新科技星力量”星环科技科技实践案例评选活动,旨在为各行业提供更多的优秀产品案例,彰显技术改变世界的力量,目前已成功举办两届,收到了来自各界的积极参与。 ......
  • python3路径
    (1)在windows中,有效路径为:c:d:/e:\e:\gite:/git转为e:\git不能双写\\或者//(2)python中os.listdir(pa)如果是直接调用,参数pa=”i:”,获取的就是i:下的子文件或子目录而通过pyqt调用,参数pa=”i:”,居然获取的是当前运行py所在目录的子文件和子目录。这时,需要使调用参数pa为......
  • Python3 列表生成式和最近刷题遇到问题
    python3创建二维数组需要用到列表生成式列表生成式即ListComprehensions,是Python内置的非常简单却强大的可以用来创建list的生成式。举个例子,要生成list [1,2,3,4,5,6,7,8,9,10]可以用list(range(1,11)):>>>list(range(1,11))[1,2,3,4,5,6,7,8,9,10]......
  • python3-list
    1、介绍builtins.py文件中定义了list类,用于处理python中列表数据。list也是python的基本数据类型之一。列表是单列的元素集合,用[]包围,内部元素之间用,分隔列表的元素可以是任意类型,且某一列表中可以同时包含不同类型列表支持元素的增删改列表支持数值索引元素不会进行默认......
  • python3-tuple
    1、介绍builtins.py文件中定义了tuple类,用于处理python中元组数据。tuple也是python的基本数据类型之一。元组是单列的元素集合,用()包围,内部元素之间用,分隔元组的元素可以是任意类型,且某一元组中可以同时包含不同类型元组定义后不支持对容量和元素的修改元组支持数值索引......
  • python3-set
    1、介绍builtins.py文件中定义了set类,用于处理python中集合数据。set也是python的基本数据类型之一。集合是单列的元素集合,用{}包围,内部元素之间用,分隔集合的元素可以是任意类型,且某一集合中可以同时包含不同类型集合定义后可以进行增删改集合不支持数值索引set是无序集......