首页 > 其他分享 >文本标注技术方案(NLP标注工具)

文本标注技术方案(NLP标注工具)

时间:2023-08-29 17:57:09浏览次数:36  
标签:NLP github 注释 https 文本 com 标注

Doccano

doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。

支持命名实体识别,情感分类,机器翻译任务,界面比较友好。

技术方案

前端:vue2 + nuxt

后端:python

技术难点

  1. 标注工具编辑器部分组件

功能:

  • 支持标注 Label
  • 支持关系 Relation

开源组件:

 <v-annotator
      :dark="$vuetify.theme.dark"
      :rtl="rtl"
      :text="text" //文本内容
      :entities="entities" // 注解内容
      :entity-labels="entityLabels" // 注解标签
      :relations="relations"// 关系内容
      :relation-labels="relationLabels" // 关系标签
      :allow-overlapping="allowOverlapping"
      :grapheme-mode="graphemeMode"
      :selected-entities="selectedEntities"
      @add:entity="handleAddEvent" // 添加注解内容
      @click:entity="onEntityClicked"  // 点击注解
      @click:relation="onRelationClicked" // 点击关系
        @addRelation="addRelation" // 添加 关系
      @contextmenu:entity="deleteEntity" // 右键菜单点击
      @contextmenu:relation="deleteRelation" // 右键菜单点击
    />

 <entity-editor
                :dark="$vuetify.theme.dark"
                :rtl="rtl"
                :text="currentDoc.text"
                :entities="currentDoc.annotations"
                :entity-labels="entityLabels"
                :relations="relations"
                :relation-labels="relationLabels"
                :allow-overlapping="allowOverlapping"
                @addEntity="addEntity"
                @click:entity="updateEntity"
                @contextmenu:entity="deleteEntity"
                @contextmenu:relation="deleteRelation"
              />
  • react 组件

https://github.com/microsoft/react-text-annotator

当前看 v-annotator 是 doccanno 封装的一个组件,react 这个组件要分析一下是不是支持当前的特性

代码如下:

import {AnnotationData, Labeler} from 'react-text-annotator'

const HomePage: React.FC = () => {
  const annotations: AnnotationData[] = [
    {
        id: 'id1',
        color: 'red',
        endToken: 5,
        startToken: 0,
        name: 'label111111',
        kind: 'label',
        onClick:(e) => {
          console.log(e);
        },
        level: 1,// 设置层级
        onRenderTooltip: (e) =><>label111111</>
    },{
      id: 'id1',
      color: 'green',
      endToken: 5,
      startToken: 1,
      name: 'label222222',
      kind: 'label',
      onRenderTooltip: (e) =><>label222222</>
  },
    {
        id: 'id2',
        color: 'blue',
        endToken: 25,
        startToken: 10,
        name: 'relation',
        kind: 'relation',
        
    }
];

const labelerText = 'This is sample text to test the labeler functionality.';


return <>
  <Labeler text={labelerText} annotations={annotations} labelerConfigs={{ isAnnotationResizingEnabled: true,isRtl: false, tokenizationType: 'character' }} 
    labelerOverflow={'scroll'}
    labelerHeight={"100px"}
  />
</>;
};

export default HomePage;

下面的了解即可

YEDDA:(2016)(python)

优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现。最大标签数8,界面也还过的去。

YEDDA(以前的 SUTDAnnotator)是为在文本(几乎所有语言,包括英语、中文)、符号甚至表情符号上注释块/实体/事件而开发的。它支持快捷注释,对于手动注释文本非常有效。用户只需选择文本范围并按快捷键,该范围就会自动注释。它还支持命令注释模型,可以批量注释多个实体,并支持将注释文本导出为序列文本。此外,更新版本还增加了智能推荐和管理员分析。它兼容所有主流操作系统,包括Windows、Linux和MacOS。

https://github.com/jiesutd/YEDDA

python

Prodigy(2017):

Prodigy 是一种现代注释工具, 用于为机器学习模型创建训练和评估数据。您还可以使用 Prodigy 来帮助您检查和清理数据、进行错误分析以及开发基于规则的系统以与统计模型结合使用。

https://prodi.gy/docs/

Python library

Chinese-Annotator:(2017)

基于prodigy的中文标注工具

https://github.com/deepwel/Chinese-Annotator

demo:https://demo.prodi.gy/?=null&view_id=textcat

技术方案:

  • vue2 element
  • Python

Brat:(2010)

支持实体、关系、事件抽取的标注。可以标注情感。

优点在标注实体的同时可以进行关系标注,还可以实现二级标注。

brat rapid annotation tool

GitHub - nlplab/brat: brat rapid annotation tool (brat) - for all your textual annotation needs

技术方案

  • jq
  • Python

IEPY

主要用来信息抽取和关系抽取任务

https://github.com/machinalis/iepy

DeepDive

主要用来关系抽取任务,17就停止更新了

http://deepdive.stanford.edu/#documentation

个人小结

大致可以选用Brat,Doccano,YEDDA,Prodigy试一下,选用Brat是因为有现成的中文情感标注,还有Brat有关系标注,选用Doccano是它的页面很友好,而且可添加的标签数也比较多,选用YEDDA是它完全用Python桌面开发且支持中文,选用Prodigy是因为支持标注的功能最全。

中文分词工具(分词工具有的也可以做命名实体识别和词性标注,可以去看看)

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

结巴分词 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analy

标签:NLP,github,注释,https,文本,com,标注
From: https://www.cnblogs.com/yiyi17/p/17665506.html

相关文章

  • 工作流添加语音转文本节点
    工作流开源版本没有语音转文本节点现添加语音转文本节点使用科大讯飞语音转写功能,科大讯飞语音输出文本参考:https://www.cnblogs.com/minseo/p/17656234.html......
  • 坐标文本转图片
    坐标文本格式类似101112341155#脚本文件importmatplotlib.pyplotaspltimportnumpyasnpx=[]y=[]withopen('message.txt','r')asf:datas=f.readlines()fordataindatas:arr=data.split('')x.app......
  • nlp 特殊标记符
    BERT模型中的特殊标记(SpecialTokens)。它们的含义如下:[PAD]:在batch中对齐序列长度时,用[PAD]进行填充以使所有序列长度相同。可以通过将其添加到较短的序列末尾来实现对齐。[CLS]:在输入序列的开头添加[CLS]标记,以表示该序列的分类结果。[SEP]:用于分隔两个句子,例如在文本分类问......
  • matplotlib中修改文本属性
    Text对象在matplotlib中,文字的设置(例如字体、字号、样式等)是通过Text对象来控制的。Text对象在matplotlib中表示文本实体。允许访问和修改文本属性的函数。1.title和set_title:设置图形或轴的标题。title_obj=plt.title('MainTitle')title_obj=ax.set_title('AxesTi......
  • 带你上手基于Pytorch和Transformers的中文NLP训练框架
    本文分享自华为云社区《全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据》,作者:汀丶。1.简介目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生......
  • Linux将执行命令结果输出到文本文件
    参考1参考2Linux将执行命令结果输出到文本文件一、把命令运行的结果保存到文件当中:用>把输出转向就可以了例子:$ls>ls.txt#或者ls-->ls.txt#把ls命令的运行结果保存到文件ls.txt中说明:'>'是把输出转向到指定的文件,如文件已存在的话也会重新写入,文件原内容......
  • MFC-GetDlgItemText获取指定控件的文本
     TCHARname[256];HWNDhWnd=GetSafeHwnd();intn=::GetDlgItemText(hWnd,IDC_STATIC1,name,254);/*参数1:窗口句柄参数2:控件ID参数3:LPTSTRlpStr,//保存获取的文本的缓冲区参数4:nMaxCount指定了要拷贝到lpStr的字符串的最大......
  • 基本经典的NLP书籍
    以下是几本经典的自然语言处理(NLP)书籍:"SpeechandLanguageProcessing:AnIntroductiontoNaturalLanguageProcessing,ComputationalLinguistics,andSpeechRecognition"byDanielJurafskyandJamesH.Martin-这是一本广泛使用的教材,介绍了自然语言处理的基本概......
  • Unity 写入本地文本文件
    voidStart(){WriteLocalFile("E:\\Test.txt","唯一能赢我的人叫做,我从来没听说过,另一个叫做,我想想,哎,节目效果");}///<summary>///写入本地文件txt,json等文件///</summary>///<paramname="path">路径</param>///<paramname=......
  • 【Land of Lisp】一次练习:巫师文本冒险游戏
    绪论CommonLisp是一门多范式语言,支持多种编程模式,包括面向对象编程、函数式编程。但CommonLisp鼓励函数式编程,并且包含有许多函数式编程相关的功能。《LandofLisp》是一本寓教于乐的学习Lisp语法的书籍。这本书配以漫画插图来进行表达,并且将小游戏的制作作为演示和练习实例......