首页 > 其他分享 >使用doccano标注NER数据详细教程

使用doccano标注NER数据详细教程

时间:2024-10-12 10:48:07浏览次数:7  
标签:教程 ADMIN 标签 doccano 点击 按钮 NER 标注

使用doccano标注NER数据详细教程

说明:

  • 首次发表日期:2024-10-12
  • 参考资料:
    • https://github.com/zjunlp/DeepKE/blob/main/README_TAG_CN.md
    • https://doccano.github.io/doccano/tutorial/
    • https://blog.csdn.net/GongYangXianShen/article/details/137270106 (转换为BIO格式)

部署doccano

https://github.com/doccano/doccano 有说明如何部署。比如使用Docker部署:

docker run --name doccano \
  -d --restart always \
  -e "ADMIN_USERNAME=admin" \
  -e "[email protected]" \
  -e "ADMIN_PASSWORD=password" \
  -v doccano-db:/data \
  -p 8001:8000 doccano/doccano

创建用户

默认只有一个用户,我们需要打开ADMIN管理页面添加新的用户。

在主网址后加/admin/然后打开ADMIN管理页面(注意后边的斜杠是必须的),点击Add

添加用户名和密码信息后,点击SAVE以保存:

如何进行NER标注

创建项目

默认的界面是英语的,不习惯英语的话,可以切换为中文:

然后点击登录,输入用户名和密码登录,登录之后:

点击创建,会跳转到以下页面:

点击以选择序列标注(Sequence Labeling),然后输入名称等必要信息,根据需要配置其他属性:

点击创建,跳转到以下页面:

导入数据集

单击左侧的数据集按钮:

移动鼠标到操作按钮:

点击导入数据集:

doccano支持多种格式的文本,它们的区别如下:

  • Textfile:上传的文件为txt格式,打标时一整个txt文件显示为一页内容;
  • Textline:上传的文件为txt格式,打标时txt文件的一行文字显示为一页内容;
  • JSONLJSON Lines的简写,每行是一个有效的JSON值;
  • CoNLLCoNLL格式的文件,每行均带有一系列制表符分隔的单词;

上传一个TXT文件:

点击导入后:

定义标签

点击左侧的标签,然后移动鼠标到操作菜单后点击创建标签

创建3个常见的标签,PER, LOC, ORG,实际应用中需要根据需求确定有哪些标签。以下以创建PER标签为例:

创建完后:

添加成员

点击左侧的成员按钮,然后点击增加

选择需要添加到项目的用户和角色,其中有3种角色(项目管理员 ,标注员,审查员)。选择好后保存:

保存后可以看到:

分配标注任务

首先,选中需要分配的数据:

然后,点击操作菜单下的Assign to member

选择分配方案,然后点击右侧的Assign按钮

以上分配方案将15%的任务分配给admin用户,85%的任务分配给user1用户。

查看分配结果:

标注

点击左侧数据集,然后选择一条数据,点击最右边的标注按钮开始标注。

举例来说,点击右侧的PER标签,然后鼠标分别选择文本中的对应文字:

标注完成后,点击文本左上角的X按钮表示已标注完成:

导出数据

点击左侧数据集按钮,移动鼠标到操作菜单,点击导出数据集

选择JSONL格式,勾选Export only approved documents(仅导出已审核过的数据),然后点击导出:

标签:教程,ADMIN,标签,doccano,点击,按钮,NER,标注
From: https://blog.csdn.net/shizidushu/article/details/142872389

相关文章

  • 界面控件DevExpress中文教程 - 如何拓展具有AI功能的文本编辑器(二)
    NLP是人工智能的一个分支,它允许计算机与人类语言进行交互,这包括以有意义/有用的方式理解、解释、生成和回应文本(和语音)的能力。基于NLP的功能允许更好的数据分析、个性化体验、高效的沟通,并导致更明智的决策和提高效率。例如:机器翻译文本摘要文本生成文本分类以及更多…......
  • LLM 教程 1 —— 大语言模型入门
    本文将介绍大语言模型的重要性,它们如何被训练,应用场景,面临的挑战与风险,以及未来发展方向。阅读完毕后,您将对大语言模型的潜力和能力有更深入的理解。1、大语言模型是什么?大语言模型(LLM)是一种能够执行多种自然语言处理任务的机器学习模型,包括生成文本、分类文本、以对话......
  • 图像去雾综述-图像去雨综述(代码+教程)
    图像去雾是一种针对雾霾、雨雾等大气干扰因素引起的图像模糊和降低对比度的现象进行处理的技术。在现实生活中,这种现象常常会影响到图像的质量,使得图像难以清晰地表现出真实景物。为了解决这个问题,研究人员开发了各种图像去雾算法。本文将对当前主流的图像去雾算法进行综述......
  • Docker 万字入门教程
    0.前言文章已经收录到GitHub个人博客项目,欢迎Star:https://github.com/chenyl8848/chenyl8848.github.io或者访问网站,进行在线浏览:https://chenyl8848.github.io/1.Docker简介1.1官方定义官方介绍:Wehaveacompletecontainersolutionforyou-nomatterwh......
  • Photoshop2024下载安装包(附安装教程)
    Photoshop2024安装包:Photoshop2024安装包百度网盘下载PS2024安装教程:1、右击【PS2024.zip】,选择【解压到PS2024】2、右击【Set-up.exe】,选择【以管理员身份运行】3、点击右下角灰色的小文件夹图标,选择【更改位置】4、选择安装路径后,点击【确定】,然后点击【继......
  • 最新Qt6将可执行文件打包为独立exe保姆级教学!含报错:无法定位程序输入点于动态链接库解
     相信大家都有类似的体验,自己已经在Qt练习中写出了不错的小程序,每次想发给别人体验都要发一整个大代码包,还得对面有对应的装好的QT才能运行,或者是想把自己的成果记录下来作为一个单独的exe文件却没有办法,今天教大家Qt如何生成独立可执行exe。注意:以下是Qt6之前版本可用的全过......
  • Guitar Pro8.2专业版全部解锁图文教程,手把手教你
    吉他专业版是一个软件程序,允许所有音乐家阅读,写作和分享他们的指法。该软件与许多乐器兼容,如吉他,鼓,贝斯,钢琴,尤克里里等!您可以为每种乐器制作指法,滚动乐谱,编写音乐并使用许多教学工具,例如和弦词典或音阶库。换位功能也可用于轻松地将您的歌曲从一种乐器转录到另一种乐器。吉他......
  • crossover软件如何安装程序 及最新图文案张教程
    IT之家2月23日消息,CodeWeavers近日发布了CrossOver24版本更新,基于近期发布的Wine9.0,不仅兼容更多应用和游戏,还初步支持运行32位应用程序。苹果在macOSCatalina系统中移除对32位软件的支持之后,在后续的macOS设备上就无法再运行旧版软件了。不过得益于Wi......
  • DevExpress控件安装、汉化使用教程
    前言DevExpress是一个庞大的控件库,也很是好用(没用过,听说),但是要收费。网上关于DevExpress的教程满天飞,我找了一下午也没找到正确的安装、简单实用教程,还是自己摸索吧。自己动手,丰衣足食。安装DevExpress不像其他控件库一样,直接引用或是附加个dll就可以使用,De......
  • C++入门教程
    C++入门教程----------------------------------------------------------一.初识C++---------------------------------------------------------1.什么是C++.c++是一种较为基础的编程语言,虽然没有Python,Scratch那么高级,但是它应用范围很广.不论是信息奥赛还是国......