首页 > 其他分享 >10000条“视频/音乐/书籍数据”命名实体识别标记数据分享

10000条“视频/音乐/书籍数据”命名实体识别标记数据分享

时间:2023-06-21 20:08:21浏览次数:35  
标签:视频 10000 标记 label video 数据 书籍 标注


10000条“视频/音乐/书籍数据”命名实体识别标记数据分享_数据集

    类似于人名/地名/组织机构名的命名体识别数据集,资源标注了大约10000条视频/音乐/书籍数据。数据的意义希冀能够基于此训练NLP模型识别句子中的视频/音乐/书籍等名称信息.

 

 

 

数据的标注过程:

    1、先纯手动提取标记了一部分(大约5000条),基于标注数据训练一个base模型,基于base模型重新审视校正标注数据.

    2、基于校正后的数据再训练一个模型,基于模型标注了另外约5000条数据.并对数据进行人工审核校验.

    最终数据集包含9632条数据.

 

理论上来说,任务也会是标准的NER任务.

难点:同一个名称可能是书籍也可能是视频(电视电影可能是由小说改编而来,有些场景关注书籍,另外一些可能关注视频),有些句子则只是提供了一长串并列的名称,可能没有更多的辅助信息;

 

    示例:

放暑假了,最近剧荒,陈情令也才一个星期更新三次,根本不够看,问问大家有什么好看的电视剧或电影推荐吗?最好是那种搞笑,温暖的那种,日剧也可以,好像道骏枝佑的剧还不错!

    label: 陈情令/video

 

    最近有没有好看的电视剧推荐,国内国外的都可以,前两天再追少年派,但剧情走向越来越扯,非常想给编剧寄刀片,现在想看些正常三观的剧,大家有没有推荐哒?

    label: 少年派/video

 

    最近有些剧荒啊,有什么好看的电视剧或者电影可以推荐么?我看的也比较杂,权力的游戏,黑色止血钳,最近看的韩剧囚犯医生是大爱啊,类似这种类型的可以给我推荐一些么?

    label: 权力的游戏/video黑色止血钳/video囚犯医生/video

 

    我个人比较喜欢听古风歌曲,然后呢,我歌单里面可以给你推荐几首,归去来兮琵琶行清明上河图好可以去试着搜索一些古装剧的主题曲或者插曲

    label: 归去来兮/music琵琶行/music清明上河图好/music

 

    不知道你喜欢什么类型的小说,最近在看十宗罪,悬疑烧脑类的,讲述的是公安部门打击违法犯罪的故事,现在已经出到第六部了,估计够你看一个月了。大冰写的书也可以尝试看一下,文艺小清新类型的

    label: 十宗罪/book

 

最终提供的数据集转换成了标准的BIO标注格式,欢迎尝试使用。


标签:视频,10000,标记,label,video,数据,书籍,标注
From: https://blog.51cto.com/u_13046751/6531066

相关文章

  • 中文自然语言处理开放任务介绍、数据集、当前最佳结果分享
        本文整理了中文自然语言处理相关开放任务,详细任务说明,数据集,相关评价指标,以及当前最佳结果整理。涉及指代消歧,对话状态管理,情绪分类,实体链接,实体标注(EntityTagging),语言模型,机器翻译,词性标注,问答,关系抽取等任务。    本文内容整理自滴滴NLP实验室Wiki:https://c......
  • 苏州国科携手浪潮信息 构筑企业数字化转型坚实数据底座
    作为亚太地区首家获得国际最高等级TierIV标准认证数据中心企业,苏州国科综合数据中心有限公司(以下简称苏州国科)在云平台建设项目上采用了浪潮信息的服务器、企业级集中式存储构建基础设施解决方案,建设了高性能、高可靠的云平台,加快推进了19家大型公司业务上云。多元业务背后的数据......
  • CVPR23 Highlight | 多模态新任务、新数据集:NTU提出广义引用分割问题GRES
    前言 来自新加坡南洋理工大学的研究者们定义了一个名为广义引用分割(GeneralizedReferringExpressionSegmentation,GRES)的新任务,将经典的引用分割扩展到允许表达式指代任意数量的目标对象。同时,文章还构建了第一个大规模的GRES数据集gRefCOCO,其同时包含多目标、无目标和单目标表......
  • 大数据指令汇总
    目录使用Finalshell作为连接机器界面命令汇总针对全部会话的命令Zookeeper集群启动:Zookeeper集群状态:Zookeeper集群关闭:针对当前会话的命令Hadoop启动:Hadoop关闭:hive1启动:hive2启动:beeline启动:beeline登录(账户是root,密码为空):hbase启动:habse客户端启动:phoneix启动:conda激活spark环......
  • dw 的启动时初始化 动态数据源变成私有的 同时mq的监听要比bean后初始化,要么设置成懒
     将applicationContext里面获取到的bean添加到allrunner里面,进行 私有化部署数据源初始化 消费是优于一些bean,这个意思是消息消费注册的时候可能有一些bean还没有,所以等一会,消费者是先于一些bean的 Spring加载RocketMq消费者实例后会立即开始消费,不论Spring容器是否初......
  • Python遍历dict类型数据,输出预期结果
    主要代码段: dict数据(预期结果对应的数据如下)1、 2、 输出预期结果:1、[(值1,值2),(值3,值4)] 2、[(值1,值2)](两种情况不会同时出现) ......
  • 基于 Flink CDC 构建 MySQL 到 Databend 的 实时数据同步
    这篇教程将展示如何基于FlinkCDC快速构建MySQL到Databend的实时数据同步。本教程的演示都将在FlinkSQLCLI中进行,只涉及SQL,无需一行Java/Scala代码,也无需安装IDE。假设我们有电子商务业务,商品的数据存储在MySQL,我们需要实时把它同步到Databend中。接下来的内......
  • 时序数据库 TDengine 与腾讯云多个产品线完成兼容性互认证明
    随着数字经济蓬勃发展,数据成为驱动企业数字化转型的关键生产要素,如何加强对数据资源的治理利用、实现数据洞察、激活数据价值正成为亟待解决的问题。在此背景下,数据库与操作系统、云平台等国产化软件相互结合赋能成为解决问题的思路之一。 近日,经过数月努力,涛思数据旗下时序数......
  • Vue单项数据流是什么
    父级prop的更新会向下流动到子组件中,但是反过来则不行,防止从子组件意外改变父级组件的状态每次父级组件发生更新时,子组件中所有的prop都将会刷新为最新的值子组件想修改时,只能通过$emit派发一个自定义事件,父组件接收到后,由父组件修改 ......
  • 视频融合平台EasyCVR迁移数据库报错1146是什么原因?该如何解决?
    EasyCVR视频融合平台基于云边端协同架构,具有强大的数据接入、处理及分发能力。平台支持多协议接入,包括:国标GB28181、RTMP、RTSP/Onvif、海康Ehome、海康SDK、大华SDK、宇视SDK等,对外可分发多格式视频流,包括RTSP、RTMP、FLV、HLS、WebRTC等。我们在此前的文章中也介绍过关于EasyC......