UIE开发文档

UIE开发文档

时间：2023-01-18 14:11:26浏览次数：29

标签：loss UIE doccano ids batch start 开发文档 end

标注数据

安装doccano

创建一个虚拟环境
```
conda create -n doccano python=3.8
```
进入虚拟环境
```
conda activate doccano
```

启动doccano

初始化doccano(以下两行命令仅在安装成功之后第一次执行，后续就不需要执行了)

# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass

启动doccano服务

# Start a web server.
doccano webserver --port 8000

在另一个终端执行如下命令

# Start the task queue to handle file upload/download.
doccano task

浏览器访问http://127.0.0.1:8000/地址，打开doccano可视化界面，开始进行数据标注工作。

标注数据

每个标签的数量统计如下

保存数据

将标注好的数据转化为json格式，保存到本地。

转化数据

使用model_zoo/uie/doccano.py脚本将标注好的数据转换为模型要求的格式。

训练模型

将标注好的数据传入模型进行训练：model_zoo/uie/finetune.py

模型的输入格式

[CLS]实体类型[SEP]原始文本

模型的损失函数

由于每一个 token 都是一个二分类任务，因此选用 BCE Loss 作为损失函数。分别计算起始/结束向量的 BCE Loss 再取平均值即可，如下所示：

criterion = torch.nn.BCELoss()
...

start_prob, end_prob = model(input_ids=batch['input_ids'].to(args.device),
                                        token_type_ids=batch['token_type_ids'].to(args.device),
                                        attention_mask=batch['attention_mask'].to(args.device))
start_ids = batch['start_ids'].to(torch.float32).to(args.device)    # (batch, seq_len)
end_ids = batch['end_ids'].to(torch.float32).to(args.device)        # (batch, seq_len)
# start_prob 预测值  start_ids 真实值
loss_start = criterion(start_prob, start_ids 真实值)                 # 起止向量loss -> (1,)
# end_prob 预测值  end_ids 真实值
loss_end = criterion(end_prob, end_ids)                             # 结束向量loss -> (1,)
loss = (loss_start + loss_end) / 2.0                                # 求平均 -> (1,)
loss.backward()
...

标签：loss,UIE,doccano,ids,batch,start,开发,文档,end
From： https://www.cnblogs.com/kyle-blog/p/17059687.html

直播软件app开发，Android Studio中的界面上下滑动
直播软件app开发，AndroidStudio中的界面上下滑动这个是上下滑动的代码示例： <?xmlversion="1.0"encoding="utf-8"?><ScrollViewxmlns:android="http://schemas.andro......
TDengine 时序数据特色查询语法详解，助力时序场景下的应用开发
小T导读：TDengine是专为时序数据而研发的大数据平台，存储和计算都针对时序数据的特点量身定制，在支持标准SQL的基础之上，还提供了一系列贴合时序业务场景的特色查询语法，极......
TDengine 时序数据特色查询语法详解，助力时序场景下的应用开发
小T导读：TDengine是专为时序数据而研发的大数据平台，存储和计算都针对时序数据的特点量身定制，在支持标准SQL的基础之上，还提供了一系列贴合时序业务场景的特色查询语法，......
阿里云对话 Tapdata：「开发者优先」正在影响商业化软件的开源选择
在刚刚过去的2022年，Tapdata带着开源项目PDK（PluginDevelopmentKit）及TapdataCommunity和大家见面，兑现了我们对自己以及开发者们的开源承诺，同时与阿里云等生态伙伴联合......
ArcGIS Pro Add-Ins&Configurations开发系列1-
ArcGISProAdd-Ins&Configurations开发系列1-安装配置一.安装ArcGISPro拓展要想进行ArcGISPro的Add-Ins或Configurations开发，需要先安装ArcGISPro拓展，能方便的创建Ar......
PYNQ-Z2启动NutShell（果壳处理器）——修正官方文档错误
Compilechiselcode这里是英文版，之后会编写一个中文beforestart,gitcheckoutrelease-21228Installmill.RefertotheManualsectioninthisguide.Run......
（14）go-micro微服务服务层Handle开发
目录一Handle层开发功能说明需要完成的服务开发功能：从哪找需要开发的功能二代码编写三最后一Handle层开发功能说明需要完成的服务开发功能：登录注册查询用户信息......
K8S Operator的开发与使用
从应用角度考虑，为什么会出现如此多的Operator场景，为什么很多中间件和厂商都会提供基于Operator的部署方案，他的价值是什么？随着时代的发展，企业应用部署环境从传统的物理机->......
学习笔记——Spring中组件扫描（包含扫描、排除扫描）、Spring中完全注解开发；Spring整合Ju
2023-01-18一、Spring中组件扫描1、默认使用的情况<context:component-scanbase-package="com.hh"></context:component-scan>2、包含扫描注：使用包含扫描之前，必须......
iOS 蓝牙开发详解（基本知识、相关类图、交互流程）
http://t.zoukankan.com/lijianyi-p-14765794.html 本文从以下三方面讲解下蓝牙开发1、蓝牙相关基本知识2、蓝牙相关类图3、蓝牙交互流程一、蓝牙相关基本知识涉及......