法研杯生成式文本摘要赛题处理

时间：2023-08-24 15:13:09浏览次数：49

标签：抽取摘要赛题模型生成式法研杯语料句子标注

赛题分析

　　统计信息

　　样本预览

　　建模思路

抽取模型

抽取模型的思路是先通过规则将原始的生成式语料转化为序列标注式语料。（将文本转换为文本向量）

基于深度学习的抽取式摘要，是有监督的文本摘要，可以建模为序列标注任务或句子排序任务。

建模为序列标注任务，就是为原文中的每一个句子打一个二分类标签（0 或 1），0 代表该句不属于摘要，1 代表该句属于摘要，训练一个标注模型。

所有标注为1的句子，可以作为最终的摘要。

建模为句子排序任务，则是输出每个句子作为摘要的概率，选择概率最大的topk个句子，作为最终的摘要。

步骤：

　　语料转换

　　　　抽取模型只是过程而不是结果，我们还要把抽取的结果送入到 Seq2Seq 模型优化。因此，抽取模型的原则是“求全”，即尽量把最终摘要所需要的信息覆盖到。为此，我们按照如下规则将原始训练语料转换为抽取式语料：

　　　　1、自行构建分句函数，使得句子的颗粒度更细；

　　　　2、人工摘要的每个句子，都在原文中匹配与之相似度最高的那个句子（可以重复匹配）；

　　　　3、将所有匹配到的原文句子作为抽取句子标签；

　　模型结构

　　　　使用的是以句为单位的序列标注模型作为抽取模型，句向量部分用“BERT+平均池化”来生成，并固定不变，标注模型主体方面则用 DGCNN 模型构建。

　　输出数据

　　　　将原文作为输入，通过抽取模型输出抽取摘要，然后把抽取摘要作为生成模型的输入，来输出最终摘要。

生成模型

生成模型就是一个Seq2Seq 模型，以抽取模型的输出结果作为输入、人工标注的摘要作为输出进行训练，我们可以理解为是对抽取结果做进一步的“润色”。

　　模型总览

标签：抽取,摘要,赛题,模型,生成式,法研杯,语料,句子,标注
From： https://www.cnblogs.com/pass-ion/p/17654168.html

生成式AI技术市场现状与发展前景展望
随着科技的飞速发展，AI技术已经进入到我们生活的各个领域，其中，生成式AI技术以其强大的应用潜力和广泛的市场前景，尤为引人关注。本报告将就生成式AI技术的市场现状及发展前景进行研究和预测。首先，我们来理解一下什么是生成式AI。生成式AI，也被称为生成人工智能，是指一类能够生成新的、真......
生成式AI：未来的人工智能重要组成部分
在人工智能的研究和发展中，生成式AI正在引发一场革命。这种强大的技术可以模仿人类的创造力和直觉，以生成全新的、之前未存在的作品和解决方案。然而，生成式AI是否会成为人工智能（AI）的未来，还需要从多个角度进行探讨。首先，理解生成式AI的潜力至关重要。生成式AI依赖于深度学习和神经网络......
CSP模拟赛题解
目录CSP模拟16T1:糖果CSP模拟17T1：弹珠游戏T2：晚会CSP模拟18T1：TheThirdLetterT2：InaoftheMountainCSP模拟19T1：StrangeFunctionT2：DZYLovesModificationCSP模拟21T1：[CEOI2016]kangarooT2：[JOI2023Final]Advertisement2T3：YourCSP模拟22T1：TheChildandToyCSP模拟16T1:......
志华软件利用亚马逊云科技生成式AI服务实现销售预测
在日趋激烈的市场竞争中，服装产业的每一个环节都呼唤更加精细化的管理，以达到降本增效的目的。在服装销售环节，广东志华软件科技有限公司（以下简称“志华软件”）亟需在其软件中添加销售预测功能。该功能将帮助服装企业预测市场趋势，根据预测结果实现智能配货，节省因为缺货导致的调货成本......
更好的 3D 网格，从重建到生成式 AI
推荐：使用NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景这些生成的3D模型通常提取为标准三角形网格。网格表示提供了许多好处，包括支持现有软件包、高级硬件加速和支持物理仿真。但是，并非所有网格都是平等的，这些优势只能在高质量网格上实现。NVIDIA最近的研究发现了一种名......
Adobe Express正式对所有用户开放，并具备生成式AI功能
据了解，日前Adobe宣布旗下的图形设计工具AdobeExpress目前已经向所有用户开放。AdobeExpress最初被称为AdobeSpark，针对现有的测试人员，部分高级功能将会继续限免一段时间，不过可以获得30天的高级会员试用，继续访问所有优质内容和功能obghtysuew。而该公司对该......
如何正确使用生成式 AI？
推荐：使用NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景在过去几年中，数据的创建速度呈指数级增长，这主要意味着数字世界的日益扩散。估计吧？仅在过去两年中，世界上90%的数据就产生了。我们以各种形式与互联网互动的次数越多？–从发送短信、分享视频或创作音乐？，我们为支持......
AI抢饭碗！新闻集团将使用生成式AI，每周自动写3000篇新闻丨IDCF
作者：AIGC开放社区8月1日，英国卫报消息，全球最大新闻媒体公司之一的新闻集团，将使用生成式AI每周自动创建3000篇澳大利亚本地新闻。据悉，新闻集团在内部成立了一个名为“DataLocal”的部门只有4名员工，由数据新闻编辑PeterJudd领导。该部门在生成式AI的帮助下，每周可以迅速产出3000篇新......
新生赛题解
A题解：不会#include<bits/stdc++.h>#pragmaGCCoptimize("Ofast")#include<iostream>#include<cstdio>#include<cstring>#include<algorithm>#include<queue>#include<cmath>//#definedoublelongdoub......
高效提升工作效率，亚马逊云科技热门课程带你入门生成式AI
当前人工智能仍处于飞速发展阶段，作为当下最先进的科学技术之一，相信大家对AIGC关注已久。今天，引用亚马逊云科技最新发布的七项生成式AI新功能来跟大家聊聊近期的热门生成式AI！有人说，生成式AI将带来充满创造性的新世界；有人说，生成式AI热潮正在掀起一场新的科技革命；有人认为生成式AI将......

法研杯生成式文本摘要赛题处理

相关文章

赞助商

阅读排行

法研杯 生成式文本摘要赛题处理

相关文章

赞助商

阅读排行

法研杯生成式文本摘要赛题处理