首页 > 其他分享 >复述生成任务分类-笔记-Task-Oriented Paraphrase Analytics

复述生成任务分类-笔记-Task-Oriented Paraphrase Analytics

时间:2024-07-03 12:56:51浏览次数:16  
标签:Task 生成 Oriented Analytics 复述 文中 文本 重写 释义

目录

前言

正文 

复述生成和搜索引擎

查询建议和扩展建议(Query Suggestion and Expansion)

复述生成和数据集

数据增强(Data Augmentation):生成保持类别标签的合成数据,用于增加训练或测试数据集。

信息安全和复述生成

对抗样本生成(Adversarial Example Generation):保留标签的文本修改,在语义上等价但可能导致模型预测改变的文本。

语言隐写术(Linguistic Steganography):在文本中隐藏信息,使得外部观察者无法察觉通信的发生。

离合词创作(Acrostification):重写文本使其包含一个离合词(首字母组成特定信息的文本)。

自然语言水印(Natural Language Watermarking):在文本中插入不易被人类察觉的隐藏模式,以识别原作者。

信息伪装(Information Disguise):改写文本以隐藏或模糊某些信息。

纯复述生成

文字编辑(Copy Editing):修正拼写、语法错误,消除重复和歧义,同时保持原意。

提高连贯性(Improvement of Coherence):重写文本以提高其连贯性,使读者更容易理解,但不改变信息内容。

文本简化(Text Simplification):使用更简单的语法和词汇重写文本,同时保持原意。

句子压缩(Sentence Compression):创建一个更短的句子版本,保留原句的主要含义。

句子扩展(Sentence Expansion):以创造性的方式扩展一个短句,但保持原意。

风格调整(Style Adjustment):调整文本以适应特定的时间、场合或读者群,同时保持原意。

上下文变化(Context Change):改变文本的上下文,但保持核心含义。

风格转换(Style Transfer):改变文本的写作风格。

作者混淆(Author Obfuscation):改变文本以隐藏作者的写作风格。

抄袭(Plagiarizing):重写他人的文本以避免被检测为抄袭。

积极重构(Positive reframing):积极重构是情绪转移的一个子任务。

文本本地化(Text Localization):本地化是指将文本改编为不同的受众,这些受众包括来自不同地区、文化或年龄的群体。

(文中没讲)文本修复(Text Repair):修复损坏或不完整的文本,尽可能恢复原意。

(文中没讲)问题重构(Question Reformulation):以不同方式重新表述问题。

(文中没讲)观点转换(Perspective Change):从不同角度重写文本。

(文中没讲)语言迁移(Language Transfer):在保持原意的同时,将文本翻译成另一种语言。

(文中没讲)专业术语转换(Jargon Translation):将专业术语转换为更通俗的表达。

(文中没讲)情感强度调整(Sentiment Intensity Adjustment):调整文本的情感强度,但保持基本情感倾向。

(文中没讲)文本摘要(Text Summarization):创建文本的简短版本,保留主要信息。

(文中没讲)段落扩展(Paragraph Expansion):扩展一个简短的段落,添加更多细节或解释。

复述生成和图像标题

图像重配(Image Recaptioning):图像重配是为已经加了标题的图像分配标题以使其适合新的所需上下文的过程


前言

2024.lrec
地址:

Task-Oriented Paraphrase Analytics - ACL Anthology
代码:

GitHub - webis-de/LREC-COLING-24

正文 

主要就是讲一讲近几年复述生成的应用

复述生成和搜索引擎

  • 查询建议和扩展建议(Query Suggestion and Expansion)

      查询建议的目标是为搜索引擎的输入查询生成类似的搜索查询。提出的搜索查询应该保留原始的搜索意图(Sordoni et al., 2015),这可以大致等同于相似的含义。例如,当在谷歌中输入以下原始查询时,建议使用意译查询。

O: why do we yawn
P: why do we yawn so much

复述生成和数据集

  • 数据增强(Data Augmentation):生成保持类别标签的合成数据,用于增加训练或测试数据集。

        数据增强数据增强意味着通过类标签保持转换生成合成标记数据。在需要语义对等的任务环境中(例如,机器翻译),生成的示例保留了原始示例的含义。用释义增强训练或测试数据已被证明对对话系统是有用的,机器翻译,问答,阅读理解,总结和文本分类。

信息安全和复述生成

  • 对抗样本生成(Adversarial Example Generation):保留标签的文本修改,在语义上等价但可能导致模型预测改变的文本。

        下面是一个情绪分类的对抗性例子,其中原始文本被正确地标记为消极情绪,但释义文本被错误地分类为积极情绪。

O: There is no pleasure in watching a child suffer.→ negative sentiment
P: In watching the child suffer, there is no plea-sure. → positive sentiment

  • 语言隐写术(Linguistic Steganography):在文本中隐藏信息,使得外部观察者无法察觉通信的发生。

  • 离合词创作(Acrostification):重写文本使其包含一个离合词(首字母组成特定信息的文本)。

跨缩略词是文本中的信息,可以通过连接每行的首字母来解码。Acrostification是重写文本,使其包含一个离合词的任务,由Stein等人(2014)建模为释义任务。下面的原文经过改写,包含了缩略词“HOPE”。

O: To achieve your dreams, stay optimistic and persistent despite doubts. Embrace high expectations and let your light shine.
P: Hold onto your dream while mindful oftime
    Optimism required, let your light shine
    Persistence prevails, while it may cast doubt
    Expectation desired is what it’s about.

  • 自然语言水印(Natural Language Watermarking):在文本中插入不易被人类察觉的隐藏模式,以识别原作者。

  • 信息伪装(Information Disguise):改写文本以隐藏或模糊某些信息。

        信息伪装的任务是重写文本,使原文的来源无法确定,甚至用搜索引擎。Agarwal等人(2023)在社交媒体上关于敏感话题(如心理健康、吸毒)的帖子应该公开的背景下提出了这个任务,并提出了他们解决这个问题的释义方法。

纯复述生成

  • 文字编辑(Copy Editing):修正拼写、语法错误,消除重复和歧义,同时保持原意。

        文字编辑是重写文本的任务,以“消除读者和作者想要传达的内容之间的任何障碍”(Butcher, 1975)。这些“障碍”包括拼写和语法错误、重复、歧义、事实错误和误导性信息。克服这些障碍、保留原文意义的编辑被称为释义。例如,将"The company have many employes"改为"The company has many employees"。

  • 提高连贯性(Improvement of Coherence):重写文本以提高其连贯性,使读者更容易理解,但不改变信息内容。

这个任务关注文本的逻辑流程和连贯性。改写者需要重组句子或添加过渡词,使文本更容易理解,但不改变原始信息。例如,添加连接词或重新安排句子顺序,使段落更加连贯

O: In the lungs, carbon dioxide leaves the circulating blood and oxygen enters it.
P: In the lungs, carbon dioxide that has been collected from cells as blood has passed aroundthe body, leaves the circulating blood and oxygen enters it.

  • 文本简化(Text Simplification):使用更简单的语法和词汇重写文本,同时保持原意。

O: He settled in London, devoting himself chiefly to practical teaching.
P: He lived in London. He was a teacher.

  • 句子压缩(Sentence Compression):创建一个更短的句子版本,保留原句的主要含义。

O: The future of the nation is in your hands.
P: The nation’s future is in your hands.

  • 句子扩展(Sentence Expansion):以创造性的方式扩展一个短句,但保持原意。

O: The nation’s future is in your hands.

P: The future of the nation is in your hands.

  • 风格调整(Style Adjustment):调整文本以适应特定的时间、场合或读者群,同时保持原意。

每篇文章都传达了作者的特征,并根据特定的时间、地点和场景进行调整(Jin et al., 2022)。这些特征被称为风格,与语义内容不同。风格包括情感、幽默、礼貌、形式和语码转换(Xu et al., 2021)。样式调整任务旨在修改文本并控制这些属性,同时保留其含义,这使其成为释义任务。

  • 上下文变化(Context Change):改变文本的上下文,但保持核心含义。

一篇文章的背景以及在给定文本之前和之后的部分被称为上下文(Ben-Amos, 1993)。语境改变的释义任务是改写文本以适应新的语境,同时保留其大部分意思。

  • 风格转换(Style Transfer):改变文本的写作风格。

以下文本对代表了由STRAP风格转换系统生成的将推文风格转换为莎士比亚风格的原始文本。

O: Yall kissing before marriage?
P: And you kiss’d before your nuptial?

  • 作者混淆(Author Obfuscation):改变文本以隐藏作者的写作风格。

改写文本,使该文本的原作者无法再被验证。为了混淆作者,需要改变原文的风格特征。

在下文中,我们给出了Bevendorff等人(2020)的作者混淆方法的一个例子。这个例子摘自莱斯特·德尔·雷伊(Lester del Rey)的《胜利》(Victory),其中原文的作者被混淆了。

O: Three billion people watching the home fleet take off, knowing the skies were open for all
the hell that a savage enemy could send!
P: Three billion people watching the home fleet take off, deciding the skies were resort for all
the mischief that a savage enemy could send!

  • 抄袭(Plagiarizing):重写他人的文本以避免被检测为抄袭。

抄袭是指在没有注明原作者的情况下,重复使用他人的想法、成果或文字。释义是剽窃文本的潜在机制。下面是来自P4P语料库(Potthast等人,2010)的一个原始文本和抄袭文本的例子。

O: “What a darling” she said; “I must give her something very nice”
P: “Oh isn’t she sweet!” she said, thinking that she should present with some kind of special gift.

  • 积极重构(Positive reframing):积极重构是情绪转移的一个子任务。

        情感转移的目的是改写文本,使原来的消极情绪转化为积极情绪,反之亦然。与情感转移相反,积极重构的文本通过采取互补的积极观点来暗示初衷(Ziems et al., 2022)。本文使用上述工作中的一个示例来说明此任务。

O: This was a bland dish.
P: I’ve made dishes that are much tastier than this one.

        改写后的文本仍然传达了原意,但将重点转移到积极的、自我肯定的角度。因为它紧跟原文,这可以被认为是一个释义。

  • 文本本地化(Text Localization):本地化是指将文本改编为不同的受众,这些受众包括来自不同地区、文化或年龄的群体。

        O: The price for a pound of rice is around one dollar.
        P: The price for halfa kilo of rice is around one euro and 50 cents.

        上面的例子可以解释为为欧洲读者改写原文。由于一磅不完全等于半公斤,而且价格是根据各自的地区而定的,所以这些文本在语义上并不完全相同,但相似程度足以被认为是意译。

  • (文中没讲)文本修复(Text Repair):修复损坏或不完整的文本,尽可能恢复原意。

  • (文中没讲)问题重构(Question Reformulation):以不同方式重新表述问题。

  • (文中没讲)观点转换(Perspective Change):从不同角度重写文本。

  • (文中没讲)语言迁移(Language Transfer):在保持原意的同时,将文本翻译成另一种语言。

  • (文中没讲)专业术语转换(Jargon Translation):将专业术语转换为更通俗的表达。

  • (文中没讲)情感强度调整(Sentiment Intensity Adjustment):调整文本的情感强度,但保持基本情感倾向。

  • (文中没讲)文本摘要(Text Summarization):创建文本的简短版本,保留主要信息。

  • (文中没讲)段落扩展(Paragraph Expansion):扩展一个简短的段落,添加更多细节或解释。

复述生成和图像标题

  • 图像重配(Image Recaptioning):图像重配是为已经加了标题的图像分配标题以使其适合新的所需上下文的过程

        Gohsen等人(2023)分析了图像的几个标题,发现它们通常是彼此的释义。MSCOCO (Lin et al., 2015)(即每个图像具有多个标题的数据集)作为释义的训练或测试集的流行表明,重新制定标题是一个复述生成任务。

O: Twelfth century illustration ofa man digging.
P: An English serf atwork digging, circa 1170.

        由于图片使用的背景发生了变化(即来自维基百科中世纪关于挖掘和英国农业的文章中的图片),我们可以检测到轻微的语义变化。例如,从释义中我们了解到,图像中的挖掘人是一个英国农奴,这在原文中并没有暗示

标签:Task,生成,Oriented,Analytics,复述,文中,文本,重写,释义
From: https://blog.csdn.net/qq_40081495/article/details/140133155

相关文章

  • Advanced Data Analytics Using Python_ With Machine Learning, Deep Learning and N
    本书提供了使用Python进行高级数据分析的方法,涵盖了机器学习、深度学习和自然语言处理的应用实例。书中详细讲解了如何在不同的数据库环境中进行数据提取、转换和加载(ETL),并探讨了监督学习、无监督学习、深度学习、时间序列分析以及大规模数据分析的相关内容。目录简介为......
  • Batch文件中使用tasklist命令:深入掌握进程监控与分析
    在Windows操作系统中,tasklist命令是一个强大的工具,它允许用户查看当前运行的进程和它们的详细信息。在自动化脚本和批处理文件(Batch文件)中使用tasklist可以极大地增强对系统状态的监控能力。本文将详细介绍如何在Batch文件中使用tasklist命令来查看和管理进程。1.tasklist......
  • 任务调度SpringTask入门
    任务调度简介1.1什么是任务调度在企业级应用中,经常会制定一些“计划任务”,即在某个时间点做某件事情,核心是以时间为关注点,即在一个特定的时间点,系统执行指定的一个操作。常见的任务调度框架有Quartz和SpringTask等。SpringTask入门1.2SpringTask入门小Demo创建模块52xbc-......
  • SpringTask Cron表达式
    Cron表达式格式1.Cron表达式格式Cron表达式是一个字符串,字符串以5或6个空格隔开,分为6或7个域,每一个域代表一个含义,Cron有如下两种语法格式:秒分时一个月第几天月一个星期第几天年(1)SecondsMinutesHoursDayofMonthMonthDayofWeekYear(2)Seconds......
  • 海豚调度调优 | 正在运行的工作流(DAG)如何重新拉起失败的任务(Task)
    ......
  • 任务调度框架革新:TASKCTL在Docker环境中的高级应用
    Docker:轻量级容器化技术的魅力Docker作为一款开源的轻量级容器化技术,近年来在IT界掀起了一股热潮。它通过封装应用及其运行环境,使得开发者可以快速构建、部署和运行应用。Docker的优势在于其轻量级、可移植性和可扩展性,它使得应用部署变得更加简单、快捷。TASKCTL:自动化运......
  • task 7
    //将图书信息写入文本文件data1.txt//再从文件中读取图书信息,打印输出到屏幕上,并显示行号#include<stdio.h>#defineN80#defineM100typedefstruct{charname[N];//书名charauthor[N];//作者}Book;//函数声明voidfunc1();voidfunc2(......
  • 安卓自动化Tasker和Macrodroid(含ADB调试)
    1.前言首先讲讲自动化的初衷吧。我平时是很少用手机的,用手机就是拍照、聊天和看文章。我个人不是很喜欢现在的聊天方式,它不是纯粹放松的个人聊天,还夹杂学习、工作通知,通知是要看,但个人聊天我只希望在我自己想聊的时候聊,不希望我本来打开手机是要做一件正事,但是因为看到聊天弹窗......
  • 【PL理论】(29) OOP:面向对象编程 | 案例研究:C++ 中的类 | 继承 | 继承和指针 | Object
    ......
  • 论文解读——CVPR2024《Learning by Correction: Efficient Tuning Task for Zero-Sho
    一、研究背景  视觉-语言模型是一类能够处理和理解图像及其相关文本信息的模型,它们在多种视觉-语言任务中展示了卓越的性能。这些任务包括图像描述(imagecaptioning)、视觉问题回答(visualquestionanswering)、图像-文本检索(image-textretrieval)等。这些模型通常经过大规......