目录
查询建议和扩展建议(Query Suggestion and Expansion)
数据增强(Data Augmentation):生成保持类别标签的合成数据,用于增加训练或测试数据集。
对抗样本生成(Adversarial Example Generation):保留标签的文本修改,在语义上等价但可能导致模型预测改变的文本。
语言隐写术(Linguistic Steganography):在文本中隐藏信息,使得外部观察者无法察觉通信的发生。
离合词创作(Acrostification):重写文本使其包含一个离合词(首字母组成特定信息的文本)。
自然语言水印(Natural Language Watermarking):在文本中插入不易被人类察觉的隐藏模式,以识别原作者。
信息伪装(Information Disguise):改写文本以隐藏或模糊某些信息。
文字编辑(Copy Editing):修正拼写、语法错误,消除重复和歧义,同时保持原意。
提高连贯性(Improvement of Coherence):重写文本以提高其连贯性,使读者更容易理解,但不改变信息内容。
文本简化(Text Simplification):使用更简单的语法和词汇重写文本,同时保持原意。
句子压缩(Sentence Compression):创建一个更短的句子版本,保留原句的主要含义。
句子扩展(Sentence Expansion):以创造性的方式扩展一个短句,但保持原意。
风格调整(Style Adjustment):调整文本以适应特定的时间、场合或读者群,同时保持原意。
上下文变化(Context Change):改变文本的上下文,但保持核心含义。
风格转换(Style Transfer):改变文本的写作风格。
作者混淆(Author Obfuscation):改变文本以隐藏作者的写作风格。
抄袭(Plagiarizing):重写他人的文本以避免被检测为抄袭。
积极重构(Positive reframing):积极重构是情绪转移的一个子任务。
文本本地化(Text Localization):本地化是指将文本改编为不同的受众,这些受众包括来自不同地区、文化或年龄的群体。
(文中没讲)文本修复(Text Repair):修复损坏或不完整的文本,尽可能恢复原意。
(文中没讲)问题重构(Question Reformulation):以不同方式重新表述问题。
(文中没讲)观点转换(Perspective Change):从不同角度重写文本。
(文中没讲)语言迁移(Language Transfer):在保持原意的同时,将文本翻译成另一种语言。
(文中没讲)专业术语转换(Jargon Translation):将专业术语转换为更通俗的表达。
(文中没讲)情感强度调整(Sentiment Intensity Adjustment):调整文本的情感强度,但保持基本情感倾向。
(文中没讲)文本摘要(Text Summarization):创建文本的简短版本,保留主要信息。
(文中没讲)段落扩展(Paragraph Expansion):扩展一个简短的段落,添加更多细节或解释。
前言
2024.lrec
地址:
Task-Oriented Paraphrase Analytics - ACL Anthology
代码:
GitHub - webis-de/LREC-COLING-24
正文
主要就是讲一讲近几年复述生成的应用
复述生成和搜索引擎
-
查询建议和扩展建议(Query Suggestion and Expansion)
查询建议的目标是为搜索引擎的输入查询生成类似的搜索查询。提出的搜索查询应该保留原始的搜索意图(Sordoni et al., 2015),这可以大致等同于相似的含义。例如,当在谷歌中输入以下原始查询时,建议使用意译查询。
O: why do we yawn
P: why do we yawn so much
复述生成和数据集
-
数据增强(Data Augmentation):生成保持类别标签的合成数据,用于增加训练或测试数据集。
数据增强数据增强意味着通过类标签保持转换生成合成标记数据。在需要语义对等的任务环境中(例如,机器翻译),生成的示例保留了原始示例的含义。用释义增强训练或测试数据已被证明对对话系统是有用的,机器翻译,问答,阅读理解,总结和文本分类。
信息安全和复述生成
-
对抗样本生成(Adversarial Example Generation):保留标签的文本修改,在语义上等价但可能导致模型预测改变的文本。
下面是一个情绪分类的对抗性例子,其中原始文本被正确地标记为消极情绪,但释义文本被错误地分类为积极情绪。
O: There is no pleasure in watching a child suffer.→ negative sentiment
P: In watching the child suffer, there is no plea-sure. → positive sentiment
-
语言隐写术(Linguistic Steganography):在文本中隐藏信息,使得外部观察者无法察觉通信的发生。
-
离合词创作(Acrostification):重写文本使其包含一个离合词(首字母组成特定信息的文本)。
跨缩略词是文本中的信息,可以通过连接每行的首字母来解码。Acrostification是重写文本,使其包含一个离合词的任务,由Stein等人(2014)建模为释义任务。下面的原文经过改写,包含了缩略词“HOPE”。
O: To achieve your dreams, stay optimistic and persistent despite doubts. Embrace high expectations and let your light shine.
P: Hold onto your dream while mindful oftime
Optimism required, let your light shine
Persistence prevails, while it may cast doubt
Expectation desired is what it’s about.
-
自然语言水印(Natural Language Watermarking):在文本中插入不易被人类察觉的隐藏模式,以识别原作者。
-
信息伪装(Information Disguise):改写文本以隐藏或模糊某些信息。
信息伪装的任务是重写文本,使原文的来源无法确定,甚至用搜索引擎。Agarwal等人(2023)在社交媒体上关于敏感话题(如心理健康、吸毒)的帖子应该公开的背景下提出了这个任务,并提出了他们解决这个问题的释义方法。
纯复述生成
-
文字编辑(Copy Editing):修正拼写、语法错误,消除重复和歧义,同时保持原意。
文字编辑是重写文本的任务,以“消除读者和作者想要传达的内容之间的任何障碍”(Butcher, 1975)。这些“障碍”包括拼写和语法错误、重复、歧义、事实错误和误导性信息。克服这些障碍、保留原文意义的编辑被称为释义。例如,将"The company have many employes"改为"The company has many employees"。
-
提高连贯性(Improvement of Coherence):重写文本以提高其连贯性,使读者更容易理解,但不改变信息内容。
这个任务关注文本的逻辑流程和连贯性。改写者需要重组句子或添加过渡词,使文本更容易理解,但不改变原始信息。例如,添加连接词或重新安排句子顺序,使段落更加连贯
O: In the lungs, carbon dioxide leaves the circulating blood and oxygen enters it.
P: In the lungs, carbon dioxide that has been collected from cells as blood has passed aroundthe body, leaves the circulating blood and oxygen enters it.
-
文本简化(Text Simplification):使用更简单的语法和词汇重写文本,同时保持原意。
O: He settled in London, devoting himself chiefly to practical teaching.
P: He lived in London. He was a teacher.
-
句子压缩(Sentence Compression):创建一个更短的句子版本,保留原句的主要含义。
O: The future of the nation is in your hands.
P: The nation’s future is in your hands.
-
句子扩展(Sentence Expansion):以创造性的方式扩展一个短句,但保持原意。
O: The nation’s future is in your hands.
P: The future of the nation is in your hands.
-
风格调整(Style Adjustment):调整文本以适应特定的时间、场合或读者群,同时保持原意。
每篇文章都传达了作者的特征,并根据特定的时间、地点和场景进行调整(Jin et al., 2022)。这些特征被称为风格,与语义内容不同。风格包括情感、幽默、礼貌、形式和语码转换(Xu et al., 2021)。样式调整任务旨在修改文本并控制这些属性,同时保留其含义,这使其成为释义任务。
-
上下文变化(Context Change):改变文本的上下文,但保持核心含义。
一篇文章的背景以及在给定文本之前和之后的部分被称为上下文(Ben-Amos, 1993)。语境改变的释义任务是改写文本以适应新的语境,同时保留其大部分意思。
-
风格转换(Style Transfer):改变文本的写作风格。
以下文本对代表了由STRAP风格转换系统生成的将推文风格转换为莎士比亚风格的原始文本。
O: Yall kissing before marriage?
P: And you kiss’d before your nuptial?
-
作者混淆(Author Obfuscation):改变文本以隐藏作者的写作风格。
改写文本,使该文本的原作者无法再被验证。为了混淆作者,需要改变原文的风格特征。
在下文中,我们给出了Bevendorff等人(2020)的作者混淆方法的一个例子。这个例子摘自莱斯特·德尔·雷伊(Lester del Rey)的《胜利》(Victory),其中原文的作者被混淆了。
O: Three billion people watching the home fleet take off, knowing the skies were open for all
the hell that a savage enemy could send!
P: Three billion people watching the home fleet take off, deciding the skies were resort for all
the mischief that a savage enemy could send!
-
抄袭(Plagiarizing):重写他人的文本以避免被检测为抄袭。
抄袭是指在没有注明原作者的情况下,重复使用他人的想法、成果或文字。释义是剽窃文本的潜在机制。下面是来自P4P语料库(Potthast等人,2010)的一个原始文本和抄袭文本的例子。
O: “What a darling” she said; “I must give her something very nice”
P: “Oh isn’t she sweet!” she said, thinking that she should present with some kind of special gift.
-
积极重构(Positive reframing):积极重构是情绪转移的一个子任务。
情感转移的目的是改写文本,使原来的消极情绪转化为积极情绪,反之亦然。与情感转移相反,积极重构的文本通过采取互补的积极观点来暗示初衷(Ziems et al., 2022)。本文使用上述工作中的一个示例来说明此任务。
O: This was a bland dish.
P: I’ve made dishes that are much tastier than this one.
改写后的文本仍然传达了原意,但将重点转移到积极的、自我肯定的角度。因为它紧跟原文,这可以被认为是一个释义。
-
文本本地化(Text Localization):本地化是指将文本改编为不同的受众,这些受众包括来自不同地区、文化或年龄的群体。
O: The price for a pound of rice is around one dollar.
P: The price for halfa kilo of rice is around one euro and 50 cents.
上面的例子可以解释为为欧洲读者改写原文。由于一磅不完全等于半公斤,而且价格是根据各自的地区而定的,所以这些文本在语义上并不完全相同,但相似程度足以被认为是意译。
-
(文中没讲)文本修复(Text Repair):修复损坏或不完整的文本,尽可能恢复原意。
-
(文中没讲)问题重构(Question Reformulation):以不同方式重新表述问题。
-
(文中没讲)观点转换(Perspective Change):从不同角度重写文本。
-
(文中没讲)语言迁移(Language Transfer):在保持原意的同时,将文本翻译成另一种语言。
-
(文中没讲)专业术语转换(Jargon Translation):将专业术语转换为更通俗的表达。
-
(文中没讲)情感强度调整(Sentiment Intensity Adjustment):调整文本的情感强度,但保持基本情感倾向。
-
(文中没讲)文本摘要(Text Summarization):创建文本的简短版本,保留主要信息。
-
(文中没讲)段落扩展(Paragraph Expansion):扩展一个简短的段落,添加更多细节或解释。
复述生成和图像标题
-
图像重配(Image Recaptioning):图像重配是为已经加了标题的图像分配标题以使其适合新的所需上下文的过程
Gohsen等人(2023)分析了图像的几个标题,发现它们通常是彼此的释义。MSCOCO (Lin et al., 2015)(即每个图像具有多个标题的数据集)作为释义的训练或测试集的流行表明,重新制定标题是一个复述生成任务。
O: Twelfth century illustration ofa man digging.
P: An English serf atwork digging, circa 1170.
由于图片使用的背景发生了变化(即来自维基百科中世纪关于挖掘和英国农业的文章中的图片),我们可以检测到轻微的语义变化。例如,从释义中我们了解到,图像中的挖掘人是一个英国农奴,这在原文中并没有暗示
标签:Task,生成,Oriented,Analytics,复述,文中,文本,重写,释义 From: https://blog.csdn.net/qq_40081495/article/details/140133155