在当今信息爆炸的时代,写作已不仅仅是表达思想的工具,更是沟通、分享和影响的桥梁。然而,面对要求逐渐增高的写作需求,许多创作者开始感到力不从心,尤其在于如何生成长度超过10,000字的长文本。这时,清华大学推出的 LongWriter 模型应运而生,成为解决这一困境的利器。
LongWriter是一款专为生成长篇内容而设计的语言模型,能够处理复杂的写作任务。无论是长篇小说、详细的旅游指南,还是需要深入探讨的课题,LongWriter都能轻松应对。该模型基于GLM-4和Meta-Llama-3.1训练而成,关键版本包括LongWriter-glm4-9b和LongWriter-llama3.1-8b,展现出卓越的文本生成能力。
在写作的过程中,许多作者、记者、学生以及内容创作者常常遇到以下问题:
字数不足:需要更长的内容来满足出版或作业要求。
信息深度不足:如何在短时间内撰写详尽的分析报告或研究文章。
创意匮乏:面对复杂的主题时,难以展开足够的创意和细节。
时间紧迫:需在有限的时间内完成高质量的长文本。
当前的长上下文大语言模型(LLMs)可以处理多达100,000个标记的输入,**但却难以生成超过2,000字的输出。**通过控制实验,发现模型的有效生成长度本质上受到监督微调(SFT)过程中所见样本的限制。换句话说,输出限制是由于现有SFT数据集中缺乏长输出示例。
为了解决这个问题,作者引入了AgentWrite,这是一种基于代理的流程,将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000字的连贯输出。利用AgentWrite,构建了LongWriter-6k,一个包含6,000个输出长度从2,000字到32,000字不等的SFT数据集。通过将该数据集纳入模型训练,成功地将现有模型的输出长度扩展到超过10,000字,同时保持输出质量。作者还开发了LongBench-Write,一个用于评估超长生成能力的综合基准测试。9B参数模型,通过DPO进一步改进,在这个基准测试中达到了最先进的性能,甚至超越了许多更大的专有模型。
AgentWrite首先将长写作任务分解为多个子任务,每个子任务只要求模型写一个段落。然后,模型依次执行这些子任务,并将子任务的输出连接起来,
第一步:规划
受到人类作家思维过程的启发,作家通常在开始长篇写作任务时会制定一个总体计划,通常包括列出结构并规划每个部分的内容和长度。我们利用LLMs的规划能力,根据写作指令输出这样的写作大纲,其中包括每段的主要内容和字数要求。
第二步:写作
在从第一步获得写作计划后,我们依次调用LLM完成每个子任务,逐段生成写作内容。为了确保输出的连贯性,当我们调用模型生成第n段时,我们还输入之前生成的n−1段,让模型基于现有的写作历史继续写下一段。尽管这种串行方式防止了并行调用模型同时完成多个子任务,并且输入长度变得更长,但我们的验证显示,通过这种方式获得的写作整体连贯性和质量远优于并行生成的输出。
LongWriter通过其强大的文本生成能力,极大地提高了长文本创作的效率与质量。它能够:
扩展故事情节与角色:对于小说作者,LongWriter不仅能够生成丰富的情节和角色,还能建议更具吸引力的故事发展。
撰写详尽的报告:记者和分析师可以利用LongWriter生成全面的市场分析或深度新闻报道,节省时间并提升信息的全面性。
丰富旅行指南:旅游创作者可以使用LongWriter生成包括文化、历史及实用建议的详细指南,帮助游客更好地规划行程。
制作教育材料:教师可以借助LongWriter创建更直观和深入的教材,帮助学生理解复杂概念。
优化内容创作:内容创作者可根据不同平台的需求,使用LongWriter生成高质量的原创内容,提高其创作效率。
自动生成技术文档:企业可以利用LongWriter快速制作用户手册或产品说明,降低人力成本,提高工作效率。
开源地址:https://github.com/THUDM/LongWriter
标签:输出,模型,清华大学,生成,LongWriter,000,写作 From: https://blog.csdn.net/weixin_40425640/article/details/141216436