首页 > 其他分享 >清华大学LongWriter语言模型

清华大学LongWriter语言模型

时间:2024-08-18 13:57:23浏览次数:8  
标签:输出 模型 清华大学 生成 LongWriter 000 写作

在当今信息爆炸的时代,写作已不仅仅是表达思想的工具,更是沟通、分享和影响的桥梁。然而,面对要求逐渐增高的写作需求,许多创作者开始感到力不从心,尤其在于如何生成长度超过10,000字的长文本。这时,清华大学推出的 LongWriter 模型应运而生,成为解决这一困境的利器。

LongWriter是一款专为生成长篇内容而设计的语言模型,能够处理复杂的写作任务。无论是长篇小说、详细的旅游指南,还是需要深入探讨的课题,LongWriter都能轻松应对。该模型基于GLM-4和Meta-Llama-3.1训练而成,关键版本包括LongWriter-glm4-9b和LongWriter-llama3.1-8b,展现出卓越的文本生成能力。

在写作的过程中,许多作者、记者、学生以及内容创作者常常遇到以下问题:

字数不足:需要更长的内容来满足出版或作业要求。
信息深度不足:如何在短时间内撰写详尽的分析报告或研究文章。
创意匮乏:面对复杂的主题时,难以展开足够的创意和细节。
时间紧迫:需在有限的时间内完成高质量的长文本。

当前的长上下文大语言模型(LLMs)可以处理多达100,000个标记的输入,**但却难以生成超过2,000字的输出。**通过控制实验,发现模型的有效生成长度本质上受到监督微调(SFT)过程中所见样本的限制。换句话说,输出限制是由于现有SFT数据集中缺乏长输出示例。

为了解决这个问题,作者引入了AgentWrite,这是一种基于代理的流程,将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000字的连贯输出。利用AgentWrite,构建了LongWriter-6k,一个包含6,000个输出长度从2,000字到32,000字不等的SFT数据集。通过将该数据集纳入模型训练,成功地将现有模型的输出长度扩展到超过10,000字,同时保持输出质量。作者还开发了LongBench-Write,一个用于评估超长生成能力的综合基准测试。9B参数模型,通过DPO进一步改进,在这个基准测试中达到了最先进的性能,甚至超越了许多更大的专有模型。

AgentWrite首先将长写作任务分解为多个子任务,每个子任务只要求模型写一个段落。然后,模型依次执行这些子任务,并将子任务的输出连接起来,

第一步:规划

受到人类作家思维过程的启发,作家通常在开始长篇写作任务时会制定一个总体计划,通常包括列出结构并规划每个部分的内容和长度。我们利用LLMs的规划能力,根据写作指令输出这样的写作大纲,其中包括每段的主要内容和字数要求。

第二步:写作

在从第一步获得写作计划后,我们依次调用LLM完成每个子任务,逐段生成写作内容。为了确保输出的连贯性,当我们调用模型生成第n段时,我们还输入之前生成的n−1段,让模型基于现有的写作历史继续写下一段。尽管这种串行方式防止了并行调用模型同时完成多个子任务,并且输入长度变得更长,但我们的验证显示,通过这种方式获得的写作整体连贯性和质量远优于并行生成的输出。

在这里插入图片描述
LongWriter通过其强大的文本生成能力,极大地提高了长文本创作的效率与质量。它能够:

扩展故事情节与角色:对于小说作者,LongWriter不仅能够生成丰富的情节和角色,还能建议更具吸引力的故事发展。

撰写详尽的报告:记者和分析师可以利用LongWriter生成全面的市场分析或深度新闻报道,节省时间并提升信息的全面性。

丰富旅行指南:旅游创作者可以使用LongWriter生成包括文化、历史及实用建议的详细指南,帮助游客更好地规划行程。

制作教育材料:教师可以借助LongWriter创建更直观和深入的教材,帮助学生理解复杂概念。

优化内容创作:内容创作者可根据不同平台的需求,使用LongWriter生成高质量的原创内容,提高其创作效率。

自动生成技术文档:企业可以利用LongWriter快速制作用户手册或产品说明,降低人力成本,提高工作效率。

开源地址:https://github.com/THUDM/LongWriter

标签:输出,模型,清华大学,生成,LongWriter,000,写作
From: https://blog.csdn.net/weixin_40425640/article/details/141216436

相关文章

  • 关于大语言模型时代下自学的一点想法
    大语言模型的应用​ 自从OpenAI公司的ChatGPT3产品问世以来,自然语言模型在这两年呈现井喷式发展,如今ChatGPT4o、ChatGPT4、Claude3.5Sonnet等大模型甚至能够在中国的2024年全国卷高考中取得及格线以上的成绩。但是自然语言模型不可避免的会产生幻觉,以及受到语料库的内容质量......
  • SciTech-Mathmatics-Mathmatical Analysis-Series: 解数列通项的通用模型
    解数列通项的通用模型......
  • AI语言大模型商业价值深度解析
    点击蓝字关注我随着人工智能(AI)技术的飞速发展,特别是深度学习算法的进步,AI语言大模型在自然语言处理领域的表现日益突出。国内外多种语言大模型如:OpenAi的ChatGpt,阿里通义千问,百度文心一言,科大讯飞星火大模型等等纷纷推出相关应用以及算力服务。这些模型通过大规......
  • 月薪两万的大模型’考官’:我的职业故事
    在最近的招聘市场上,一大波有关“AI数据标注员”的岗位开启了火热招聘,而这一现象背后,离不开大模型热与大厂的大模型布局。这篇文章里,作者就做了一定的讲述和分析,一起来看一下。“人均月薪两万、本科以上学历、直通百度字节。”有些许荒凉的年底招聘市场,在最近的短短一周......
  • 五种IO模型
    目录一、五种IO模型(一)阻塞IO(二)非阻塞IO(三)信号驱动IO(四)IO多路转接(五)异步IO二、高级IO重要概念(一)同步通信与异步通信(二)阻塞与非阻塞理解这四者的关系在进行网络编程或文件操作时,IO模型的选择对程序的性能和效率有着重要的影响。本文将介绍五种IO模型,并详细讨论非阻......
  • DataWhale AI夏令营-大模型微调-学习笔记3
     Task1:从零入门大模型微调一、问题概述从零入门大模型微调是Datawhale2024年AI夏令营第四期的学习活动(“大模型技术”方向),基于讯飞开放平台“星火大模型驱动阅读理解题库构建挑战赛”开展的实践学习。学习内容:基于讯飞大模型定制训练平台和spark-13b微调模型,生成高考......
  • Datawhale X 魔搭 AI夏令营-大模型应用(二)
    一.首先重大突破是完成了向量数据库的搭建二.初次的版本由于每次运行都要下载yuan模型,且每次都要运行模型嵌套函数,导致模型运行卡顿,以下是初版三.后来我们组想到可以先把模型下载到本地,然后优化代码,把两个代码文件合二为一,成功的提了速度,期间还有懒加载的思考,还有max_new_tok......
  • JUC3-共享模型之管程
    目录共享带来的问题分析临界区CriticalSection竞态条件RaceConditionsynchronized解决方案语法1语法2线程八锁变量的线程安全成员变量和静态变量是否线程安全?局部变量是否线程安全?常用线程安全类MonitorJava对象头Monitor(监视器/管程)原理:synchronized轻量级......
  • 大模型相关问题
    大模型问题汇总llama2注意力机制,手写分组注意力机制GQA分组注意力机制(为了加速模型训练和推理,MHA每个head都需要一个QKV矩阵,于是有了将K,V矩阵分组,几个head共用一个KV矩阵,Q矩阵不变)MQA则是所有的head共用KV矩阵langchain介绍,主要组件langchain主要包含langchain,la......
  • 【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
     ......