• 2024-09-02LongWriter-6k 数据集开发利用 AgentWrite:一种在LLM中将输出长度扩展到超过10,000字,同时确保内容生成连贯且高质量的方法
    大语言模型(LLMs)的领域已经取得了巨大的进展,特别是在扩展其记忆容量以处理越来越多的上下文方面。现在这些模型可以处理超过100,000个标记的输入,使得它们能够执行高度复杂的任务,例如生成长篇文本、翻译大型文档和总结大量数据。然而,尽管在处理能力方面取得了这些进展,在生成等长
  • 2024-09-02LongWriter环境安装&推理测试
    ​引子一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。L
  • 2024-08-18清华大学LongWriter语言模型
    在当今信息爆炸的时代,写作已不仅仅是表达思想的工具,更是沟通、分享和影响的桥梁。然而,面对要求逐渐增高的写作需求,许多创作者开始感到力不从心,尤其在于如何生成长度超过10,000字的长文本。这时,清华大学推出的LongWriter模型应运而生,成为解决这一困境的利器。LongWriter是
  • 2024-08-16LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
    LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的L