LongBench

2024-10-22LongBench: 一个双语多任务的长文本理解基准测试
LongBench:开创性的长文本理解评估基准在人工智能和自然语言处理领域,大语言模型(LLMs)的出现无疑是一场革命。这些模型在各种语言任务中展现出惊人的能力,但它们也面临着一个共同的挑战-长文本理解。大多数LLMs只能处理几千个token的输入,这严重限制了它们在处理长篇文档、报