• 2024-07-01BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准
    HumanEval是一个用于评估大型语言模型(LLM)在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估LLM编程能力方面的有效性越来越多的担忧,主要问题是HumanEval中的任务太简单,可能不能代表真实世界的编程任务。相比于HumanEval中的