bigcodebench

2024-07-01BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准
HumanEval是一个用于评估大型语言模型(LLM)在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估LLM编程能力方面的有效性越来越多的担忧，主要问题是HumanEval中的任务太简单，可能不能代表真实世界的编程任务。相比于HumanEval中的