- 2024-11-01HumanEval: 语言模型生成代码的评估方法
论文地址:EvaluatingLargeLanguageModelsTrainedonCode本文尝试从代码层面分析一下这个数据集是如何衡量从文档生成代码的功能正确性。安装condacreate-nhuman-evalpython=3.7condaactivatehuman-evalgitclonehttps://github.com/openai/human-evalpipinstall
- 2024-07-01BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准
HumanEval是一个用于评估大型语言模型(LLM)在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估LLM编程能力方面的有效性越来越多的担忧,主要问题是HumanEval中的任务太简单,可能不能代表真实世界的编程任务。相比于HumanEval中的
- 2024-05-30HumanEval (2021年)
HumanEval:Hand-WrittenEvaluationSetHumanEval是一个OpenAI在2021年构造的代码生成LLM评估数据集。数据格式所有数据放在一个json文件中,每条数据包含提示词,有效代码示例,多个测试代码。下面是截取的第一条数据{"task_id":"HumanEval/0","prompt":"fromtypingimport
- 2024-05-30创新实训 (一)
为了提高在线评测系统的功能性,需要选择和集成一个强大的代码纠错大模型,用于自动分析和纠正用户提交的代码中的错误。这里的大模型我们选择使用清华大学开源的ChatGLM-CodeGeeX2。在该模型的基础上,选用程序设计试题的专门数据,进行Fine-turning的训练(即微调)。为了令CodeGeeX在