网站首页
编程语言
数据库
系统相关
其他分享
编程问答
CRUXEval
2024-11-13
CRUXEval: 代码推理、理解和执行的评估方法
CRUXEval(CodeReasoning,Understanding,andeXecutionEvaluation)是一个在HumanEval上进行改进的benchmark。由800个Pythonfunction组成。paper:CRUXEval:ABenchmarkforCodeReasoning,UnderstandingandExecutionGitHub:cruxeval评估过程每个函数都带有一