本文是LLM系列文章,针对《Analysis of Code and Test-Code generated by Large Language Models》的翻译。
大型语言模型生成的代码和测试代码的分析
摘要
ChatGPT 和 Copilot 等大型语言模型 (LLM) 正在通过自动生成代码来改变软件开发,并且可以说可以实现快速原型设计、支持教育并提高生产力。因此,生成的代码的正确性和质量应该与手动编写的代码相当。为了评估法学硕士在生成高质量正确代码方面的现状,我们使用 ChatGPT 和 Copilot 进行了对照实验:我们让法学硕士用 Java 和 Python 生成简单的算法以及相应的单元测试,并评估正确性和质量(覆盖率) )生成的(测试)代码。我们观察到法学硕士之间、语言之间、算法和测试代码之间以及随着时间的推移存在显着差异。本文报告了这些结果以及实验方法,允许随着时间的推移对更多算法、语言和法学硕士进行重复和可比较的评估。
1 引言
2 方法
3 进行实验
4 测试结果的评估
5 讨论
6 相关工作
7 结论和未来工作
研究表明LL
标签:Code,Language,Models,代码,生成,算法,法学硕士,评估 From: https://blog.csdn.net/c_cpp_csharp/article/details/142351629