GPT-4o不仅能写代码，还能自查Bug，程序员替代进程再进一步！

时间：2024-07-05 19:26:49浏览次数：21

标签：错误代码 4o WildCard GPT Bug CriticGPT

1 CriticGPT

01 综合性（Comprehensiveness）：

02 幻觉问题（Hallucinates a problem）：

2 其他 CriticGPT 案例

随着人工智能（AI）技术不断进步，AI在编程领域的应用取得了显著的成果。

通过使用自然语言处理（NLP）和机器学习（ML）技术，AI可以自动生成代码、检测错误并优化性能。

一个例子是OpenAI的Codex模型，它可以根据自然语言描述生成相应的代码片段，极大地提高了编程效率。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

1 CriticGPT

最近，OpenAI发布了一个名为CriticGPT的新模型，它是基于GPT-4训练的。CriticGPT专门用于审查由ChatGPT编写的代码，并捕捉其中的错误。

来看一下官网提供的例子，用户提交的需求是：

编写一个 Python 函数，该函数接受一个表示文件路径的字符串，并返回该文件的文件对象。禁止访问目录 "/safedir" 之外的文件。

GPT 给出了如下代码。

CriticGPT 提出了改进建议：

检查文件绝对路径是否在目录内时，使用 startswith() 存在安全风险。这是因为用户可以通过使用符号链接或类似命名的目录来利用漏洞。

为了增加安全性，建议使用 os.path.commonpath([absolute_file_path, absolute_safe_dir]) 或其他更健壮的路径包含方法来进行检查。

CriticGPT 能够帮助人类训练者在基于人类反馈的强化学习（RLHF）期间发现错误，并且使用 CriticGPT 的帮助，人类训练师在审查效果上比没有获得帮助的人强 60%。

下图展示了三种不同方法在编写批评性评论（critiques）时的表现比较：

Human（人类）

CriticGPT

Human + CriticGPT（人类 + CriticGPT）

01 综合性（Comprehensiveness）：

用百分比表示批评意见的全面性。图表显示，与单独工作相比，当人类训练师使用 CriticGPT 时，他们提供了更全面的批评意见。

02 幻觉问题（Hallucinates a problem）：

表示错误地识别问题的百分比，这个指标越低越好。图表显示，人类训练师在使用 CriticGPT 时，产生的幻觉错误比模型单独工作时更少。

OpenAI 正计划将类似 CriticGPT 的模型集成到其 RLHF 标记管道中，以提供更明确的 AI 帮助。

然而，目前 CriticGPT 还存在一些限制，例如它主要是通过 ChatGPT 进行短答案训练的，未来需要开发能够帮助理解冗长且复杂任务的方法。

此外，CriticGPT 偶尔会产生幻觉，导致训练师标记错误，而且在现实世界中的错误可能分散在答案的多个部分中，需要模型指出这些分散的错误。

对于极为复杂的任务或回应，即使是受到模型辅助的专家也可能无法正确评估。

2 其他 CriticGPT 案例

下图展示了如何编写一个安全的 Python 函数来返回指定路径的文件对象，同时确保文件在指定的安全目录内。

CriticGPT 提出了多项批评与改进建议，包括路径检查方法的安全性、文件打开模式的选择，以及错误处理的安全性。

如下是一段包含加密和解密函数的Python代码示例：

def encrypt(message, key):
    # 加密逻辑
    pass

def decrypt(ciphertext, key):
    # 解密逻辑
    pass

对于这段代码，CriticGPT提供了以下建议：

CriticGPT指出了代码中潜在的安全问题和逻辑错误，并强调了在加密和解密过程中验证消息完整性和真实性的重要性。

CriticGPT还提到了代码中处理错误的不足，特别是在处理字符串编码和解码时。

图表中指出“至少有一个此类评论来自于CriticGPT是一个幻觉错误”，即说明CriticGPT有时可能提供不准确或不相关的评论。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！官网有更详细介绍：WildCard

GPT-4o不仅能写代码，还能自查Bug，程序员替代进程再进一步！

1 CriticGPT

01 综合性（Comprehensiveness）：

02 幻觉问题（Hallucinates a problem）：

2 其他 CriticGPT 案例

相关文章

赞助商

阅读排行