首页 > 系统相关 >GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

时间:2024-07-05 19:26:49浏览次数:21  
标签:错误 代码 4o WildCard GPT Bug CriticGPT

目录

1 CriticGPT

01 综合性(Comprehensiveness):

02 幻觉问题(Hallucinates a problem):

2 其他 CriticGPT 案例


随着人工智能(AI)技术不断进步,AI在编程领域的应用取得了显著的成果。

通过使用自然语言处理(NLP)和机器学习(ML)技术,AI可以自动生成代码、检测错误并优化性能。

一个例子是OpenAI的Codex模型,它可以根据自然语言描述生成相应的代码片段,极大地提高了编程效率。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

CriticGPT

最近,OpenAI发布了一个名为CriticGPT的新模型,它是基于GPT-4训练的。CriticGPT专门用于审查由ChatGPT编写的代码,并捕捉其中的错误。

来看一下官网提供的例子,用户提交的需求是:

编写一个 Python 函数,该函数接受一个表示文件路径的字符串,并返回该文件的文件对象。禁止访问目录 "/safedir" 之外的文件。

GPT 给出了如下代码。

CriticGPT 提出了改进建议:

检查文件绝对路径是否在目录内时,使用 startswith() 存在安全风险。这是因为用户可以通过使用符号链接或类似命名的目录来利用漏洞。
 

为了增加安全性,建议使用 os.path.commonpath([absolute_file_path, absolute_safe_dir]) 或其他更健壮的路径包含方法来进行检查。

CriticGPT 能够帮助人类训练者在基于人类反馈的强化学习(RLHF)期间发现错误,并且使用 CriticGPT 的帮助,人类训练师在审查效果上比没有获得帮助的人强 60%。

下图展示了三种不同方法在编写批评性评论(critiques)时的表现比较:

  • Human(人类)
     
  • CriticGPT
     
  • Human + CriticGPT(人类 + CriticGPT)

01 综合性(Comprehensiveness):

用百分比表示批评意见的全面性。图表显示,与单独工作相比,当人类训练师使用 CriticGPT 时,他们提供了更全面的批评意见。

02 幻觉问题(Hallucinates a problem):

表示错误地识别问题的百分比,这个指标越低越好。图表显示,人类训练师在使用 CriticGPT 时,产生的幻觉错误比模型单独工作时更少。

OpenAI 正计划将类似 CriticGPT 的模型集成到其 RLHF 标记管道中,以提供更明确的 AI 帮助。

然而,目前 CriticGPT 还存在一些限制,例如它主要是通过 ChatGPT 进行短答案训练的,未来需要开发能够帮助理解冗长且复杂任务的方法。

此外,CriticGPT 偶尔会产生幻觉,导致训练师标记错误,而且在现实世界中的错误可能分散在答案的多个部分中,需要模型指出这些分散的错误。

对于极为复杂的任务或回应,即使是受到模型辅助的专家也可能无法正确评估。

2 其他 CriticGPT 案例

下图展示了如何编写一个安全的 Python 函数来返回指定路径的文件对象,同时确保文件在指定的安全目录内。

CriticGPT 提出了多项批评与改进建议,包括路径检查方法的安全性、文件打开模式的选择,以及错误处理的安全性。

如下是一段包含加密和解密函数的Python代码示例:

def encrypt(message, key):
    # 加密逻辑
    pass

def decrypt(ciphertext, key):
    # 解密逻辑
    pass

对于这段代码,CriticGPT提供了以下建议:

  • CriticGPT指出了代码中潜在的安全问题和逻辑错误,并强调了在加密和解密过程中验证消息完整性和真实性的重要性。

  • CriticGPT还提到了代码中处理错误的不足,特别是在处理字符串编码和解码时。

图表中指出“至少有一个此类评论来自于CriticGPT是一个幻觉错误”,即说明CriticGPT有时可能提供不准确或不相关的评论。


 如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard

推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

标签:错误,代码,4o,WildCard,GPT,Bug,CriticGPT
From: https://blog.csdn.net/ElevenSakura/article/details/140135770

相关文章

  • 大模型Linux本地化[离线]部署(以DB-GPT为例)
    DB-GPT本地化[离线]部署由于Python相关依赖包的获取极度依赖pip,而Miniconda支持环境隔离和环境打包,所以离线部署本质就是比在线部署多一步环境打包,环境搬迁。所以本篇文章一样适用于在线部署,以CentOS7为例。资源获取DB-GPT官方说明文档DB-GPT源码下载地址Nvidia驱动......
  • 做了一款服务网络安全的多端系统。内置AI(gpt4o)/ai绘画(sd)/ChatTTS,无需登陆免费使用
    上一篇魔盒介绍文章已被我删除,因为本次重新做了产品定位,之前定位有点混乱先上链接之前有个哥们说做了app还不如先做网站,因为不方便下载,这次做了哈。重点:里面有gpt4o,充了几十美元反正也用不完,给大家用了网页端:https://mgb.abyssdawn.com/H5端:https://mgb-h5.abyssdaw......
  • git新建分支的时候,使用fix/bug_123好还是fix_bug_123?
    在Git中创建分支时,选择分支名称的命名规范非常重要,因为它不仅有助于代码审查和协作,还能提高项目管理和追踪问题的效率。在给定的两个选项之间选择,fix/bug_123和fix_bug_123,通常推荐使用带有斜杠/的风格,即fix/bug_123,原因如下:语义清晰:使用/分隔符可以清楚地区分分支的......
  • 一起来找bug茬-01
    /***@description对HttpServletRequest请求的数据进行转义,防止xss攻击*URL:home.html?mothod=space&pid=335511*/publicclassXssHttpServletRequestWrapperextendsHttpServletRequestWrapper{privatebyte[]body;publicXssHttpServletRequestWrapper(......
  • 做了一款服务网络安全的多端系统。内置AI(gpt4o)/ai绘画(sd)/ChatTTS,无需登陆免费使用
    上一篇魔盒介绍文章已被我删除,因为本次重新做了产品定位,之前定位有点混乱先上链接之前有个哥们说做了app还不如先做网站,因为不方便下载,这次做了哈。重点:里面有gpt4o,充了几十美元反正也用不完,给大家用了网页端:https://mgb.abyssdawn.com/H5端:https://mgb-h5.abyssdawn.co......
  • Bug记录|vivia主题|Hexo+GitHub搭建个人博客
    1.将本地SSH添加到远程github 中,之后关联远程或push出现以下错误:fatal:Notagitrepository(oranyoftheparentdirectories):.git解决方案:执行 gitinit。gitinit2.hexog无法成功运行,出现以下错误:TypeError:C:\Users\Maxence\Desktop\项目\MyBlog\Hexo......
  • 量化界狠人,离职前埋了700处bug,公司惨亏近千万
    前段时间看了一部大火的台湾电影《周处除三害》,快结尾的时候有这么一个片段,就是陈桂林在灵修礼堂里面,将执迷不悔的邪教信徒们一个个爆头干掉,让人看得热血沸腾,直呼过瘾,着实一狠人也。这不禁也让我联想起之前看到过的一宗与量化相关的台湾刑事案件,有两个宽客不满公司未按承诺发......
  • 地理信息网络复习(from GPT)
    复习第一章概述WebGIS的概念以及系统架构:WebGIS(WebGeographicInformationSystem)是利用网络技术实现地理信息系(GIS)功能的系统。它结合了Web技术与GIS技术,用户可以通过浏览器访问和操作GIS数据。系统架构通常包括客户端、Web服务器、GIS服务器和数据库服务器等部分。W......
  • FOODGPT: A LARGE LANGUAGE MODEL IN FOOD TESTING DOMAIN WITH INCREMENTAL PRE-TRAI
    文章目录题目摘要方法题目食品测试的大型语言模型论文地址:https://arxiv.org/abs/2308.10173摘要    目前,特定领域的大型语言模型的构建是通过在基础模型上进行微调来完成的。有些模型还包含知识库,无需预先训练。这是因为基础模型在预训练过程中已经包......
  • Coding:小写一个debugfs
    Coding:小写一个debugfs​ 上一次整活还是在上一个月,写了一个简单的module并且熟悉了module的挂载查看和卸载。这一次我们自然玩一个大的,就是利用linux的debugfsAPI写一个调试文件系统。​ 事实上,底层的API全写好了,我们就是简单的调调API就成的事情!事先检查​ 第一步是检查我......