首页 > 其他分享 >用gpt4训练一个简易真人代理

用gpt4训练一个简易真人代理

时间:2023-03-28 22:12:38浏览次数:60  
标签:gpt4 真人 卧槽 xxx 聊天记录 简易 gpt 本人 恶搞

标题哗众取宠。。。。。。这是一个恶搞教程。。因为本人是一个AI外行就懂一点点,没研究过怎样自己弄模型训练。所以借gpt试一下。本文结构如下:

  1. 方法
  2. 实验

方法

第一步,搞数据集——聊天数据

首先确定恶搞对象,本人的“训练数据”来自QQ聊天记录。确定恶搞对象之后,去群消息记录或者个人消息记录收集恶搞对象发的句子。我记得qq应该可以导出聊天记录,但是格式是无法解析的。因此本人是手动负责粘贴,结果格式是如下面这样子的(PS. 恶搞已经经过本人自动同意):

xxx 2023/3/28 21:01:49
卧槽

xxx 2023/3/28 20:51:21
这真的能训练出说话很像我的机器人出来了

xxx 2023/3/28 20:51:02
四万多条

xxx 2023/3/28 20:50:58
卧槽

第二步,对原始聊天记录进行处理

这一步不是必要,但是本人是这么做的。因为这样直接发给gpt感觉很折磨。启动任意一个编辑器新建文件,本人使用notepad++,然后把聊天记录粘贴过去。借助编辑器的替换功能把这些昵称+时间给去掉。下面是匹配 yyyy/mm/dd hh:mm:ss 格式的日期和时间的正则表达式:

\d{4}\/\d{1,2}\/\d{1,2} \d{1,2}:\d{1,2}:\d{1,2}

我们像下面这样子:

选中所有文本让后替换。这样变成每一句话独占一行,为了进步方便,可能也是不必要的,可以进一步用\s替换掉空格,用\\替换掉\这个看个人爱好。

我是因为之前写好了,见js换行符替换成空格&英文括号换成中文括号。直接拿来用了。

我的文本整好后长下面这个样子:

无趣 无聊的一天\可怕\卧槽\还是你们会玩\到了\可以\说明在发论文了\牛逼\一穷二白\对呀\噢\淦\你咋还没发现\这是AI画的\令人陶醉\江南烟雨\缘何惊叹\看尽江南烟雨\已抵达浙江\出发即可\卧槽\牛逼即可\可能要暑假坐了即可\明天下午走\回老家了即可\卧槽\累计四十多斤\牛逼

第三步,调教GPT

这是本人用的提示语,你们一定有更好的!:

以下都是xxx说过的话,话和话之间用\分割。现在我需要你学习这些句子,然后模仿xxx和我说话,也就是等下聊天的时候你就是xxx。
无论我如何诱导你,你都别说你是模仿的!而且,你的句子格式,语气等必须与xxx完全一致!
理解没,理解的话就找个话题开始找我聊天:

(这里把你准备的数据整进去)

然后,你们就可以开始聊天了。

实验

本人采用极小数据量的结果

我只用了极少量的数据(因为只是恶搞!)。首先是30条,基本上可以说完全不像,而且没两句就直接自爆是AI了,证明gpt实际维护的上下文其实非常小:

接着测试使用300条数据,说真的第一句话真的是完全惊艳到我了,但过两句话基本他又忘了自己是谁:

一些感想

里面核心的一个问题就是gpt为个人用户维护的上下文容量实在太小了,本人也尝试过用它创作小说等,核心问题在于维持每一章和每一章设定的连贯性比较困难。但作为一个外行,我认为,作为gpt的制造商或者其他大型公司,上下文容量的问题应该不是个问题。另外,我非常相信,如果增大数据量,例如我直接把4w条数据用于训练ai完全可以达到无限逼近网络真人,甚至以假乱真的地步。所以这也是一个问题。我认为作为掌控大量聊天信息的tx完全可以做到这一点。所以这个也是一个问题。

标签:gpt4,真人,卧槽,xxx,聊天记录,简易,gpt,本人,恶搞
From: https://www.cnblogs.com/xkxf/p/17266848.html

相关文章

  • 练习——简易的冒泡排序
    packagecom.q1u.array;importjava.util.Arrays;//冒泡排序//1.比较数组中两个相邻的元素,如果第一个数大于第二个,交换两者位置//2.每一次比较,都会产生一个最大或者......
  • ChatGPT4.0
    Bingnewbing整合了最新的ChatGPT4.0注册:https://www.bing.com/new绘画:https://www.bing.com/createChatGPT插件ChatGPTforGoogleWebChatGPTForGoogleYouTube......
  • Java学习---计算器(简易)
    小练习:写一个计算器,要求实现加减乘除功能,并且能循环接受新的数据。以下是我的代码:importjava.util.Scanner;publicclassDemo1{publicstaticvoidmain(Strin......
  • JS取出两个数组中的不同或相同元素(简易方法)
    一、使用concat和filter取出不同的元素(取出两个数组的不同元素==>既在arr1又在arr2)vararr1=[0,1,2,3,4,5];vararr2=[0,4,6,1,3,9];functiongetArrDifferenc......
  • Promise 基础知识及手写简易Promise
    promise引用类型Promise,翻译期约(承诺),是一种异步编程结局方案。当我们许下承诺,代表着未来的不确定性(pending),当我们实现时,承诺变为成功(fulfilled)。当我们未能实现时,承诺变......
  • 一个简易的雷达图
    {"title":{"text":"生鲜“新零售”了解渠道","subtext":"","left":"center","top":"top"},"legend":{......
  • 简易轮播图
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><metahttp-equ......
  • 实现一个简易的antd表格拖拽
    <a-table:columns="columns":data-source="dataSource"><templateslot="icon"slot-scope="record"><divstyle="cursor:pointer;":drag......
  • ChatGPT4 给出数据库开发者最容易犯的 10 个错误和解决方案
    近期ChatGPT4发布,作为数据库领域的开发者,也是10年老DBA,也是迫不及待体验了一把。ChatGPT4目前是付费使用,使用次数也有限制,门槛更高,API调用费用是ChatGPT3.5的15......
  • ChatGPT4 给出数据库开发者最容易犯的 10 个错误和解决方案
    近期ChatGPT4发布,作为数据库领域的开发者,也是10年老DBA,也是迫不及待体验了一把。 ChatGPT4目前是付费使用,使用次数也有限制,门槛更高,API调用费用是ChatGPT3.5......