首页 > 其他分享 >发布一个月,文心一言如今进化如何?

发布一个月,文心一言如今进化如何?

时间:2023-04-12 10:01:30浏览次数:30  
标签:一言 prompt 进化 绘画 文心 一个月 ChatGPT NewBing

距离百度3月16日文心一言发布会已经近一个月,在这段时间里我们也从各种渠道或多或少地了解到文心一言的一些表现,尤其是在画画方面的一些回答,已经作为段子在互联网广为流传。(配图)而就在前两天,我们也终于拿到了文心一言的体验资格,接下来我们将通过几个场景化任务来测试一下百度的大语言模型在当下究竟表现如何,是否真的有人们说的那么不堪。

发布一个月,文心一言如今进化如何?_文心一言

图为当前测试的版本信息


1. 中文理解

首先,作为国产的大语言模型,基于大量的中文语料训练,对中文的理解一定是我们比较关心的问题。在发布会上,百度也特意强调了这一点。那么,在实际表现中,文心一言与国外的大语言模型在中文理解上的差距究竟如何呢:


文心一言:

发布一个月,文心一言如今进化如何?_人工智能_02


ChatGPT:

发布一个月,文心一言如今进化如何?_ChatGPT_03


结果还挺令人意外的。在我们询问“推敲是什么意思”时,文心一言不但解释了“推敲”的含义,还讲述了这个词的来源并提供例句,而ChatGPT在词义的理解上没有问题,但一旦追问由来,又开始胡编乱造了。


2. 文字创作

第二个场景,我们选择了目前在ChatGPT上用的比较多的文字创作:


文心一言:

发布一个月,文心一言如今进化如何?_文心一言_04


ChatGPT:

发布一个月,文心一言如今进化如何?_人工智能_05


在本次生成的文字中,可以看出二者在遣词造句和行文的结构上都还是比较接近的,都是一个总分总的结构。区别在于文心一言只说了好的影响而ChatGPT考虑更为全面,还提到了一些负面的担忧。当然,我这里测试使用的prompt比较简单,而这个差异是可以通过细化prompt来消除的,总体而言,在文字生成方面,文心一言的表现还是可用的。


3. 实时信息


我们知道,ChatGPT的训练数据截止到2021年9月,对于近两年发生的事情ChatGPT是一窍不通只能胡编,那么文心一言在实时信息的查询上又表现如何呢?


文心一言:

发布一个月,文心一言如今进化如何?_ChatGPT_06


ChatGPT:

发布一个月,文心一言如今进化如何?_AI绘画_07


事实上,RTX 4090是在2022年10月左右公布的,因此在这个问题上,ChatGPT是“两眼一黑”,而文心一言看似提供了一个相对完整的答案,但细细一看就发现里面还是存在着错误的信息(价格和实际差距很大),显然相关的信息也没有得到及时更新。

在此基础上,我们又做了进一步的尝试,发现文心一言同样无法实时访问互联网信息,而且对于不同的问题其训练数据的截止时间也参差不齐,比如在查询京东显卡价格中最近数据是2022年11月17日的,而在天气的查询中又能够做到基本的实时。可以看出其训练的数据确实是在动态更新的,而且会根据场景有所侧重。

发布一个月,文心一言如今进化如何?_人工智能_08

发布一个月,文心一言如今进化如何?_文心一言_09



4. 逻辑推理

逻辑题一直都是这种大语言模型最容易犯错的地方,我也选了一道流传较广的ChatGPT经典错题来对文心一言进行测试:


文心一言:

发布一个月,文心一言如今进化如何?_AI绘画_10

发布一个月,文心一言如今进化如何?_ChatGPT_11

ChatGPT:

发布一个月,文心一言如今进化如何?_数据_12

发布一个月,文心一言如今进化如何?_数据_13


在第一个问题中,文心一言的表现完爆了ChatGPT,但是在第二个问题中,两者都回答错误了,而且文心一言还忽视了prompt中的要求,仍然展示了计算过程(实际上算上买的5个,7+5=12和ChatGPT答案一致,可以推测两者计算错误的点,即把吃掉的苹果从-1算成+1,也是相同的)。不知道大家觉得这个表现是否可以接受呢?


5. AI绘画

最后是大家都喜闻乐见的AI绘画场景,由于ChatGPT暂时无法生成绘画,因此这里我们使用微软的NewBing进行对比。NewBing的绘画生成由DALL-E提供支持,这也是GPT4使用的模型,同为OpenAI开发。


发布一个月,文心一言如今进化如何?_人工智能_14


发布一个月,文心一言如今进化如何?_AI绘画_15

发布一个月,文心一言如今进化如何?_ChatGPT_16

发布一个月,文心一言如今进化如何?_人工智能_17

(图源:网络)图太多可以考虑在排版时做成横向滑动



对于之前网络上传的比较火的这些案例,我们也尝试进行了复刻,具体表现如下:

可以看到在网友们的调侃下已经连夜修改了。当然,作为一种人民群众喜闻乐见的艺术形式,百度也留了一个窗口,只要在prompt的结尾加上#创意图#,就能解锁原先的效果。

发布一个月,文心一言如今进化如何?_文心一言_18发布一个月,文心一言如今进化如何?_人工智能_19

发布一个月,文心一言如今进化如何?_ChatGPT_20发布一个月,文心一言如今进化如何?_文心一言_21

除开这种段子型的绘画,在一些正常的绘画场合,文心一言的表现又如何呢?之前Midjourney V5有一幅作品很让人惊艳,我们找到了他的prompt,来看看在文心一言和NewBing中的表现如何:

发布一个月,文心一言如今进化如何?_人工智能_22

(出自Midjourney V5 图源:网络)


文心一言:

发布一个月,文心一言如今进化如何?_人工智能_23

本来想控制变量的,无奈直接被拒绝,只好翻译成中文来进行。

发布一个月,文心一言如今进化如何?_AI绘画_24

第一版出来效果我不太满意,于是加入了一些关键词尝试修正绘画风格,但最终结果仍然没有明显的变化。显然在这个领域文心一言目前的训练还十分有限,有很大的进步空间。我们再来看看NewBing里DALL-E的表现:


NewBing:(绘画暂时只接受英文描述)

发布一个月,文心一言如今进化如何?_人工智能_25

这边的效果乍看一下就好太多了,而且还是在没有太多关键词修饰的情况下。但是如果把图片放大:

发布一个月,文心一言如今进化如何?_人工智能_26发布一个月,文心一言如今进化如何?_数据_27

五官的细节就有点不堪入目了,甚至是吓人,和Midjourney V5的效果差距较大,果然绘画这块目前还得是Midjourney。



总结

以上就是我们对百度文心一言当前的一个性能表现的测试,不知道大家感觉如何,是否未来可期呢?

就我个人感受而言,文心一言虽然目前性能肯定和GPT4没办法相提并论,但如果后续可以免费开放的情况下,和同为免费的ChatGPT(GPT-3.5)还是在很多场景中可以一较高下的。而且文心一言最大的优势显然在于可以让国内更多人更轻松地使用上,毕竟搜索引擎都说谷歌好用大部分人也都在用百度,有些时候确实是存在一些中国国情的。

另外,最近我们也拿到谷歌的大语言模型Bard的测试资格,但是Bard目前只能接受英文输入和输出,如果大家感兴趣后续也会给大家做相应的评测,敬请期待。

标签:一言,prompt,进化,绘画,文心,一个月,ChatGPT,NewBing
From: https://blog.51cto.com/u_13605186/6185105

相关文章

  • 如何在一个月内搭建一个自己的博客网站
    目的和定位明确你想要做什么,目的是什么。有了明确的需求和目的,才有持续做下去的驱动力。做一个网站需要投入大量时间、金钱和精力,只投入,不产出,是有很大问题的,早晚会放弃。本站的目的:自媒体,分享思想,分享技术。提高个人(FansLei)和团体(FansUnion成员)知名度,帮助朋友、校友、网友......
  • 最近一个月的生活
    报到入职,开始忙于工作。很多技术都了解过,因为JavaWeb开发就是这么些技术,熟悉和掌握这些技术还需要时间。看文档、写代码、开会、讲座、拓展培训都还不错,生活还好,比大学整体要多姿多彩吧!一个重要的不足之处是看书的时间确实很少,工作中没有时间去看书,只好趁周末可以多看几页......
  • 白嫖一个月的ES,完成了与MySQL的联动
    前言《腾讯云xElasticsearch三周年》活动来了。文章写之前的思路是:在腾讯云服务器使用docker搭建ES。但是理想很丰满,显示很骨感,在操作过程中一波三折,最后还是含着泪美滋滋地,白嫖了一个月的腾讯云ES服务。最后就是利用腾讯云的Elasticsearch和Kibana,和我在腾讯云服务器上搭建M......
  • ChatGPT向左,百度文心一言向右
    “ChatGPT向左,文心一言向右”:同一条赛道上的两个方向,一个深耕技术,一个用心做产品,但是他们都会成功。1.新闻连着看3月14日,OpenAI发布GPT-4比震惊世界的chatGPT(3.5)再次升级:创造力提升,视觉输入,更长的上下文,更强的推理能力。3月16日,百度发布文心一言现场演示的时候选择直接放录好的......
  • Midjourney? 文心一格? 一张思维导图带你了解图片生成AI
    (“马爸爸开心回国图”,图片使用Midjourney生成) 最近和ChatGPT大语言模型一样大火的还有图片生成AI(Text-To-Image),大家耳熟能详的Midjourney、StableDiffusion、Dalle2、Imagen等等都是图片生成AI,尤其是百度的文心一格上线后,网上的讨论(调侃)更加火热。 图片生成普遍采用Di......
  • 网约车租车平台哪个好?租网约车多少钱一个月
    网约车租车平台哪个好?租网约车多少钱一个月,类似神州租车软件开发,类似神州租车oem开发,类似神州租车软件开发多少钱,网约车租车平台都有哪些功能,网约车租赁系统开发,网约车......
  • 与百度文心玩文字冒险游戏[寻五宝石]
    百度文心测试我:请开始一个文字冒险游戏。由你来描述游戏场景(盗墓情节),由我来决定采取的动作。请详细描述场景中所有的物品、生物。如果场景中的人物在对话或者跟主角对话,请......
  • 摸着OpenAI过河,百度文心一言能否“重拳出击”?
    “文心一言”对标ChatGPT,饱含争议。文心一言作为一款语言大模型,并提出了自己在技术对就业的影响方面的理解,现阶段正处于摸着OpenAI过河的时候,路该如何走?GPT-4太惊艳,压力......
  • AI文心一格生成,本来想用来做头像的,这不敢用啊
    看我用文心一格生成的图片,这这这……  ===一看是背影,后追加了描述“正在收割,小男孩回头在笑”,生成了2张,见下图:  这个脸没发看啦,看下一张  这张咋一看,哟,好像......
  • 从人脑进化理解人工智能的涌现
    引言:上周听了刘嘉老师的分享,越来越认可看懂人工智能需要从脑科学的角度去思考,基于分享的内容、自己的思考、收集的资料整理出本篇文章。惊艳出现的ChatGPT还在被大家吐槽......