距离百度3月16日文心一言发布会已经近一个月,在这段时间里我们也从各种渠道或多或少地了解到文心一言的一些表现,尤其是在画画方面的一些回答,已经作为段子在互联网广为流传。(配图)而就在前两天,我们也终于拿到了文心一言的体验资格,接下来我们将通过几个场景化任务来测试一下百度的大语言模型在当下究竟表现如何,是否真的有人们说的那么不堪。
图为当前测试的版本信息
1. 中文理解
首先,作为国产的大语言模型,基于大量的中文语料训练,对中文的理解一定是我们比较关心的问题。在发布会上,百度也特意强调了这一点。那么,在实际表现中,文心一言与国外的大语言模型在中文理解上的差距究竟如何呢:
文心一言:
ChatGPT:
结果还挺令人意外的。在我们询问“推敲是什么意思”时,文心一言不但解释了“推敲”的含义,还讲述了这个词的来源并提供例句,而ChatGPT在词义的理解上没有问题,但一旦追问由来,又开始胡编乱造了。
2. 文字创作
第二个场景,我们选择了目前在ChatGPT上用的比较多的文字创作:
文心一言:
ChatGPT:
在本次生成的文字中,可以看出二者在遣词造句和行文的结构上都还是比较接近的,都是一个总分总的结构。区别在于文心一言只说了好的影响而ChatGPT考虑更为全面,还提到了一些负面的担忧。当然,我这里测试使用的prompt比较简单,而这个差异是可以通过细化prompt来消除的,总体而言,在文字生成方面,文心一言的表现还是可用的。
3. 实时信息
我们知道,ChatGPT的训练数据截止到2021年9月,对于近两年发生的事情ChatGPT是一窍不通只能胡编,那么文心一言在实时信息的查询上又表现如何呢?
文心一言:
ChatGPT:
事实上,RTX 4090是在2022年10月左右公布的,因此在这个问题上,ChatGPT是“两眼一黑”,而文心一言看似提供了一个相对完整的答案,但细细一看就发现里面还是存在着错误的信息(价格和实际差距很大),显然相关的信息也没有得到及时更新。
在此基础上,我们又做了进一步的尝试,发现文心一言同样无法实时访问互联网信息,而且对于不同的问题其训练数据的截止时间也参差不齐,比如在查询京东显卡价格中最近数据是2022年11月17日的,而在天气的查询中又能够做到基本的实时。可以看出其训练的数据确实是在动态更新的,而且会根据场景有所侧重。
4. 逻辑推理
逻辑题一直都是这种大语言模型最容易犯错的地方,我也选了一道流传较广的ChatGPT经典错题来对文心一言进行测试:
文心一言:
ChatGPT:
在第一个问题中,文心一言的表现完爆了ChatGPT,但是在第二个问题中,两者都回答错误了,而且文心一言还忽视了prompt中的要求,仍然展示了计算过程(实际上算上买的5个,7+5=12和ChatGPT答案一致,可以推测两者计算错误的点,即把吃掉的苹果从-1算成+1,也是相同的)。不知道大家觉得这个表现是否可以接受呢?
5. AI绘画
最后是大家都喜闻乐见的AI绘画场景,由于ChatGPT暂时无法生成绘画,因此这里我们使用微软的NewBing进行对比。NewBing的绘画生成由DALL-E提供支持,这也是GPT4使用的模型,同为OpenAI开发。
(图源:网络)图太多可以考虑在排版时做成横向滑动
对于之前网络上传的比较火的这些案例,我们也尝试进行了复刻,具体表现如下:
可以看到在网友们的调侃下已经连夜修改了。当然,作为一种人民群众喜闻乐见的艺术形式,百度也留了一个窗口,只要在prompt的结尾加上#创意图#,就能解锁原先的效果。
除开这种段子型的绘画,在一些正常的绘画场合,文心一言的表现又如何呢?之前Midjourney V5有一幅作品很让人惊艳,我们找到了他的prompt,来看看在文心一言和NewBing中的表现如何:
(出自Midjourney V5 图源:网络)
文心一言:
本来想控制变量的,无奈直接被拒绝,只好翻译成中文来进行。
第一版出来效果我不太满意,于是加入了一些关键词尝试修正绘画风格,但最终结果仍然没有明显的变化。显然在这个领域文心一言目前的训练还十分有限,有很大的进步空间。我们再来看看NewBing里DALL-E的表现:
NewBing:(绘画暂时只接受英文描述)
这边的效果乍看一下就好太多了,而且还是在没有太多关键词修饰的情况下。但是如果把图片放大:
五官的细节就有点不堪入目了,甚至是吓人,和Midjourney V5的效果差距较大,果然绘画这块目前还得是Midjourney。
总结
以上就是我们对百度文心一言当前的一个性能表现的测试,不知道大家感觉如何,是否未来可期呢?
就我个人感受而言,文心一言虽然目前性能肯定和GPT4没办法相提并论,但如果后续可以免费开放的情况下,和同为免费的ChatGPT(GPT-3.5)还是在很多场景中可以一较高下的。而且文心一言最大的优势显然在于可以让国内更多人更轻松地使用上,毕竟搜索引擎都说谷歌好用大部分人也都在用百度,有些时候确实是存在一些中国国情的。
另外,最近我们也拿到谷歌的大语言模型Bard的测试资格,但是Bard目前只能接受英文输入和输出,如果大家感兴趣后续也会给大家做相应的评测,敬请期待。
标签:一言,prompt,进化,绘画,文心,一个月,ChatGPT,NewBing From: https://blog.51cto.com/u_13605186/6185105