转：ChatGLM3-6B测评

时间：2023-10-31 09:47:04浏览次数：40

标签：RAG 6B varchar 测评 ChatGLM3 SQL Prompt Id 255

全新ChatGLM3-6B针对七项RAG能力的评测，谁最适合RAG？

原创这个男人来自千祥土猛的员外 2023-10-30 17:32 发表于浙江

https://mp.weixin.qq.com/s/6fnZt2sBTakfXZMcS-scPA

1.实体提取

实体和关系提取当然也可以使用NER，但是有大模型，为什么不用呢，而且它后面还可以做格式，所以在RAG应用中，我们喜欢用大模型来提取实体。而且，这种提取方式对于短句子特别有效——对的，就是对于用户的提问内容的实体提取。

Prompt:

请帮我分析一下这段话”我需要看2021年3月至7月（含）的浙江分公司的自研产品的销售数据报表“，如果包含时间，请帮我列出”时间:xxxx年xx月“这样的格式，如果包含机构，请帮我列出”机构：xxxx“，如果包含其他实体，请帮我列出”实体：xxxx/xxxx“

2.逻辑计算

3.翻译

翻译算是一项常规技能了，特别是英文翻译成中文。

4.归纳

归纳应该算是RAG应用中非常重要的一项能力了，我们通过向量计算召回内容，然后让大模型进行归纳和润色，然后再输出最终结果。所以归纳的能力也不需要过多介绍了。

Prompt:

请帮我分析以下文字的含义，然后使用不超过30个字进行归纳：XXXXXXXXXX

5.统计次数

这也是一个传统艺能了，这可以帮助我们分析文章中哪些内容是比较重要的，和传统的TF-IDF是反着来的。

Prompt:

请帮我找出在后面将要给出的内容中，一共提到了多少个ChatGPT。以下是需要查找的内容：XXXXXXXXXX

6.生成SQL

生成SQL可以让我们通过语义理解来完成对本地数据库的查询，获取我们需要的数据，而不是通过程序员手动写SQL，或者只能按已经固化的SQL来进行某些变量（比如时间、实体等）的选择。

Prompt：

已知有两个mysql表，一个是代表销售人员的表:Persons，另一个是代表订单的表:Orders。具体的表定义如下：表Persons：CREATE TABLE Persons (PersonID int, LastName varchar(255), FirstName varchar(255), Address varchar(255), City varchar(255), PRIMARY KEY (PersonID) ); 表Orders：CREATE TABLE Orders (O_Id int NOT NULL, OrderNo int NOT NULL, P_Id int, PRIMARY KEY (O_Id), FOREIGN KEY (P_Id) REFERENCES Persons(PersonID) ) 请帮我生成一个SQL语句，查询销售人员”Zhang san“的所有订单数据。

参考学习以上的prompt模版

标签：RAG,6B,varchar,测评,ChatGLM3,SQL,Prompt,Id,255
From： https://www.cnblogs.com/xuehuiping/p/17799555.html

腾讯Ckafka队列使用测评
产品购买活动链接https://cloud.tencent.com/act/pro/618season?developercode=NEcnmZ18&from=20877 或者 https://cloud.tencent.com/act/pro/developer_business-scenario?developercode=NEcnmZ18&from=18122&from=20878前言本文主要是测试Ckafka的性能如何，作为一款商用的消息......
软件兼容性测试对软件产品起到什么作用?CMA、CNAS软件测评中心分享
软件兼容性测试是指检查软件之间能否正确地进行交互和共享信息。随着用户对来自各种类型软件之间共享数据能力和充分利用空间同时执行多个程序能力的要求，测试软件之间能否协作变得越来越重要。软件兼容性测试工作的目标是保证软件按照用户期望的方式进行交互。1、提高软件......
软件系统测试和验收测试有什么联系和区别?湖南软件测评公司推荐
卓码软件测评作为一家专业的软件测试服务提供商，我们深知软件系统测试和验收测试在软件开发过程中的重要性。本文将从多个角度出发，详细描述这两个测试的含义、联系和区别。一、什么是软件系统测试?软件系统测试是指对整个软件系统进行全面、全局的功能和性能验证的过程......
JavaSE day02【关键字，代码块，接口，枚举】测评
选择题题目1(单选):下列关于static关键字描述错误的是()选项: A.静态成员被所类的所有对象共享 B.可以通过对象调用,也可以通过类名调用,建议使用类名 C.每调用一次都会在内存产生一个新的对象 D.随着类的加载而加载,优先于对象存在题目2(多选):......
软件验收测试都有哪些方法，西南片区专业的第三方软件测评机构如何收费？
软件验收测试的方法软件验收测试的方法有很多种，主要包括以下几种：功能验收测试：测试功能点要明确，业主提供清晰的被测试功能点明细，详细到每一个按钮（单条件查询、组合查询、输入框提交、查询提交等），可以咨询我们的客服人员索要《功能点列表模板》，按照我们提供的模板进行填写，方便......
深夜测评：讯飞星火大模型vs FuncGPT (慧函数)，到底哪家强？
作为一名程序员，我们可能在多种情况下需要找出两个List中的重复元素。以下是一些常见的应用场景：数据清理：如果你有两个来自不同源的列表，可能含有重复数据，找出这些重复元素可以帮助你清理数据，提高数据的准确性和质量。数据合并：当你需要将两个列表合并成一个时，找出并处理......
ARC166B题解
发现还没有和我一样的做法。觉得B比A好想的多。令\(A_i\)为\(a_i\)变成\(A\)的倍数最少次数，\(B_i,C_i,AB_i,AC_i,BC_i,ABC_i\)同理。那么我们就有\(A_i=(A-A\bmod{a_i})\bmodA\)，其他同理。这一大坨东西显然都能在\(O(n)\)的时间复杂度内算出来。剩下的就很好......
行行AI公开课：沐恩芯忆AI心理测评系统新产品应用介绍
很多心理健康出现问题的患者并不清楚自己的情况，也不敢或不愿寻求专业心理咨询师的帮助，而是选择自我封闭、逃避或否认。因此，如何快速且准确的进行客观真实的心理测评就显得尤为重要和必要。随着人工智能技术的快速发展和应用的普及，我们能否利用AI人工智能技术及时检测和发现有心理......
【分享】讯飞星火认知大模型Python调用上下文测评
一个很常用的用法，先是system提示,然后是user问题{"role":"system","content":"假设你是个程序员，你的微信是xxxxxxxx"},{"role":"user","content":"微信多少"}openai测试importopenai#pipinstallopenaiop......
【分享】百度千帆大模型Python调用上下文测评
一个很常用的用法，先是system提示,然后是user问题{"role":"system","content":"假设你是个程序员，你的微信是llike620"},{"role":"user","content":"微信多少"}openai测试importopenai#pipinstallopenaiope......

转：ChatGLM3-6B测评

1.实体提取

2.逻辑计算

3.翻译

4.归纳

5.统计次数

6.生成SQL

相关文章

赞助商

阅读排行