运行模型对比 gemma:7b, llama2, mistral, qwen:7b

时间：2024-03-04 21:24:04浏览次数：39

标签：7b llama2 tokens qwen rate token eval duration seval

【gemma:2b】

total duration: 1m5.2381509s
load duration: 530.9µs
prompt eval duration: 110.304ms
prompt eval rate: 0.00 tokens/s
eval count: 604 token(s)
eval duration: 1m5.126287s
eval rate: 9.27 tokens/s

【gemma:7b】
total duration: 3m47.1115598s
load duration: 9.8098239s
prompt eval count: 110 token(s)
prompt eval duration: 12.228888s
prompt eval rate: 9.00 tokens/s
eval count: 573 token(s)
eval duration: 3m25.072638s
eval rate: 2.79 tokens/s

【llama2】
total duration: 4m34.6780371s
load duration: 4.9036352s
prompt eval count: 137 token(s)
prompt eval duration: 11.521429s
prompt eval rate: 11.89 tokens/s
eval count: 963 token(s)
eval duration: 4m18.252497s
eval rate: 3.73 tokens/s

【mistral】
total duration: 2m58.0946434s
load duration: 4.4304491s
prompt eval count: 129 token(s)
prompt eval duration: 11.605211s
prompt eval rate: 11.12 tokens/s
eval count: 626 token(s)
eval duration: 2m42.059441s
eval rate: 3.86 tokens/s

【qwen:7b】
total duration: 1m0.2411658s
load duration: 1.04ms
prompt eval duration: 276.492ms
prompt eval rate: 0.00 tokens/s
eval count: 220 token(s)
eval duration: 59.96335s
eval rate: 3.67 tokens/s

gemma:7b vs llama2

总结来说，llama2运行在加载速度和prompt评估速率上有明显提升，但是由于处理的令牌总数增加导致整体评估阶段耗时增加，使得整个过程的总耗时延长。不过，在大规模处理任务中，提高单位时间内处理令牌的数量（prompt eval rate 和 eval rate）通常被视为性能改善的一个重要指标。

vs mistral
综合来看，这次运行的整体效率和单位时间内处理令牌的能力都有所提升，尤其是在总时长和整个评估阶段的处理速度上有显著改善。然而，处理的令牌总数较上次减少，可能反映了任务规模的变化或其他程序内部逻辑的调整。

vs qwen7b
综合分析，这次运行在加载速度和处理速度上表现优秀，特别是在处理少量令牌时的效率显著提高。然而，由于缺少prompt部分的具体令牌处理情况，对于prompt部分的性能评估无法给出明确结论。总体来看，如果目标是在短时间内高效处理较少数量的令牌，这次运行的表现是更好的。

Online ChatAi

Link：https://www.cnblogs.com/farwish/p/18051582

标签：7b,llama2,tokens,qwen,rate,token,eval,duration,seval
From： https://www.cnblogs.com/farwish/p/18051582

[AGC037B] RGB Balls
题意有\(n\)个人，\(3\timesn\)个球，球有三种颜色，每种颜色恰好\(n\)个。给每个人每种颜色的球各一个，按照在原序列的顺序分别设为\(p1,p2,p3\)。试求使得\(\sump_3-p_1\)最小的方案数。Sol其实直接考虑就行了，没必要想那么复杂。假设当前的球的颜色为\(R\)，之前......
CF1857B Maximum Rounding 题解
题目描述给定一个自然数\(n\)，可以对任意一位进行四舍五入，可以进行任意次，求能得到的最大数。（这里的\(n\)没有前导零）思路首先我们发现，如果我们将其中一位进位了，那后面的所有位都会变成\(0\)，因此，如果我们进位了两次，那么位置靠后的那次进位，其实是没有用的。所以我们要从高位往......
【LLMOps】Triton + TensorRT-LLM部署QWen
背景TensorRT-LLM是Nvidia官方推出的大模型推理加速框架，目前只对部分显卡型号有做定制加速。最近新出的ChatwithRTX也是基于TensorRT-LLM进行的本地推理。TensorRT-LLM支持PagedAttention、FlashAttention、SafeTensor等手动，某些社区号称吞吐能力测试结果超过vLLM。准备显......
CF167B题解
CF167B这里更容易进入且有翻译题意给定初始背包容量\(k\),要进行\(n\)场比赛，每场比赛有\(p_i\%\)的概率能够胜利，赢的一场比赛能获得一个奖励——当\(a_i=-1\)时获得一个体积为\(1\)的奖品，或者当\(a_i>0\)时给背包增加\(a_i\)容量，求所有比赛结束后至少赢得\(......
以容器方式部署通义千问 Qwen
准备服务器阿里云云服务器实例规格：轻量级GPU实例ecs.vgn6i-m4-vws.xlarge（4vCPU23GiB）磁盘空间：50G操作系统：Ubuntu22.04安装dockeraptinstalldocker.io安装NVIDIAGRID驱动acs-plugin-manager--exec--plugingrid_driver_install安装NVIDIAContainerToo......
纯c#运行开源本地大模型Mixtral-8x7B
先看效果图，这是一个比较典型的逻辑推理问题，以下是本地运行的模型和openaigpt3.5的推理对比本地运行Mixtral-8x7B大模型： chatgpt3.5的回答：关于Mixtral8x7B这个就不多介绍了，但凡在关注开源大模型的朋友应该知道这个模型是目前市场上最具竞争力的开源大型模型之一，其能力水......
快速玩转 Mixtral 8x7B MOE大模型！阿里云机器学习 PAI 推出最佳实践
作者：熊兮、贺弘、临在Mixtral8x7B大模型是MixtralAI推出的基于decoder-only架构的稀疏专家混合网络（Mixture-Of-Experts，MOE）开源大语言模型。这一模型具有46.7B的总参数量，对于每个token，路由器网络选择八组专家网络中的两组进行处理，并且将其输出累加组合，在增加模型参数总量的同时，优......
机器学习周刊第六期：哈佛大学机器学习课、Chatbot Ul 2.0 、LangChain v0.1.0、Mixtral
---date:2024/01/08---吴恩达和Langchain合作开发了JavaScript生成式AI短期课程：《使用LangChain.js构建LLM应用程序》大家好，欢迎收看第六期机器学习周刊本期介绍10个内容，涉及Python、机器学习、大模型等,目录如下：1、哈佛大学机器学习课2、第一个JavaScript生成......
使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B
Mixtral-8x7B是最好的开放大型语言模型(LLM)之一，但它是一个具有46.7B参数的庞大模型。即使量化为4位，该模型也无法在消费级GPU上完全加载(例如，24GBVRAM是不够的)。Mixtral-8x7B是混合专家(MoE)。它由8个专家子网组成，每个子网有60亿个参数。8位专家中只有2位在解码期间有效，因此可......
Mixtral 8X7B MoE模型基于PAI的微调部署实践
作者：熊兮、求伯、一耘引言Mixtral8x7B是MixtralAI最新发布的大语言模型，在许多基准测试上表现优于GPT-3.5，是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台，提供了对于Mixtral8x7B模型的全面支持，开发者和企业用户可以基......

运行模型对比 gemma:7b, llama2, mistral, qwen:7b

相关文章

赞助商

阅读排行