【gemma:2b】
total duration: 1m5.2381509s
load duration: 530.9µs
prompt eval duration: 110.304ms
prompt eval rate: 0.00 tokens/s
eval count: 604 token(s)
eval duration: 1m5.126287s
eval rate: 9.27 tokens/s
【gemma:7b】
total duration: 3m47.1115598s
load duration: 9.8098239s
prompt eval count: 110 token(s)
prompt eval duration: 12.228888s
prompt eval rate: 9.00 tokens/s
eval count: 573 token(s)
eval duration: 3m25.072638s
eval rate: 2.79 tokens/s
【llama2】
total duration: 4m34.6780371s
load duration: 4.9036352s
prompt eval count: 137 token(s)
prompt eval duration: 11.521429s
prompt eval rate: 11.89 tokens/s
eval count: 963 token(s)
eval duration: 4m18.252497s
eval rate: 3.73 tokens/s
【mistral】
total duration: 2m58.0946434s
load duration: 4.4304491s
prompt eval count: 129 token(s)
prompt eval duration: 11.605211s
prompt eval rate: 11.12 tokens/s
eval count: 626 token(s)
eval duration: 2m42.059441s
eval rate: 3.86 tokens/s
【qwen:7b】
total duration: 1m0.2411658s
load duration: 1.04ms
prompt eval duration: 276.492ms
prompt eval rate: 0.00 tokens/s
eval count: 220 token(s)
eval duration: 59.96335s
eval rate: 3.67 tokens/s
gemma:7b vs llama2
总结来说,llama2运行在加载速度和prompt评估速率上有明显提升,但是由于处理的令牌总数增加导致整体评估阶段耗时增加,使得整个过程的总耗时延长。不过,在大规模处理任务中,提高单位时间内处理令牌的数量(prompt eval rate 和 eval rate)通常被视为性能改善的一个重要指标。
vs mistral
综合来看,这次运行的整体效率和单位时间内处理令牌的能力都有所提升,尤其是在总时长和整个评估阶段的处理速度上有显著改善。然而,处理的令牌总数较上次减少,可能反映了任务规模的变化或其他程序内部逻辑的调整。
vs qwen7b
综合分析,这次运行在加载速度和处理速度上表现优秀,特别是在处理少量令牌时的效率显著提高。然而,由于缺少prompt部分的具体令牌处理情况,对于prompt部分的性能评估无法给出明确结论。总体来看,如果目标是在短时间内高效处理较少数量的令牌,这次运行的表现是更好的。
Link:https://www.cnblogs.com/farwish/p/18051582
标签:7b,llama2,tokens,qwen,rate,token,eval,duration,seval From: https://www.cnblogs.com/farwish/p/18051582