首页 > 其他分享 >AI时代:本地运行大模型vllm

AI时代:本地运行大模型vllm

时间:2024-03-05 22:59:51浏览次数:32  
标签:vllm AI support models serving 本地 vLLM 模型

https://docs.vllm.ai/en/latest/index.html
高吞吐量、高内存效率的 LLMs 推理和服务引擎(快速搭建本地大模型,且openAI API 兼容)

vLLM is a fast and easy-to-use library for LLM inference and serving.

vLLM is fast with:

State-of-the-art serving throughput

Efficient management of attention key and value memory with PagedAttention

Continuous batching of incoming requests

Fast model execution with CUDA/HIP graph

Quantization: GPTQ, AWQ, SqueezeLLM, FP8 KV Cache

Optimized CUDA kernels

vLLM is flexible and easy to use with:

Seamless integration with popular HuggingFace models

High-throughput serving with various decoding algorithms, including parallel sampling, beam search, and more

Tensor parallelism support for distributed inference

Streaming outputs

OpenAI-compatible API server

Support NVIDIA GPUs and AMD GPUs

(Experimental) Prefix caching support

(Experimental) Multi-lora support

支持的开源模型:
https://docs.vllm.ai/en/latest/models/supported_models.html

标签:vllm,AI,support,models,serving,本地,vLLM,模型
From: https://www.cnblogs.com/itech/p/18055450

相关文章

  • AI时代:开源大模型选择
    https://docs.llamaindex.ai/en/stable/module_guides/models/llms.html可以按参数和评分来选择模型:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboardllama2-chat-7b4bit(huggingface)Llama2seemstobequitechatty,whichmakesparsingstructuredo......
  • IEEE TCDS 专刊"Embodied AI in Indoor Robotics"征稿通知
    原文地址:https://mp.weixin.qq.com/s/Z-U4EO6FCF703yMwHXAq5A随着深度学习和强化学习在机器人学领域的迅猛发展,尤其是大型语言模型的创新进步,具身人工智能系统正以其感知、交互和自主导航的能力,预示着对家庭机器人技术等多个领域的革命性变革。因此我们联合英国利物浦大......
  • PHP远程下载微信头像存到本地
    <?php$headimg="http://thirdwx.qlogo.cn/mmopen/vi_32/CW96JibTBRccMbXlDhTm6bGbO7eXAwIqCP0UiaQukLnfyFaVs9PVM9gLS8libx2GuH2kz6bNfp2GZQccYKKFr5BCA/132";/*PHP远程下载微信头像存到本地,本地图片转base64*$url微信头像链接*$path要保存图片的目录*$userid用户唯......
  • 从0开始入门智能知识库和星火大模型,打造AI客服。
    介绍FastWikiFastWiki是一个高性能、基于最新技术栈的知识库系统,旨在为大规模信息检索和智能搜索提供解决方案。它采用微软SemanticKernel进行深度学习和自然语言处理,在后端使用MasaFramework,前端采用MasaBlazor框架,实现了一个高效、易用、可扩展的智能向量搜索平台。其目标是帮......
  • AI应用开发之路-准备:发起一个开源小项目 DashScope SDK for .NET
    今年我们有一个眼高手低的计划,打算基于SemanticKernel+DashScope(阿里云模型服务灵积)+Qwen(通义千问大模型),结合园子已有的产品与应用场景,开发面向开发者的AI应用,并将整个过程与大家分享。目前处于准备阶段,这篇博文分享的是遇到的第一个问题,并由此发起一个小开源项目......
  • 使用 explain 索引优化(转)
    使用explain索引优化(转)原文:https://mp.weixin.qq.com/s?__biz=MzkwNjMwMTgzMQ==&mid=2247490262&idx=1&sn=a67f610afa984ecca130a54a3be453ab&source=41#wechat_redirect1、前言对于互联网公司来说,随着用户量和数据量的不断增加,慢查询是无法避免的问题。一般情况下如果出现慢......
  • AI蠕虫是一种虚构的概念,结合了人工智能(AI)和计算机病毒蠕虫(worm)两个概念
     AI蠕虫是一种虚构的概念,结合了人工智能(AI)和计算机病毒蠕虫(worm)两个概念。在现实中,并没有被证实存在真正的AI蠕虫。AI蠕虫通常被描述为一种具有自我学习和自我复制能力的恶意软件,它能够利用人工智能算法进行自我演化和适应,以更有效地传播和感染目标系统。这种想象中的恶意软件......
  • Kubelet安装时子节点出现:kube-proxy-7jxg4 ContainerCreating
    一般分为两种情况主节点问题和kube-proxy问题:1、查看报错:kubectldescribepodkube-proxy-7jxg4-nkube-system2、子节点查看相关报错信息journalctl-ukubelet-f可以看出是创建容器失败:1、可能是docker镜像没有导入2、网络问题,重启看一下cri-docker是否有报错信息......
  • Js下载返回是二进制保存到本地文件
    //创建一个新的XMLHttpRequest对象varxhr=newXMLHttpRequest();//监听XMLHttpRequest对象的加载完成事件xhr.addEventListener('load',function(){//如果请求成功完成if(xhr.status===200){//获取到二进制文件内容varblob=......
  • 使用纹理对比度检测检测AI生成的图像
    在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法,或者取决于图像的性质/语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。但是这篇论文“RichandPoorTextureContrast......