TGI
  • 2024-10-19高效部署大型语言模型:基于AMD GPU的文本生成推理
    EfficientdeploymentoflargelanguagemodelswithTextGenerationInferenceonAMDGPUs2024年1月24日,由DouglasJia撰写。[文本生成推理(TGI)]是一个用于以无与伦比的效率部署和服务大型语言模型(LLM)的工具包。TGI专门为流行的开源LLM(如Llama、Falcon、StarCoder、BLOO
  • 2024-08-12TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务
    你是否已厌倦管理多个AI模型所带来的复杂性和高成本?那么,如果你可以部署一次就搞定30个模型推理服务会如何?在当今的ML世界中,哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界,各个组织会构建大量模型,其中每个模型都针对特定任务进行了高度
  • 2024-05-24利用英特尔 Gaudi 2 和至强 CPU 构建经济高效的企业级 RAG 应用
    检索增强生成(RetrievalAugmentedGeneration,RAG)可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模型学到的知识分开的方式,有助于我们在性能、准确性及安全隐私之间进行有效折衷。通过本文,你将了解到英特尔