1、Transformers库
transformer系的各种LLM模型被封装在了Transformers库里(后来又有了其他很多模型),直接调用就能下载模型并使用。
核心是用pipline(pipeline() 函数是使用预训练模型进行推理的最简单方式。它能够跨不同模态处理多种任务),然后指定模型,输入,输出。
这个pipeline跟pytorch里的nn.sequen不一样,不是把上一个模型的输出作为下一个模型的输入(当然pytorch里也不是模型与模型,是层与层),pipline里只能放一个模型
库里实现了模型代码(有些模型是下载hub上的模型代码),权重系数会自动下载(使用代码里下载模型 https://zhuanlan.zhihu.com/p/674890521,
使用 Windows 模型保存的路径在 C:\Users\[用户名]\.cache\torch\transformers\ 目录下,根据模型的不同下载的东西也不相同
三种模型下载方式https://zhuanlan.zhihu.com/p/678611989)
如果想自己写个新模型(官方文档有教),就继承Transformers的PreTrainedModel,上传到hub,谁想用,直接从Transformers库导入模型,并设置trust_remote_code=True,注意平台不管这作者有没有恶意代码,谨慎使用模式代码
2、hub
用来开源模型代码及系数,也用的git,pycharm能用但要改git账户。
这篇原理讲解通俗易懂
https://zhuanlan.zhihu.com/p/530999398
官网的萌新入门教程
https://www.cnblogs.com/huggingface/p/18139659
官方文档的翻译
https://eanyang7.github.io/transformers_docs/1-%E5%BC%80%E5%A7%8B%E4%BD%BF%E7%94%A8/