- LM Studio. 可以直接下 hg 模型(实际使用需要自己修改成中国镜像). 有 local server, 符合 openai api 规范. 遗憾的是不支持选择显卡导致无法使用.
- Faraday. 第一个跑通的. 支持选显卡, 运行参数自动调校, 很好上手. 但只有 chat 功能, 没有 local server. hub 里有很多角色下载.
- GPT4ALL. 支持选显卡, 也有 local server. 但可能默认参数设置不当没用上我的 4090, 实际上还在用 CPU 和内存.
- Jan. 很好用, 支持 chat 也支持 local server, 也可以从 hg 下模型.
- 可能 api 的规格有出入, 它的 completion 接口是 chat/completions, 而 openai 是 completions.
- local.ai. 只支持 ggml, 不支持 guff, 也不支持显卡, 貌似支持本地 RAG, 但因为上述原因没有试验.
- khoj. 不知道干嘛的, 需要连 server url, 主要特色应该是支持本地 RAG.
- ollama. 没有 GUI, 一个命令行程序.
- 它会自动下载模型, 遗憾的是不知道怎么指定下载路径.
- 可以指定单个模型, 要建一个文本文件写上路径, 再 -f 指定这个文本文件, 比较傻
- 这个程序不知道什么情况, 输入一句你好, 就自己不停的输出, 速度倒是很快, 无法实用, 用的 yi34b
7.1 ollama 的 gui, open-webui 以及 oobabooga/text-generation-webui.- open-webui 通过 docker 可以跑的很不错, 但是由于 ollama 的问题(不停的输出) 没有深入研究, 也不适合推荐给普通用户
- oobabooga 更是支持 notebook, RAG 等功能, 甚至支持一些文生图, 但是产品化不够, 要自己配一堆东西, 同样不适合普通用户
- Chat with RTX. NVIDIA 自己出的客户端, 集成了 mistral 7b 和 llama2 13b, 主要特色是支持 RAG 本地检索, 还支持 youtube.
目前 Faraday 和 Jan 是比较好的选择, 期待 LM Studio 改善 GPU 支持.
就模型来看 Yi-34B-Chat-GGUF, Q3_M 比较适合我这个机器. 当然, 其它模型也值得尝试.
除了 chat 功能外, vscode 插件现在找到比较好用的是 Continue, 另外有一个 CodeGPT Chat 什么的一直转圈跑不起来.
Continue 的 tab completion 要连 ollama.
IDEA 的还没试.
写东西方面, 只有 oobabooga 有一个 notebook, 我找到一个 mikupad, 是一个单网页, 它连 Jan 有点问题, 改了一下它的代码可以工作了, 效果还不错.
标签:RAG,ollama,支持,server,试验,LocalLLaMA,显卡,local,客户端 From: https://www.cnblogs.com/inshua/p/18068588