【大模型实战篇】搭建本地的隐私计算知识问答系统“密答”

时间：2024-08-04 10:56:51浏览次数：19

标签：实战篇密答问答模型 STORAGE 隐私 AnythingLLM 2.3 ollama

1. 背景介绍

在之前分享的文章《基于开源大模型的问答系统本地部署实战教程》中，我们介绍了基于ollama实现本地问答系统的部署和使用。本文将基于ollama进一步实现本地垂直领域的问答系统搭建。ollama作为大模型的运行框架，可以提供大模型的使用接口，方便其他应用调用。

本文将利用AnythingLLM来实现隐私计算垂直领域的知识问答。本次分享一下搭建的过程，以及初步的体验，但如果想追求好的问答效果，还是需要好好准备高质量知识库，这个是起决定作用的因素。

我们采用docker的方式安装AnythingLLM。AnythingLLM是一款文档聊天机器人解决方案，能够将任何文档、资源或内容片段转化为大语言模型在聊天中可以利用的相关上下文。

2. 部署步骤

2.1 ollama准备大模型参数文件及模型加载

首先，通过ollama下载相应的本地模型，为了便于尝试不同大模型的效果，可以在ollama的models列表中下载多个模型。前几天看到google开源了Gemma 2B的文章，介绍了端侧小模型的进展，没想到ollama上就已经可以下载使用了，借着这次机会也体验一下。

ollama 服务启动指令：

ollama serve

启动之后，后续AnythingLLM就可以使用ollama提供的接口能力。

2.2 docker安装AnythingLLM

1. 拉取镜像(执行需要点时间)

docker pull mintplexlabs/anythingllm

2. docker运行镜像(Linux/MacOs系统，根据实际情况可修改端口等信息)

其他的平台可以参考这里

export STORAGE_LOCATION=$HOME/anythingllm && \
mkdir -p $STORAGE_LOCATION && \
touch "$STORAGE_LOCATION/.env" && \
docker run -d -p 4001:3001 \
--cap-add SYS_ADMIN \
-v ${STORAGE_LOCATION}:/app/server/storage \
-v ${STORAGE_LOCATION}/.env:/app/server/.env \
-e STORAGE_DIR="/app/server/storage" \
mintplexlabs/anythingllm

3. docker管理平台

4.web访问

2.3 参数配置

2.3.1 配置LLM provider

我们这里就选择ollama服务。我选择了gemma2:2b，最大tokens数量设置4096.

2.3.2 用户范围设置

AnythingLLM支持设置个人使用和团队使用，如果选择团队使用，需要配置管理员账户，其他成员加入需要管理员审核。

2.3.3 配置工作区

AnythingLLM支持创建工作区，这个想法还挺好的。不同的工作区相对独立，互补影响。可以创建不同垂直领域的知识库和问答应用。这里我创建了隐私计算工作区。

2.3.4 外观定制配置

可以根据自己的需求，定制外观展示，比如配置logo和平台名称等。这里我设置隐私计算知识稳单系统名称为“密答”。

2.3.5 向量数据库和向量化模型的选择和配置

这里为了方便起见，我们使用了内置的LanceDB，以及内置的Embedder。可以按照自己的需求进行定制配置。Embedder的重要性比较高，最好使用向量表征能力强的模型，不然后续的向量检索质量也难以保证。

2.3.6 上传垂直领域知识内容

接下来就是重头戏，上传隐私计算知识文档，可以支持各种类型文件：pdf、txt、word。不过建议还是转换成markdown的文件，既能够保证结构，又可以保持文本状态，减少pdf之类文件的复杂性，导致向量化存在问题。左侧操作框是上传的文件，需要选择对应文件移动到相应的工作区，然后执行保存和向量化，处理成功后就可以回到问答界面。

2.3.7 知识库关键参数配置

这里需要提示一下，在基于知识库的问答中，为了回答的问题尽可能与所提供知识相关，可以将知识库文档相似性阈值设置的高一些，实际体验下来效果会更准确。

2.3.8 API对外服务能力

AnythingLLM还提供了API服务能力，使用方法可以参考API文档。

2.4 操作体验

测试了一个上传知识中的版本功能问题，回答挺不错。不过为了尽可能提升效果，需要好好处理你的知识文档以及选择合适的向量化模型、问答模型，这些都是影响因素。

本次分享介绍了基于本地垂直知识的隐私计算知识问答系统的搭建方法和初步使用体验。想要能够上生产的版本，还有很多工作要做，继续尝试优化提升。

标签：实战篇,密答,问答,模型,STORAGE,隐私,AnythingLLM,2.3,ollama
From： https://blog.csdn.net/weixin_65514978/article/details/140871971

Git就业实战篇
第一章版本控制系统1.1SVN集中式版本控制系统所有的代码版本都存放在SVNServer上，网络有问题就访问不了，所有内柔都在SVNServer上进行，Client只负责请求，协作必须在本地局域网开发。1.2GIT分布式版本控制系统每个客户端都有一个仓库，独立开发。第二章Git的基......
ISO 21434 是否提供了关于汽车数据隐私和保护的准则？
ISO21434标准涵盖了关于汽车数据隐私和保护的准则。在汽车领域，随着智能互联技术的发展，车辆产生和处理的数据量不断增加，因此数据隐私和保护变得尤为重要。以下是ISO21434标准中关于汽车数据隐私和保护的一些准则：1.数据分类和标识：标准要求制定明确的数据分类标准，将车辆产生的......
Leaf'n Joy 隐私政策
本软件尊重并保护所有使用服务用户的个人隐私权。为了给您提供更准确、更有个性化的服务，本软件会按照本隐私权政策的规定使用您的个人信息。但本软件将以高度的勤勉、审慎义务对待这些信息。除本隐私权政策另有规定外，在未征得您事先许可的情况下，本软件不会将这些信息对外披露或向......
实战篇-FPGA实现RGMII数据接收
RGMII时序前面讲到关于关于ARP的理论知识，该章节主要通过FPGA接收以太网数据，并作数据分析。首先关于以太网RGMII接收时序如下图所示： ......
如何在 python selenium 中禁用广告隐私设置？
我对上面有一些问题。当然，当我尝试绕过cloudflare验证码时，我的策略已经破坏了任何cloudflare。但有一些问题。当我在pythonselenium中打开新选项卡时，会弹出广告隐私窗口。谁有解决这个问题的经验。谢谢您的帮助。一旦通过，就不会再发生了。我理解你想在......
《程序猿学会 Vue · 基础与实战篇》
......
实战篇——支付逻辑漏洞portswigger靶场实战
实战篇——支付逻辑漏洞portswigger靶场实战portswigger是burpsuite的官方在线靶场，内置了大量常见Web漏洞的场景，本章以Businesslogicvulnerabilities一章为例，浅析支付逻辑漏洞。Excessivetrustinclient-sidecontrols点击Addtocart，抓包：将price改成1，发送：成功篡改价......
【数据治理】隐私计算：数据治理中的安全守护者
隐私计算：数据治理中的安全守护者引言一、隐私计算概述二、隐私计算的关键技术及其核心与业务逻辑三、隐私计算在数据治理中的应用案例四、隐私计算面临的挑战与未来发展五、结论引言数据治理是现代企业运营的关键组成部分，特别是在数据安全和隐私保护日益受到重视......
【OpenRecall】超越 Windows Recall，OpenRecall 为你的隐私和自由而战
引言随着Windows11的Recall功能推出，我们看到了数字记忆回顾的全新可能性。然而，这项功能受限于特定的硬件——Copilot+认证的Windows硬件，并且仅在Windows平台上可用。对于追求隐私和硬件灵活性的用户来说，这无疑是个限制。此时，OpenRecall以其开源和跨平台的特性，成......
Redis实战篇之秒杀优化（基于黑马程序员Redis讲解视频总结）
1.秒杀优化-异步秒杀思路我们来回顾一下下单流程当用户发起请求，此时会请求nginx，nginx会访问到tomcat，而tomcat中的程序，会进行串行操作，分成如下几个步骤1、查询优惠卷2、判断秒杀库存是否足够3、查询订单4、校验是否是一人一单5、扣减库存6、创建订单在这六步操作中，又......