一些基于LLM可以进行web 检索的开源工具

时间：2024-09-14 15:52:13浏览次数：10

标签：web github 开源 api LLM searxng com

简单记录下，目前不少内部都会使用到langchain（毕竟提供了不少现在方便的工具包装），同时对于web 内容处理很多也会选择基于无头浏览器模式，对于html 内容为了方便llm 处理好多框架会优先转换为markdown 格式的，对于长内容同时也会进行chunk 拆分，规避大模型上下文限制问题

说明

目前对于web 内容检索处理上，选择基于现成的搜索api 的也比较多，此类支持搜索的api 服务相比传统搜索引擎强大不少，如果需要自己集成一些开源的searxng 是一个不错的选择，包含了rest api 可以方便使用

参考资料

https://github.com/unclecode/crawl4ai https://github.com/ScrapeGraphAI/Scrapegraph-ai

https://github.com/mendableai/firecrawl

https://github.com/crewAIInc/crewAI

https://github.com/trancethehuman/entities-extraction-web-scraper

https://docs.searxng.org/dev/search_api.html

https://github.com/searxng/searxng

标签：web,github,开源,api,LLM,searxng,com
From： https://blog.51cto.com/rongfengliang/12017529

一些不错的LLM 结构化输出库
结构化输出对于LLM是一个比较重要的功能，以下是一个开源不错的工具，可以方便使用简单说明outlines以及instructor是很不错的工具对于基于api的推荐使用instructor，kor以及langchain集成比较好guardrails也算是一个不错的工具提供了结构化输出的能力，但是核心是数据的校验能力参考......
初探CTF-WEB挑战
一、作业内容1.准备各种工具，并且能够使用2.完成新手题，找到flag二、操作步骤1.EzLogin2.Canyouaccess3.Chopper4.cookie5.Employeeswork6.Ezinclude7.Ezsearch8.Robots9.Vim10.Wtfbutton三、作业总结作业内容准备各种工具，并且......
【开题报告】基于django+vue基于web新闻发布管理系统设计(论文+源码) 计算机毕业设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展，信息传播的速度与广度达到了前所未有的高度。新闻作为社会信息的重要载体，其发布与管理的效率直接影响到公众获取......
单机快速部署开源、免费的分布式任务调度系统——Apache DolphinScheduler
本文主要为大家介绍ApacheDolphinScheduler的单机部署方式，方便大家快速体验。环境准备需要Java环境，这是一个老生常谈的问题，关于Java环境的安装与配置期望大家都可以熟练掌握。验证java环境java-version下载安装包并解压使用wget下载安装包wgethttps://dlcdn.apache.......
大语言模型(LLM)入门学习路线图
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核......
推荐3款卓越的 .NET 开源搜索组件库
前言最近有不少同学在提问；.NET有哪些开源的搜索组件库可以推荐的吗？，今天大姚给大家推荐3款卓越的.NET开源搜索组件库，希望可以帮助到有需要的同学。Elasticsearch.NETElasticsearch的.NET客户端为ElasticsearchAPI提供强类型请求和响应。它将协议处理委托给Elastic.Transpo......
推荐3款卓越的 .NET 开源搜索组件库
前言最近有不少同学提问；.NET有哪些开源的搜索组件库可以推荐的吗？，今天大姚给大家推荐3款卓越的.NET开源搜索组件库，希望可以帮助到有需要的同学。Elasticsearch.NETElasticsearch的.NET客户端为ElasticsearchAPI提供强类型请求和响应。它将协议处理委托给Elastic.Trans......
uniapp - 最新详细实现web-view网页与安卓苹果App端之间互相通信功能，苹果app/安卓app
前言在uni-app项目开发中，详解实现web-view和App之间的互相通信完整流程及代码教程，Uniappapp端向webview网站传递数据，同时webview又可以向app端传递数据参数，完成二者的数据通信方案，支持嵌入本地移动端H5页面、第三方网站、自定义网页，附带各种常见问题，解决发送数据通信没......
开源模型应用落地-qwen2-7b-instruct-LoRA微调-unsloth（让微调起飞）-单机单卡-V100（十七）
一、前言本篇文章将在v100单卡服务器上，使用unsloth去高效微调QWen2系列模型，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。使用unsloth能够使模型的微调速度提高2-5倍。在处理大规模数据或对时间要求较高的场景下......
GitHub狂飙3万star的LLM公开资料
先用一张图片说明这篇blog多火热！本篇大型语言模型（LLM）课程分为三个部分：......

一些基于LLM可以进行web 检索的开源工具

说明

参考资料

相关文章

赞助商

阅读排行