简单记录下,目前不少内部都会使用到langchain(毕竟提供了不少现在方便的工具包装) ,同时对于web 内容处理很多也会选择基于无头浏览器模式,对于html 内容为了方便llm 处理好多框架会优先转换为markdown 格式的,对于长内容同时也会进行chunk 拆分,规避大模型上下文限制问题
说明
目前对于web 内容检索处理上,选择基于现成的搜索api 的也比较多,此类支持搜索的api 服务相比传统搜索引擎强大不少,如果需要自己集成一些开源的searxng 是一个不错的选择,包含了rest api 可以方便使用
参考资料
https://github.com/unclecode/crawl4aihttps://github.com/ScrapeGraphAI/Scrapegraph-ai
https://github.com/mendableai/firecrawl
https://github.com/crewAIInc/crewAI
https://github.com/trancethehuman/entities-extraction-web-scraper
https://docs.searxng.org/dev/search_api.html
https://github.com/searxng/searxng
标签:web,github,开源,api,LLM,searxng,com From: https://blog.51cto.com/rongfengliang/12017529