首页 > 其他分享 >开源5款可用于LLMs的爬虫工具/方案

开源5款可用于LLMs的爬虫工具/方案

时间:2024-10-23 12:16:41浏览次数:9  
标签:Markdown LLMs 爬虫 抓取 网站 开源 LLM 格式

大家好,我是一颗甜苞谷,今天来分享5款可用于LLMs的爬虫工具/方案

1、Crawl4AI
功能: 提取语义标记的数据块为JSON格式,提供干净的HTML和Markdown文件。
用途: 适用于RAG(检索增强生成)、微调以及AI聊天机器人的开发。
特点: 高效数据提取,支持LLM格式,多URL支持,易于集成和Docker容器化。
2、FireCrawl
功能: 抓取网站的所有可访问子页面,并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站,提供易用的API。
3、Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务,用户只需指定信息类型。
4、Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等,易于扩展和自托管。
5、Jina Reader
功能:将任何URL转化为LLM所需的Markdown格式
特点:可以针对这些内容集成不同的模型,支持API

需要的小伙伴直接点击如下链接免费获取
链接:https://pan.quark.cn/s/06321e3eed3c


 

标签:Markdown,LLMs,爬虫,抓取,网站,开源,LLM,格式
From: https://blog.csdn.net/rmfdsfdsf/article/details/143180756

相关文章

  • 原创计算机毕业设计—59047 ssm订餐系统小程序(源码免费领)小程序、web网站、APP、爬虫
    摘 要21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到准确、快速、完善,并能提高工作管理效率,促进其发展。论文主要是对订餐系统小程序......
  • ERP开源项目Odoo
    OdooOdoo的全称是OnDemandOpenObject。名称反映了Odoo的起源和核心理念:•OnDemand:代表Odoo作为一个按需使用的系统,可以根据企业的需要定制和部署各种模块。•OpenObject:强调Odoo是一个开源项目,允许用户访问和修改其源代码,以便根据具体业务需求进行灵活的定制和扩......
  • 我最常用的几个免费爬虫软件&插件,非常强大
    网络爬虫是一种常见的数据采集技术,你可以从网页、APP上抓取任何想要的公开数据,当然需要在合法前提下。爬虫使用场景也很多,比如:搜索引擎机器人爬行网站,分析其内容,然后对其进行排名,比如百度、谷歌价格比较网站,部署机器人自动获取联盟卖家网站上的价格和产品描述,比如什么值得买......
  • 分享一个开源的文件MD5、Hash值等校验的小工具
    官方主页https://github.com/dragonyee/MyHash软件截图介绍一款采用并行计算,充分利用多核CPU性能,快速计算文件哈希值的工具。功能特点:1、只支持常用的CRC32、MD5、SHA1、SHA256、SHA512算法;2、支持多核CPU并行计算,大幅提高计算速度;3、支持多个文件或文件夹拖放操作;4、支......
  • 计算机毕业设计Spark+大模型动漫推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画
    《Spark+大模型动漫推荐系统》开题报告与任务书一、引言随着互联网技术的飞速发展,动漫产业的数据量急剧增长。用户面临着海量动漫作品的选择难题,如何从这些数据中高效地提取有价值的信息,为用户推荐符合其喜好的动漫作品,成为当前动漫产业亟需解决的问题。基于Spark的大数据处......
  • 计算机毕业设计Python+Spark知识图谱课程推荐系统 课程用户画像系统 课程大数据 课程
    《Python+Spark知识图谱课程推荐系统》开题报告一、研究背景与意义随着互联网技术的快速发展,在线教育平台已成为人们获取知识、提升技能的重要途径。然而,面对海量的课程资源,用户往往难以快速找到符合自己兴趣和需求的课程。传统的课程推荐系统大多基于简单的规则或统计方法,难......
  • 爬虫之CSS语法学习
    属性选择器用于根据HTML元素的属性和值来选择元素。不同的属性选择器语法适用于各种匹配需求。让我们逐一解释每种语法,并给出相应的例子:1.[attr]选择具有指定属性的所有元素,不考虑属性值。语法:[attr]例子:选择所有有name属性的元素。<inputtype="text"name="username">......
  • 开源图像超分ECBSR项目源码分析
    相关介绍项目GitHub地址:https://github.com/xindongzhang/ECBSR项目相关论文:https://www4.comp.polyu.edu.hk/~cslzhang/paper/MM21_ECBSR.pdf(也可以点这里下载)论文解读:Edge-orientedConvolutionBlockforReal-timeSuperResolutiononMobileDevicesWindows环境训练......
  • 必备的文档预览神器! 一款轻便好用的开源在线预览解决方案(带私活源码)
     项目背景在开发项目中,我们经常会遇到需要将文档在线预览的情况,其中文件的类型非常的繁多。本文旨在为大家提供一种开源的、好用的文档在线预览解决方案--kkFileView。项目使用流行的springboot搭建,易上手和部署。基本支持主流办公文档的在线预览,如doc,docx,Excel,pdf,txt,zi......
  • 开源表格识别模型对比
    引言表格结构识别功能是智能文档中很重要的一个模块,又加之表格种类繁多,且复杂,又进一步让表格识别任务变得更加困难。现阶段,开源的表格识别模型众多,但却难以有一个公平的对比,来方便我们在日常使用时选择合适的模型。因此,我们就以此为出发点,旨在解决评估开源表格模型评估问题,通过......