首页 > 其他分享 >新一代爬虫平台!不写代码即可完成爬虫...

新一代爬虫平台!不写代码即可完成爬虫...

时间:2024-05-30 10:25:20浏览次数:13  
标签:... 自定义 数据库 flow 爬虫 支持 spider 不写

大家好,我是 Java陈序员

今天,给大家介绍一个优秀的爬虫平台,无需编写代码,只要通过简单的流程配置,即可实现爬虫。

关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。

项目介绍

spider-flow —— 新一代爬虫平台,以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台。

功能特性:

  • 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
  • 支持JSON/XML/二进制格式
  • 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
  • 支持爬取JS动态渲染(或ajax)的页面
  • 支持代理
  • 支持自动保存至数据库/文件
  • 常用字符串、日期、文件、加解密等函数
  • 支持插件扩展(自定义执行器,自定义方法)
  • 任务监控,任务日志
  • 支持HTTP接口
  • 支持Cookie自动管理
  • 支持自定义函数

平台还支持 Redis、MongoDB 等多种插件,可参考对应的插件文档进行集成。

❗❗❗注意:请友善使用 spider-flow,遵守蜘蛛协议,不要将 spider-flow 用于任何非法用途。

功能截图

爬虫列表

爬虫流程图配置

爬虫Debug调试

爬虫定时任务设置

任务通知

爬虫日志

全局变量

自定义函数

数据源管理

快速开始

1、拉取代码

git clone https://github.com/ssssssss-team/spider-flow.git

2、创建数据库

CREATE DATABASE `spiderflow` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;

3、将项目以 Maven 工程的形式导入到 IDEA

4、修改目录下 spider-flow/spider-flow-web/src/main/resources 的配置文件 application.properties 中的数据库连接信息

## 数据库用户名
spring.datasource.username=root
## 数据库密码
spring.datasource.password=root
## 数据库连接地址
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true

5、执行主启动类 org.spiderflow.SpiderApplication 启动项目

6、浏览器访问

http://localhost:8088/

spider-flow 作为一个以流程驱动爬虫的平台,其中的代码实现值得我们深入学习。

❗❗❗注意:请友善使用 spider-flow,遵守蜘蛛协议,不要将 spider-flow 用于任何非法用途。

最后,贴上项目地址:

https://github.com/ssssssss-team/spider-flow

最后

推荐的开源项目已经收录到 GitHub 项目,欢迎 Star

https://github.com/chenyl8848/great-open-source-project

或者访问网站,进行在线浏览:

https://chencoding.top:8090/#/

大家的点赞、收藏和评论都是对作者的支持,如文章对你有帮助还请点赞转发支持下,谢谢!

标签:...,自定义,数据库,flow,爬虫,支持,spider,不写
From: https://www.cnblogs.com/codechen8848/p/18221314

相关文章

  • python爬虫不报错也不出结果?
    刚学爬虫对着视频想爬个网络小说但是代码写完不报错也不出结果,大佬们帮忙看看啥情况importreimportrequestsfromlxmlimportetreeheaders={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/125.0.0......
  • Python网络爬虫的时候json=就是让你少写个json.dumps()
    大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫的问题,提问截图如下:登录请求地址是这个:二、实现过程这里【甯同学】给了一个提示,如下所示:估计很多小伙伴和我一样会有一个疑问吧,为啥这次要用json=data啊?因为请求头的content-type这里对......
  • python 队列生产者消费者爬虫
    当使用Python编写一个基于队列的生产者消费者爬虫时,我们通常会使用threading或multiprocessing模块来处理并发,并使用queue模块来管理数据队列。下面是一个详细的示例,该示例展示了如何使用生产者线程生成URL,消费者线程爬取这些URL的内容。请注意,这里为了简化示例,我们将不会实际进......
  • 谁说爬虫只能Python?看我用C#快速简单实现爬虫开发和演示!
    前言:说到爬虫,基本上清一色的都知道用Python,但是对于一些没玩过或者不想玩Python的来说,却比较头大一点。所以以下我站在C#的角度,来写一个简单的Demo,用来演示C#实现的简单小爬虫。大家感兴趣可以自己拓展出更加丰富的爬虫功能。前提:引用包HtmlAgilityPack 先来个爬取文本。新......
  • 我是如何两周瘦12斤的......
    很多时候,都是在找自己23年初的时候,我的体重一路飙升,最重的时候,来到了近215斤!来描述一下,就是脸上的横肉清晰可见,而且第一直观感受就是蠢,看着镜子中的自己,自己都很嫌弃!然后,我就开启了每日5公里的模式,从去年2月中旬开始,坚持了四个多月瘦到了170多斤,真的很怀念那时候的状态。没错,......
  • 基于SpringBoot的酒店订房系统-82159(免费领源码+数据库)可做计算机毕业设计JAVA、PHP、
    springboot酒店订房系统摘 要随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,酒店订房系统当然也不能排除在外。酒店订房系统是以实际运用为开发背景,运用软件工程开发方法,采用springboot技术构建的一个管理系统......
  • 计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫
    流程:1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;3.hive建库建表导入.csv动漫数据;4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;5.sq......
  • 爬虫实训案例:中国大学排名
    近一个月左右的时间学习爬虫,在用所积累的知识爬取了《中国大学排名》这个网站,爬取的内容虽然只是可见的文本,但对于初学者来说是一个很好的练习。在爬取的过程中,通过请求数据、解析内容、提取文本、存储数据等几个重要的内容入手,不过在存储数据后的数据排版方面并不是很完善......
  • Java基础知识点-常见面试题(持续更新...)
    文章目录前言面向对象的三大特征1.封装2.继承3.多态抽象类和接口有什么相同点和区别?Java深拷贝、浅拷贝、引用拷贝Java中==和equals()的区别?为什么重写equals()时必须重写hashCode()方法?1.首先,hashCode()有什么用?2.两个对象有相同的hashCode值并不意味它们一定相等......
  • HashMap常见知识点(持续更新...)
    文章目录前言HashMap的底层数据结构解决Hash冲突的方法有哪些,HashMap用哪种为什么Hash冲突时,先用链表,再转为红黑树HashMap默认加载因子为什么是0.75HashMap中,key的存储索引计算方式HashMap数组的长度为什么是2的幂次方HashMap的put方法流程一般使用什么类型作为KeyHashMa......