0 概述

1 Java Spider

spider-flow

Home URL : https://www.spiderflow.org/

spider-flow 是一个爬虫平台，以图形化方式定义爬虫流程，无需代码即可实现一个爬虫

Github Star : 7.7K

20230306
https://github.com/ssssssss-team/spider-flow

Webmagic

Home URL : http://webmagic.io/docs/en/

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。

特性：
  简单的API，可快速上手
  模块化的结构，可轻松扩展
  提供多线程和分布式支持

Github URL : 10.7K

20230306
https://github.com/code4craft/webmagic

Heritrix 3

Home URL : heritrix.readthedocs.io/

Heritrix 是一个开源，可扩展的 web 爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix 设计成严格按照 robots.txt 文件的排除指示和 META robots 标签。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。

Github Star : 2.4K

20230306
https://github.com/internetarchive/heritrix3

2 Python Spider

Scrapy

Language : Python
GitHub Star : 46.4K

20230306

Home URL : https://scrapy.org/community/

【简介】
Scrapy 是一种高速的高层 Web 爬取和 Web 采集框架，可用于爬取网站页面，并从页面中抽取结构化数据。
Scrapy 的用途广泛，适用于从数据挖掘、监控到自动化测试。
Scrapy 设计上考虑了从网站抽取特定的信息，它支持使用 CSS 选择器和 XPath 表达式，使开发人员可以聚焦于实现数据抽取。
对于熟悉 Python 的开发人员，只需几分钟就能建立并运行 Scrapy。
支持运行在 Linux、Mac OS 和 Windows 系统上。

【特性】
内置支持从 HTML 和 XML 抽取数据、使用扩展的 CSS 选择器（Selector）和 XPath 表达式等特性。
支持以多种格式（JSON、CSV、XML）生成输出。
基于 Twisted 构建。
稳健的支持，自动检测编码方式。
快速，功能强大。

PySpider

Home URL : https://docs.pyspider.org/en/latest/
Github Star : 15.8K

https://github.com/binux/pyspider

PySpider 是一种 Python 编写的强大 Web 爬虫。
它支持 JavaScript 网页，并具有分布式架构。
PySpider 支持将爬取数据存储在用户选定的后台数据库，包括 MySQL, MongoDB, Redis, SQLite, Elasticsearch 等。
支持开发人员使用 RabbitMQ、Beanstalk 和 Redis 等作为消息队列。
提供强大 Web 界面，具有脚本编辑器、任务监控、项目管理器和结果查看器。
支持对重度 Ajax 网站的爬取。
易于实现适用、快速的爬取。

Beautifulsoup

Home URL : https://www.crummy.com/software/BeautifulSoup/
Docs URL : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Beautiful Soup 一种设计用于实现 Web 爬取等快速数据获取项目的 Python 软件库。
它在设计上处于 HTML 或 XML 解析器之上，提供用于迭代、搜索和修改解析树等功能的 Python 操作原语。往往能为开发人员节省数小时乃至数天的工作。
Beautiful Soup 自动将输入文档转换为 Unicode 编码，并将输出文档转换为 UTF-8 编码。
Beautiful Soup 处于一些广为采用的 Python 解析器（例如，lxml 和 html5lib）之上，支持用户尝试使用多种不同的解析策略，并在速度和灵活性上做出权衡。

X 参考文献

标签：URL,爬虫,Python,开源,https,Home,软件
From： https://www.cnblogs.com/johnnyzen/p/17185119.html

逆向软件设计和开发能力—学生管理系统
此项目为大一第一学期吕涛同学的c语言大作业用户界面如下：项目分析：该系统面向全体用户，系统简洁明了，功能完善。该系统主要运用文件存储用户信息，运用结构体定义用户信息。......
2023年3月6日(软件工程日报)
今天完成个人作业第一部分内容，其中最长打卡天数未能实现，打卡显示没有完成，在第二阶段会加以完善。以下为个人代码java代码方面，包括闹钟设定，登录设定，注册设定，封装类，连接数......
常用的化学学科学习实验工具软件介绍
学习化学，除了要注重书本知识及做好实验外，学会利用计算机工具软件也是一个很好的方法和技巧，我们可以使用各种化学软件工具来加深对化学知识的理解和应用。下面简单介绍一些......
小程序容器作为软件中间件技术的应用前景
随着移动互联网的不断发展，越来越多的应用程序被广泛应用于各种行业和领域中。然而，不同的平台和设备之间的差异性和复杂性，给应用程序的开发和部署带来了很大的挑战。这时，小......
逆向软件设计与开发——电子会议厅
此程序为一个大三学长的软件项目，此系统旨在实现一个电子会议厅程序，利用其可以对某个班级事务管理采取网上发布和讨论的手段，以便征求广大同学对班级事务的建议和意见，从而加......
轻量简单的团队协作工具有哪些？远程办公必备软件排行榜
前段时间的疫情不断反复，让不少企业和团队都开启了居家办公，无论是线上协作还是团队会议，都要使用大量的办公远程软件，因为突如其来的场景大转变，所以无形中也给大家增加了不少......
2023.3.6软件工程日报
所花时间：3小时代码量：100行博客量：1 今天由于课上验收加了0.5分日期为2023.3.6 此外看了其他优秀同学的作品，深感自己的差距，感觉应该更细化业务逻辑......
开源项目的演进会遇到哪些“坑”？KubeVela 从发起到晋级 CNCF 孵化的全程回顾
作者：孙健波、曾庆国点击查看：「开源人说」第五期《KubeVela：一场向应用交付标准的冲锋》2023 年 2 月，**KubeVela[1]** 经过全体ToC投票成功进入CNCFIncubation，......
CentOS-1810系统DHCP服务器ISC DHCP软件配置说明
DHCP全称DynamicHostconfigurationprotocol，动态主机配置协议。是一个局域网的网络协议，使用UDP协议工作，它可以为客户机自动分配IP地址、子网掩码以及缺省网关、DNS服务......
如何选择适合自己的电脑提醒软件？
有不少职场人士表示，因为自己每天要做的事情很多，经常会忘记一些待办事项或重要的事情，比如会议的时间、提交工作总结的时间、在截止时间之前需要完成的重要工作等。为了避免......

[工具/软件]开源爬虫框架

0 概述

1 Java Spider

spider-flow

Webmagic

Heritrix 3

2 Python Spider

Scrapy

PySpider

Beautifulsoup

X 参考文献

相关文章

赞助商

阅读排行