单个 Scrapy 项目与多个项目

时间：2024-08-01 16:04:48浏览次数：21

我对如何存储所有蜘蛛感到困惑。这些蜘蛛将通过使用命令行调用和从 stdin 读取的项目输入 Apache NiFi 来使用。我还计划让这些蜘蛛的子集在单独的网络服务器上使用 scrapyrt 返回单个项目结果。我需要在具有不同项目模型的许多不同项目中创建蜘蛛。它们都有相似的设置（比如使用相同的代理）。

我的问题是构建我的 scrapy 项目的最佳方法是什么？

将所有蜘蛛放在同一个存储库中。 提供一个为项目加载器和项目管道创建基类的简单方法。
将我正在处理的每个项目的蜘蛛分组到单独的存储库中。 这样做的优点是允许项目成为每个项目的焦点，而不会被太大了。无法共享通用代码、设置、蜘蛛监视器 (spidermon) 和基类。尽管存在一些重复，但这感觉是最干净的。
仅打包我计划在 NiFi 存储库中使用非实时的蜘蛛和另一个存储库中的实时蜘蛛。 有一个优势，我可以将蜘蛛与实际使用它们但仍然集中/复杂化哪些蜘蛛与哪些项目一起使用的项目。

感觉正确的答案是#2。与特定程序相关的蜘蛛应该在自己的 scrapy 项目中，就像当你为项目 A 创建 Web 服务时，你不会说哦，我可以将项目 B 的所有服务端点扔到同一个服务中，因为那是我的所有服务都将驻留在其中，即使某些设置可能会重复。可以说，一些共享代码/类可以通过单独的包共享。

您觉得怎么样？你们是如何构建 scrapy 项目以最大限度地提高可重用性的？同一项目与单独项目的界限在哪里？它基于您的项目模型或数据源吗？

提出了有关如何构建 Scrapy 项目的一些很好的观点。虽然没有一个正确的答案，并且很大程度上取决于的具体需求，但我同意的观点， 选项 2（按项目对蜘蛛进行分组到单独的存储库中） 通常是最好的方法。

让我们更深入地了解原因以及如何缓解缺点：

选项 2 的优势：

模块化和组织性： 将蜘蛛与其各自的项目分组可以保持代码库的清洁、有条理和易于维护。当拥有许多蜘蛛时，这尤其重要。
隔离： 不同的项目可能需要不同的依赖项、设置或 Spidermon 配置。单独的存储库可以防止版本冲突并允许对每个项目进行定制。
所有权和责任感： 如果有不同的团队在不同的项目上工作，单独的存储库可以更轻松地管理代码所有权和责任感。

选项 2 的缺点：

代码重复： 可能会在项目之间遇到一些重复的代码，尤其是在设置、基类和实用程序函数方面。
共享代码的管理： 如果需要跨项目共享代码，则需要使用包管理器（如 pip）将其提取到单独的库中并进行管理。

缓解缺点：

用于共享代码的共享库： 为设置、基类、项目管道、实用程序函数和 Spidermon 配置创建一个单独的 Python 包。所有项目都可以安装此包作为依赖项。
使用 Cookiecutter 模板： 创建一个 Cookiecutter 模板，用于生成新的 Scrapy 项目，其中包含的标准设置、共享库和最佳实践。这可以减少设置新项目所需的工作量。
Monorepo，如果适用： 如果在存储库管理方面遇到困难，请考虑使用 monorepo。Monorepos 允许在单个存储库中拥有多个项目，从而更轻松地管理依赖项和共享代码，同时仍保持一些隔离度。

何时考虑其他选择：

选项 1（所有蜘蛛都在一个存储库中）： 如果的所有蜘蛛都密切相关且共享大量代码，这可能是一个不错的选择。但是，随着项目规模的扩大，保持代码库的有条理将变得越来越具有挑战性。
选项 3（按实时与非实时进行分组）： 这可能是一个有效的选项，但它更多地与蜘蛛的部署而不是它们的组织方式相关。仍然可以在每个部署组中拥有多个项目。

最终，最佳方法取决于的项目规模、团队结构和个人喜好。从选项 2 开始，如果需要，以后可以随时调整。请记住要优先考虑模块化、可重用性和长期可维护性。

标签：python,web-scraping,scrapy
From： 57861326

为什么Python库中还没有Gauss-Jordan消去函数？
Gaussian-Jordan消除法是一种常用且方便的技术。在矩阵计算中，该方法得到广泛应用。但是，Python库中没有此方法的内置函数。设计这样的功能并不困难。开发人员似乎忽略了这个功能。这可能是什么原因？希望开发者能够重视这一点，并开发与该方法相关的功能。虽然高斯-约旦消元......
Python爬虫 - js逆向之扣出某平台的_signature加密字段
前言好久没有做逆向案例分析了，最近都在看同行朋友写好的案例，感觉学到很多，算是取长补短了不多bb，机缘巧合下，拿到个目标网站分析首先抓个包，就看到请求参数里带着这几个参数主要就是_signature了，其他的参数都不重要得想必你一看就知道啥意思了。行，开始分析_signature......
python 音频处理（1）——重采样、音高提取
采集数据->采样率调整使用torchaudio进行重采样（cpu版）首先导入相关包，既然使用torch作为我们的选项，安装torch环境我就不必多说了，如果你不想用torch可以使用后文提到的另一个库1importtorch2importtorchaudio3fromtorchaudio.transformsimportResample4fromtime......
用于从连接到 LAN 交换机的四个 Arduino 扩展板读取/保存数据的 Python 代码
我有四个Arduino扩展板连接到LAN交换机。每个人都会发出一条“HelloJane”消息。LAN交换机已连接到我的PC。我需要将每个Arduino的数据/消息保存在PC上的单独文件夹中。请帮助使用Python脚本/代码。我能够看到来自所有四个Arduino的消息，但无法将它们保存到文......
使用 Python 生产者和消费者在 Kubernetes minikube 上设置 Kafka Kraft
我正在尝试从kubernetes集群外部连接到kubernetesminikubekafkapod。服务器启动没有任何问题，但我无法设法将本地kafka生产者/消费者连接到外部kafkapod。在集群内的kafka服务器映像上，我将bootstrap-server设置为：bin/kafka-topics.sh--create--bootst......
python llama_index.indices.list.retrievers 导入错误
fromllama_indeximportGPTListIndexfromllama_index.indices.list.retrieversimportListIndexLLMRetrieverdocuments=SimpleDirectoryReader('./data').load_data()index=GPTListIndex.from_documents(documents,service_context=service_context)r......
如何使用 python 和 bs4 修复抓取 web 表输出 csv
请帮帮我，，我想在“td”、“Barcode”和“namaproduk”中获取2个数据，但我得到的数据非常糟糕。我应该修复什么？importcsvimportrequestsfrombs4importBeautifulSoupoutfile=open("dataaa.csv","w",newline='')writer=csv.writer(outfile)page=0whilepag......
基于Django的超市小程序+47822（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小
基于django超市小程序摘要随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，超市小程序被用户普遍使用，为方便用户能够可以随时进行超市小程序的数据信息管理，特开发了基于djan......
【优秀python django系统案例】基于python的医院挂号管理系统，角色包括医生、患者、管
随着信息技术的迅猛发展，传统的医院挂号管理方式面临着效率低下、排队时间长、信息不对称等诸多问题。这些问题不仅影响患者的就医体验，也加重了医院工作人员的负担。在此背景下，基于Python的医院挂号管理系统应运而生。该系统旨在通过信息化手段优化挂号流程，提高管理效率，提升医疗......
Python-PLAXIS自动化建模技术与典型岩土工程
原文链接：Python-PLAXIS自动化建模技术与典型岩土工程https://blog.csdn.net/2301_78164062/article/details/140607885?spm=1001.2014.3001.5501一：Plaxis软件及PlaxisPythonAPI环境搭建1、Plaxis2D\Plaxis3D软件2、面向对象编程语言Python及其开发环境Spyder3、Plaxis输......

单个 Scrapy 项目与多个项目

相关文章

赞助商

阅读排行