首页 > 编程语言 >如何使用scrapy库编写一个滴滴采集程序

如何使用scrapy库编写一个滴滴采集程序

时间:2023-11-03 17:04:43浏览次数:35  
标签:get 滴滴 爬虫 scrapy video proxy 编写 div

如何使用scrapy库编写一个滴滴采集程序_反爬虫

今天给大家分享一个使用scrapy库的爬虫程序,并使用Python来爬取滴滴官网的视频。我个人觉得没什么太大的用,供大家学习一下吧。

```python
import scrapy
class DidiglobalVideoSpider(scrapy.Spider):
name = 'didiglobal_video'
start_urls = ['https://www.didiglobal.com/']
# 使用代理
proxy = 'https://www.duoip.cn/get_proxy:8000'
def parse(self, response):
for video in response.css('div.video-list li a'):
yield {
'title': video.css('div.video-title::text').get(),
'url': video.css('div.video-list::attr(href)').get(),
}
```

这段代码定义了一个名为`DidiglobalVideoSpider`的爬虫,它会爬取滴滴上的视频。`start_urls`参数指定了爬虫的起始URL。`proxy`参数指定了代理服务器的地址和端口。在`parse`方法中,我们使用CSS选择器从页面中提取视频的标题和URL,然后将这些信息作为字典返回。注意,由于这是一个简单的例子,实际的爬虫可能需要处理更复杂的情况,例如处理分页、错误处理、反爬虫策略等。请根据实际情况调整代码。

标签:get,滴滴,爬虫,scrapy,video,proxy,编写,div
From: https://blog.51cto.com/u_14448891/8172857

相关文章

  • Casablanca库编写爬虫采集苏宁视频
    昨天我们讲了一个采集苏宁易购视频的程序,有粉丝说有点复杂,那么今天我就用Casablanca库重新编写一个C++爬虫程序,来采集苏宁的视频,这个可更加简单,一起来学习一下吧。代码如下:```cppnamespacehttp=casablanca::http;namespaceio=boost::iostreams;namespacessl=casabl......
  • Scrapy Logging日志
    日志级别Python的内置日志记录定义了5个不同的级别来指示给定日志消息的严重性logging.CRITICAL用于严重错误(最高严重性)logging.ERROR常规错误logging.WARNING用于警告消息logging.INFO用于信息性消息logging.DEBUG用于调试消息(最低严重性)创建项目创建项目scrapystartpro......
  • 单元测试编写
      @SpringBootTest@RunWith(SpringJUnit4ClassRunner.class)publicclassHelloTest{@AutowiredprivateSysDictionaryDaodictionaryDao;@Beforepublicvoidbefore(){TableInfoHelper.initTableInfo(newMapperBuilderAssista......
  • 22. 从零用Rust编写正反向代理,一个数据包的神奇HTTP历险记!
    wmproxywmproxy已用Rust实现http/https代理,socks5代理,反向代理,静态文件服务器,四层TCP/UDP转发,内网穿透,后续将实现websocket代理等,会将实现过程分享出来,感兴趣的可以一起造个轮子项目地址国内:https://gitee.com/tickbh/wmproxygithub:https://github.com/tickbh/wmpro......
  • 7. 从零开始编写一个类nginx工具, HTTP及TCP内网穿透原理及运行篇
    wmproxywmproxy是由Rust编写,已实现http/https代理,socks5代理,反向代理,静态文件服务器,内网穿透,配置热更新等,后续将实现websocket代理等,同时会将实现过程分享出来,感兴趣的可以一起造个轮子法项目++wmproxy++gite:https://gitee.com/tickbh/wmproxygithub:https://github.com/tic......
  • django搭建平台实战教程三:接口编写及权限校验(前后端分离)
    自定义权限校验注册增加group_id字段...@api_view(['POST'])defregister(request:Request):ifDUser.objects.filter(username=request.data["username"]).count()>0:returnResponse({"code":400,&qu......
  • Effective Python 编写高质量Python代码的59个有效方法----读书笔记
    第二条遵循PETP8风格指南PEP8指南PythonEnhancementProposal#8使用space(空格)来表示缩进,而不要用tab(制表符)和与法相关的每一层缩进都用4个空格来表示每行的字符数不应超过79对于占据多行的长表达式来说,除了首行之外的其余各行都应该在通常的缩进级别至上再加4个空格......
  • 【python爬虫】80页md笔记,0基础到scrapy项目高手,第(3)篇,requests网络请求模块详解
    本文主要学习一下关于爬虫的相关前置知识和一些理论性的知识,通过本文我们能够知道什么是爬虫,都有那些分类,爬虫能干什么等,同时还会站在爬虫的角度复习一下http协议。完整版笔记直接地址:请移步这里共8章,37子模块,总计56668字requests模块本阶段本文主要学习requests这......
  • 【MME编写入门】光照模型
    float4x4WorldViewMatrix:WORLDVIEW;float4x4WorldViewProjMatrix:WORLDVIEWPROJECTION;float4x4WorldMatrix:WORLD;//需要用到的矩阵//需要用到光的位置、相机位置float3LightDirection:DIRECTION<stringObject="Light";>;fl......
  • 【MME编写入门】后处理模板
    1float4ClearColor={1,1,1,0};2floatClearDepth=1.0;34floatScript:STANDARDSGLOBAL<5stringScriptOutput="color";6stringScriptClass="scene";7stringScriptOrder="postprocess";8......