首页 > 编程语言 >32个Python爬虫项目让你一次吃到撑

32个Python爬虫项目让你一次吃到撑

时间:2024-03-26 14:59:20浏览次数:31  
标签:爬取 Python 32 爬虫 抓取 学习 微信

今天为大家整理了32个Python爬虫项目。
整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。

微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。

豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。

知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo

Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。

新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。

中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。

链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。

京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。

QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

乌云爬虫。 乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。

hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右

机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。

基于requests、MySQLdb、torndb的网易客户端内容爬虫

豆瓣电影、书籍、小组、相册、东西等爬虫集 writen by Python

QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。

百度mp3全站爬虫,使用redis支持断点续传。

淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。

一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

百度云盘爬虫。

社交数据爬虫。支持微博,知乎,豆瓣。

Python爬虫代理IP池(proxy pool)。

爬取网易云音乐所有歌曲的评论。

爬取煎蛋妹纸图片。

cnblogs列表页爬虫。

爬取慕课网视频。

中国知网爬虫。

知道创宇爬虫题目。

爱丝APP图片爬虫。

动态IP解决新浪的反爬虫机制,快速抓取内容。

爬取CSDN上的博客文章。

爬取西刺上的代理IP,并验证代理可用性

这份完整版的Python爬虫资料已经上传网盘,朋友们如果需要可以点击下方微信卡片免费领取 ↓↓↓【保证100%免费】

如果大家对Python感兴趣,这套python学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门Python是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习、Python量化交易等习教程。带你从零基础系统性的学好Python!

零基础Python学习资源介绍

① Python所有方向的学习路线图,清楚各个方向要学什么东西

② 600多节Python课程视频,涵盖必备基础、爬虫和数据分析

③ 100多个Python实战案例,含50个超大型项目详解,学习不再是只会理论

④ 20款主流手游迫解 爬虫手游逆行迫解教程包

⑤ 爬虫与反爬虫攻防教程包,含15个大型网站迫解

⑥ 爬虫APP逆向实战教程包,含45项绝密技术详解

⑦ 超300本Python电子好书,从入门到高阶应有尽有

⑧ 华为出品独家Python漫画教程,手机也能学习

⑨ 历年互联网企业Python面试真题,复习时非常方便

在这里插入图片描述

标签:爬取,Python,32,爬虫,抓取,学习,微信
From: https://blog.csdn.net/lvaolan/article/details/137046184

相关文章

  • python常用语句查询
    #!/usr/bin/python3#-*-coding:UTF-8-*-#注释'''多行三点注释'''"""多行注释"""ifTrue: print("true")else: print("false")a1=b1=c1=99d,e,f=1,2,"myname"a,b,c,d=......
  • Python之Scrapy爬虫框架安装及使用详解
    声明文章所涉及的内容仅为学习交流所用。前言:        Scrapy是用Python实现的一个为了采集网站数据、提取结构性数据而编写的应用框架。常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy框架实现一个爬虫,抓取指......
  • PySide6:使用Python第三方库的隐蔽问题
    PySide6:使用Python第三方库的隐蔽问题问题描述PySide6使用QChart的问题,我在自己机器上和服务器上都发现无法导入QChart模块,可是我用PySide6的其他模块就好好的...解决方案鉴于PySide6官网都是直接这样导入模块的,因此肯定不是代码的问题。遂怀疑是所安装的PySide6不全。当前......
  • 【通过python获取git的分支名】
    前言在git开发时,编译/编译后的文件是依赖于当前的git分支名的,读取其名字,可便于后续的操作。前言导入库声明git指令和路径解析git分支名调用subprocess总结导入库importsubprocess声明git指令和路径cmd_command="gitbranch--show-current"GitBash_path......
  • 【python】字符串(Str)
    字符串是python中最常用的数据类型,在整个变成阶段都起到了关键性的作用。目录前言正文一、字符串的定义二、字符编码转换1、编码的历史(了解即可)2、字符串的编码转换    1)、encode()    2)、 decode()三、转义字符四、字符串的基本操作1、访......
  • python多版本安装和导库
    多python版本的pip安装python的库,以及导出python库列表及版本1、同时安装python2和python3时,要进行pip安装python的库:当需要python2的pip时,输入以下命令:py-2-mpipinstallxxx当需要python3的pip时,输入以下命令:py-3-mpipinstallxxx 2、同时安装python2和pytho......
  • Python调用GPT4,GPT3.5,gpt-4-all(全功能模型)
    使用地址:openai-api调用3.5代码#coding=gbkimportopenaiopenai.api_base='https://api.chuanchuan.cloud/v1'openai.api_key='sk-8fNMAI5HqltUroio74A1D72dB2524487B2D59f675940Bd39'messages=[{"role":"user","......
  • python 实现获取与下载网页中图片的四种方案
    方案一利用urlretrieve()函数链接到图片url直接储存图片urlretrieve是urllib库中的一个函数urllib库是python的内置包,不需要下载安装urllib包含了四个模块分别是:request:基本的http请求模块,用来模拟发送请求。error:异常处理模块,捕获请求中的异常,然后进行重试或其他的操作以......
  • 爬虫之JS混淆和加密案例
    需求:中国空气质量在线监测分析平台是一个收录全国各大城市天气数据的网站,包括温度、湿度、PM2.5、AQI等数据,链接为:https://www.aqistudy.cn/html/city_detail.html,网站显示为:一连串的分析该网站所有的空气质量数据都是基于图表进行显示的,并且都是触发鼠标滑动或者点动......
  • 爬虫之多任务异步协程
    gevent模块示例代码:特点:可以识别所有阻塞fromgeventimportmonkeymonkey.patch_all()importgeventimportrequestsfromlxmlimportetreeimporttime#发送请求defget_request(url):page_text=requests.get(url).texttree=etree.HTML(page_text)......