首页 > 编程语言 >python初学者也能搞定微信公众号爬取

python初学者也能搞定微信公众号爬取

时间:2023-03-01 18:32:05浏览次数:60  
标签:python 微信 driver URL content 公众 html 初学者

微信公众号爬取,网上的东西很多。

这里主要分两个阶段

1. 把公众号的文章URL爬取并保存下来。

2. 根据这些URL把内容下载下来。

把URL 爬取下来

这里采用了,微信公众平台的方法,也就是你先申请一个公众号啊,能登录微信公众平台啊。自己的这个公众号发文章的时候,超链接,可以选择别人微信公众号,搜索相关的文章啊,也就是从这里能够拿到相关的url。

我们利用这个senium,扫码登录后,就把相关的cookie存下来。

参考了​​https://www.cnblogs.com/xiao-apple36/p/9447877.html​​, 代码也主要是这里的啊。

写的很清楚,可以仔细看一看。

感谢 一只小小的寄居蟹

下载生成PDF

经过一圈的捣鼓啊,开始用import pdfkit 还是能用的啊,内容下载的也挺顺利的。(对付静态的网页)

现在这个微信改了,看起来都js了,这个pdfkit下载下来就基本空白了啊。

怎么办呢?

我们不是有senium么,用这个神器啊。

全部pagesource

driver = webdriver.Chrome()

driver.get(url)

html_content = driver.page_source

可以只要txt

html_content = driver.find_element(By.CLASS_NAME, "rich_media").text

捣鼓了一下 weasyprint

from weasyprint import HTML

html1 = HTML(string = html_content)

#html1 = HTML(filename = './page_content.html')

​html1.write_pdf('test.pdf')

最后用了pyhtml2pdf

from pyhtml2pdf import converter

converter.convert(url, 'test2.pdf', timeout=2)

这个生产 PDF还是比较快的啊,推荐使用。

到此,简易版本就做完了,下载了想下的公众号。

用pyinstaller 在windows上打包了一个exe文件,放在了微信公众号 “随意都是朋友”

关注发送“wecrawler”,领取。

欢迎联系此公众号交流。

再次感谢一只小小的寄居蟹

python初学者也能搞定微信公众号爬取_公众号

标签:python,微信,driver,URL,content,公众,html,初学者
From: https://blog.51cto.com/u_13199812/6093996

相关文章

  • 实践:腾讯云IM搭建应用内类微信社交聊天模块
    社交模块是目前主流应用程序最常见的功能之一。有了社交模块,用户在您的应用内,可以自由的交流互动,并添加好友,关注其他用户等等。这可在很大程度上,促进您应用程序的活跃......
  • python基础知识整理
    一:pyhton数据类型数字类型:整型(int)/浮点型(float)/布尔型(bool)/复数型(complex)非数字类型:字符串(str)/列表(list)/元组(tuple)/字典(dict)不变类型:整型(int)/......
  • PyQt5弹框定时关闭(python)
    PyQt5使用QMessageBox,可以设置在几秒后关闭 (作者使用的python3)info_box=QMessageBox()#因为没使用这种方式QMessageBox.information(self,'复制','复制成功',QMe......
  • 部署堡垒机4——CentOS7 编译安装 Python 3.8.12
    1、去python3的官方网站下载源代码https://www.python.org/downloads/下载安装Python3.8.12到/opt/python3cd/optwgethttps://www.python.org/ftp/python/3.8.12/Py......
  • [oeasy]python0097_苹果诞生_史蒂夫_乔布斯_沃兹尼亚克_apple_I
    苹果诞生回忆上次内容上次时代华纳公司凭借手中的影视ip和资本吞并了雅达利公司此时雅达利公司曾经开发过pong的优秀员工乔布斯还在印度禅修寻找自......
  • Python识别图形验证码实战项目
    一、前言前几天有人问我的框架在登录时支不支持用户名、密码以及验证码。我回答是不支持,因为验证码是为了防爬虫的,自动化遇到有验证码可以叫开发去掉或者写个万能验证......
  • 如何确定我的 python shell 是以 32 位还是 64 位执行的?
    如何从shell内部判断shell处于什么模式?我试过查看平台模块,但它似乎只是告诉你“用于可执行文件的位架构和链接格式”。我的二进制文件被编译为64位(我在OSX10......
  • 微信小程序:登录页面模板
    微信小程序:登录页面模板wxml:<viewclass="v1"><!--v2父容器子view使用绝对布局--><viewclass="v2"><viewclass="dltext">登录</view><!--......
  • Python教程:类的继承,什么是继承
    一、什么是继承继承是一种新建类的方式,新建的类称为子类,被继承的类称为父类继承的特性是:子类会遗传父类的属性继承是类与类之间的关系二、为什么用继承使用继承可以......
  • Python数据分析之财政收入影响因素分析及预测模型
     01-summary.py 1#-*-coding:utf-8-*-23#代码6-145importnumpyasnp6importpandasaspd78inputfile='../data/data.csv'#输......