python初学者也能搞定微信公众号爬取

时间：2023-03-01 18:32:05浏览次数：60

标签：python 微信 driver URL content 公众 html 初学者

微信公众号爬取，网上的东西很多。

这里主要分两个阶段

1. 把公众号的文章URL爬取并保存下来。

2. 根据这些URL把内容下载下来。

把URL 爬取下来

这里采用了，微信公众平台的方法，也就是你先申请一个公众号啊，能登录微信公众平台啊。自己的这个公众号发文章的时候，超链接，可以选择别人微信公众号，搜索相关的文章啊，也就是从这里能够拿到相关的url。

我们利用这个senium，扫码登录后，就把相关的cookie存下来。

参考了https://www.cnblogs.com/xiao-apple36/p/9447877.html，代码也主要是这里的啊。

写的很清楚，可以仔细看一看。

感谢一只小小的寄居蟹

下载生成PDF

经过一圈的捣鼓啊，开始用import pdfkit 还是能用的啊，内容下载的也挺顺利的。（对付静态的网页）

现在这个微信改了，看起来都js了，这个pdfkit下载下来就基本空白了啊。

怎么办呢？

我们不是有senium么，用这个神器啊。

全部pagesource

driver = webdriver.Chrome()

driver.get(url)

html_content = driver.page_source

可以只要txt

html_content = driver.find_element(By.CLASS_NAME, "rich_media").text

捣鼓了一下 weasyprint

from weasyprint import HTML

html1 = HTML(string = html_content)

#html1 = HTML(filename = './page_content.html')

html1.write_pdf('test.pdf')

最后用了pyhtml2pdf

from pyhtml2pdf import converter

converter.convert(url, 'test2.pdf', timeout=2)

这个生产 PDF还是比较快的啊，推荐使用。

到此，简易版本就做完了，下载了想下的公众号。

用pyinstaller 在windows上打包了一个exe文件，放在了微信公众号 “随意都是朋友”

关注发送“wecrawler”,领取。

欢迎联系此公众号交流。

再次感谢一只小小的寄居蟹

python初学者也能搞定微信公众号爬取_公众号

标签：python,微信,driver,URL,content,公众,html,初学者
From： https://blog.51cto.com/u_13199812/6093996

实践：腾讯云IM搭建应用内类微信社交聊天模块
社交模块是目前主流应用程序最常见的功能之一。有了社交模块，用户在您的应用内，可以自由的交流互动，并添加好友，关注其他用户等等。这可在很大程度上，促进您应用程序的活跃......
python基础知识整理
一：pyhton数据类型数字类型：整型(int)/浮点型(float)/布尔型(bool)/复数型(complex)非数字类型：字符串(str)/列表(list)/元组(tuple)/字典(dict)不变类型：整型(int)/......
PyQt5弹框定时关闭（python）
PyQt5使用QMessageBox，可以设置在几秒后关闭（作者使用的python3）info_box=QMessageBox()#因为没使用这种方式QMessageBox.information(self,'复制','复制成功',QMe......
部署堡垒机4——CentOS7 编译安装 Python 3.8.12
1、去python3的官方网站下载源代码https://www.python.org/downloads/下载安装Python3.8.12到/opt/python3cd/optwgethttps://www.python.org/ftp/python/3.8.12/Py......
[oeasy]python0097_苹果诞生_史蒂夫_乔布斯_沃兹尼亚克_apple_I
苹果诞生回忆上次内容上次时代华纳公司凭借手中的影视ip和资本吞并了雅达利公司此时雅达利公司曾经开发过pong的优秀员工乔布斯还在印度禅修寻找自......
Python识别图形验证码实战项目
一、前言前几天有人问我的框架在登录时支不支持用户名、密码以及验证码。我回答是不支持，因为验证码是为了防爬虫的，自动化遇到有验证码可以叫开发去掉或者写个万能验证......
如何确定我的 python shell 是以 32 位还是 64 位执行的？
如何从shell内部判断shell处于什么模式？我试过查看平台模块，但它似乎只是告诉你“用于可执行文件的位架构和链接格式”。我的二进制文件被编译为64位（我在OSX10......
微信小程序：登录页面模板
微信小程序：登录页面模板wxml：<viewclass="v1"><viewclass="v2"><viewclass="dltext">登录</view><!--......
Python教程：类的继承，什么是继承
一、什么是继承继承是一种新建类的方式，新建的类称为子类，被继承的类称为父类继承的特性是：子类会遗传父类的属性继承是类与类之间的关系二、为什么用继承使用继承可以......
Python数据分析之财政收入影响因素分析及预测模型
01-summary.py 1#-*-coding:utf-8-*-23#代码6-145importnumpyasnp6importpandasaspd78inputfile='../data/data.csv'#输......

python初学者也能搞定微信公众号爬取

相关文章

赞助商

阅读排行