首页 > 编程语言 >利用python简单采集公众号

利用python简单采集公众号

时间:2023-11-06 17:02:00浏览次数:34  
标签:qq 公众 python text 爬虫 采集 weixin proxy requests

利用python简单采集公众号_python

今天用python写一个采集公众号文章的爬虫,目前还没有做具体的优化,只供学习,一起来看看吧。

```python
import requests
from bs4 import BeautifulSoup
proxy_host = "www.duoip.cn"
proxy_port = 8000
url = "https://mp.weixin.qq.com/s?" # 微信公众号文章网址
headers = {
"User-Agent": "Mozilla/5.0",
"Host": "mp.weixin.qq.com",
"Referer": "https://mp.weixin.qq.com/",
"Proxy-Host": proxy_host,
"Proxy-Port": proxy_port
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")
# 获取文章标题
title = soup.find("h2").text.strip()
# 获取文章内容
content = soup.find("div", class_="post_content").text.strip()
print("标题:", title)
print("内容:", content)
```

首先,你需要安装Python的requests库来发送HTTP请求。然后,你可以使用requests.get()函数来发送GET请求到公众号的网址。你需要在请求头中包含代理信息,这样服务器就会通过代理来处理你的请求。最后,你可以使用BeautifulSoup库来解析HTML页面,从而获取你需要的内容。

注意:爬虫程序可能会受到反爬虫机制的限制,导致无法正常工作,此时需要调整爬虫策略或寻求其他解决方案。另外,爬取的内容可能涉及版权问题,需要遵守相关法律法规。

标签:qq,公众,python,text,爬虫,采集,weixin,proxy,requests
From: https://blog.51cto.com/u_14448891/8214419

相关文章

  • 运用python采集抖音评论
    今天给大家带来的是用Python编写的一个简单的抖音爬虫程序,来采集抖音评论的内容。让我们一起来看学一下吧。```pythonimportrequestsimportjson#设置代理信息proxy_host='https://www.duoip.cn/get_proxy'proxy_port=8000#爬虫网址url='https://www.douyin.com/vi......
  • 利用Rust编程语言和tide库采集搜狗图片
    今天给大家带来一个用Rust编程语言和tide库编写一个爬虫程序,主要用于采集搜狗图片。一起来学习一下吧。```rust//导入所需的库usestd::io::{BufRead,BufReader};usestd::net::TcpStream;usestd::sync::mpsc;//定义一个消息通道来传递爬取的结果let(sender,receiver)......
  • Python工具箱系列(四十五)
    内存映射文件mmap是python内置标准库,提供将文件映射到内存的机制。通过mmap将文件映射到内存之后,我们可以高效并优雅地对文件的内容进行随机访问。通常打开文件后要通过组合各种seek()、read()和write()调用来访问,使用mmap后可以简单将文件映射到内存,然后通过切片操作来访问数据......
  • python多进程提高性能
    在Python中,可以使用multiprocessing模块来实现多进程。下面是一个简单的例子,用来演示在Python中如何创建多个子进程:importmultiprocessingdefworker(num):"""打印子进程的编号"""print('Worker',num)if__name__=='__main__':#创建4个子进程foriin......
  • 《python基础教程(第二版)》学习笔记 文件和素材(第11章)
    《python基础教程(第二版)》学习笔记文件和素材(第11章)打开文件:open(filename[,mode[,buffering]])mode是读写文件的模式f=open(r'c:\somefile.txt')#默认是读模式+表示是可以读写;r读模式;w写模式;a追加模式;b二进制模式;换行符在Windows为\r\n,在Unix中为\n,Python会自动转......
  • 《python基础教程(第二版)》学习笔记 函数(第6章)
    《python基础教程(第二版)》学习笔记函数(第6章)创建函数:deffunction_name(params):blockreturnvalues记录函数:deffunction_name(params):'NOTE'#注释blockreturnvaluesfunction_name.__doc__help(function_name)return#没有返回值位置参数和关键字参数:关......
  • 《python基础教程(第二版)》学习笔记 类和对象(第7章)
    《python基础教程(第二版)》学习笔记类和对象(第7章)定义类classPerson:defsetName(self,name):self.name=namedefgetName(self):returnself.namefoo=Person()foo.setName('AAA')foo.getName()foo.namefoo.name='BBB'私有属性,名字前面加上......
  • 在Python中获取飞书群消息,你可以使用`feishu-python-sdk`这个库¹。这是一个用于和飞
    在Python中获取飞书群消息,你可以使用`feishu-python-sdk`这个库¹。这是一个用于和飞书开放平台交互的Python库,它支持同步调用和异步调用,实现了订阅事件和卡片交互回调¹。首先,你需要安装这个库,可以使用pip进行安装:```pythonpipinstallfeishu-python-sdk```然后,你可以使用以......
  • 从零开始构建报警中心:part02 使用python脚本接收zabbix报警信息-2
    在上篇中完成了对报警媒介与动作的配置在动作配置中,有一项是发送到配置,这个需要配置到用户与报警媒介之间进行绑定。具体操作如下点击“管理”-》“用户”,点击要操作的用户再点击“报警媒介”,点击“添加”进行操作在弹出的对话框上点选类型,选择之前对应配置的报警媒介,并添加。如果......
  • Python IDE
    1.VimVim可以说是Python最好的IDE。Vim是高级文本编辑器,旨在提供实际的Unix编辑器‘Vi’功能,支持更多更完善的特性集。Vim不需要花费太多的学习时间,一旦你需要一个无缝的编程体验,那么就会把Vim集成到你的工作流中。2.EclipsewithPyDevEclipse是非常流行的IDE,而且......