最近“20条出台”大家应该都有所了解吧?其中,没有发生疫情的地区严格按照第九版防控方案确定的范围对风险岗位、重点人员开展核酸检测,不得扩大核酸检测范围。一般不按行政区域开展全员核酸检测,只在感染来源和传播链条不清、社区传播时间较长等疫情底数不清时开展。制定规范核酸检测的具体实施办法,重申和细化有关要求,纠正“一天两检”、“一天三检”等不科学做法。
大家都在各个社交平台上发表了关于取消区域全员核酸检测的评论,有人持续,有人反对。今天我们就使用python技术来探究下,针对这个措施大家整体是支持还是反对。现在抖音是最大的社交平台,也是使用人数最多的,那么我们就获取抖音平台上关于这个措施的评论数据,首先通过关键词获取所有“20条”相关视频,然后再获取大家发表的评论数据,因为抖音出了 web 版,抓取数据方便了很多。
滑到网页评论区,在浏览器网络请求里过滤包含comment的请求,不断刷新评论就可以看到评论的接口。
有了接口,就可以写 Python 程序模拟请求,获取评论数据。因为我们请求的数据比较多,而且抖音的风控一直都很严,所以在爬取前先做了应对措施。其中最重要的就是爬虫代理IP的添加,因为现在IP属性功能的出现,网站多IP的要求更高,经过一圈测试对比最后选择了亿牛云代理,接下来就是使用亿牛云代理爬取数据的实现过程:
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
若有收获,就点个赞吧
标签:全员,http,检测,核酸,抖音,评论,IP From: https://www.cnblogs.com/mmz77-aa/p/16889500.html