整体思路：

　1、从热搜榜获取详情页的链接

2、排除掉广告以及置顶广告热力值为空置定为第一个tr

3、点击加载更多评论页面会跳转

4、跳转页面后抓包获得评论所在真实地址

5、观察真实地址所需要的参数从详情页获取完成构造

6、对构造地址进行请求将count=20改为count=200 可以显示二百条

7、使用re对数据进行提取并保存

8、仅供学习使用

 1 import re
 2 import csv
 3 import requests
 4 from lxml import etree
 5  
 6 url = 'https://s.weibo.com/top/summary?sudaref=www.baidu.com'
 7 headers = {
 8     '你的': 'cookie',
 9     'referer': 'https://login.sina.com.cn/',
10     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
11  
12 }
13 with open('微博热搜评论.csv', 'a', encoding='utf-8-sig', newline='') as f:
14     csv_writer = csv.writer(f)
15     csv_writer.writerow(['标题', '评论名称', '所在地区', '评论内容'])
16  
17 resp = requests.get(url=url, headers=headers)
18 tree = etree.HTML(resp.text)
19 # 第一个不在热搜范围内
20 tr_list = tree.xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr')[1:]
21 # print(tr_list)
22 for tr in tr_list:
23     # 判断是不是广告 广告后面没有热力值 如果为空就为广告
24     if tr.xpath('./td[2]/span') != '':
25         href = tr.xpath('./td[2]/a/@href')[0]
26         # void 我也不知道是啥 反正不是正常热搜链接 直接排除掉
27         if 'void' not in href:
28             # 在此或得到详情页链接
29             title = tr.xpath('./td[2]/a/text()')[0]
30             wanzheng = 'https://s.weibo.com/'+href
31             xiangqing_resp = requests.get(url=wanzheng, headers=headers).text
32             uid_obj = re.compile(r'uid=(?P<uid>.*?)&')
33             uid = uid_obj.search(xiangqing_resp).group('uid')
34             # print(uid)
35             mid_obj = re.compile(r'mid="(?P<mid>.*?)" >')
36             mid = mid_obj.search(xiangqing_resp).group('mid')
37             # print(mid)
38             pinglun_200url = f'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id={mid}&is_show_bulletin=2&is_mix=0&count=200&uid={uid}'
39             # print(pinglun_200url)
40             neirong = requests.get(url=pinglun_200url)
41             neirong_obj = re.compile(r'"source":"(.*?)",.*?"screen_name":"(.*?)","profile_image_url":.*?"text_raw":"(.*?)"}', re.S)
42             tiqu = neirong_obj.findall(neirong.text)
43             for i in tiqu:
44                 diqu = i[0]
45                 name = i[1]
46                 neirong = i[2]
47                 with open('微博热搜评论.csv', 'a', encoding='utf-8-sig', newline='') as f:
48                     csv_writer = csv.writer(f)
49                     csv_writer.writerow([title,name, diqu, neirong])
50                 print( title+'保存完成')

标签：200,uid,Python,writer,tr,mid,re,搜榜前,csv
From： https://www.cnblogs.com/Gil-1117/p/16611776.html

第四讲 Python中的常见语句
4.1 if条件判断语句4.1.1 if条件判断语句单分支◆单分支格式：if判断条件：语句块1……else：语句块2……Ø例：name=input('请输入您的用户名:')ifname=='admin':......
python简单操作redis
redis操作importredisr=redis.StrictRedis(host='localhost',port=6379,db=0)r.set('test1','test1')value1=r.get('car')print(value1)all_keys=r.ke......
1041 [SCOI2005]繁忙的都市 kruskal 最小生成树
链接：https://ac.nowcoder.com/acm/contest/26077/1041来源：牛客网题目描述城市C是一个非常繁忙的大都市，城市中的道路十分的拥挤，于是市长决......
8/21 python基础学习4
第九章类类的创建：classDog:def__init__(self,name,age):#初始化函数self.name=nameself.age=agedefsit(self):pri......
Python数据库编程
1.操作SQLite3数据库 Python3.x版本开始，在标准库中已经内置了SQLlite3模块，它可以支持SQLite3数据库的访问和相关的数据库操作。在需要操作SQLite3数据库数据时，只须在......
python: 绘制数学函数
1importmatplotlib.pyplotasplt2importnumpyasnp34#100linearlyspacednumbers5x=np.linspace(-5,5,100)67#thefunction,whichisy=......
系统学Python（四）字符串
今天我们来学习字符串。python中的字符串字面量由单引号或双引号括起。str1='hello'str2="hello"#两种写法效果一样print(str1)print(str2)print(type(str1),t......
Python_08While循环
while循环Python提供了While和for循环，（在Python中没有do..while循环）如果使用 while 循环，给定的判断条件为true时执循环体，否则退出循环体。1#在Python中没有do...whi......
Python-09函数基础、形参、实参
Python3函数函数是组织好的，可重复使用的，用来实现单一，或相关联功能的代码段。函数能提高应用的模块性，和代码的重复利用率。你已经知道Python提供了许多内建函数，比如print......
4. [2001年NOIP普及组] 最大公约数和最小公倍数问题
题目链接（码学堂，数据弱）题目链接(洛谷，数据极强）摘要：1.P,Q是正整数（unsigned）2.要求P,Q以x0为最大公约数,以y0为最小公倍数.试求:满足条件的所有可能的两个正整数的个数. ......

Python爬虫：微博热搜榜前200条评论

整体思路：

1、从热搜榜获取详情页的链接

2、排除掉广告以及置顶广告热力值为空置定为第一个tr

3、点击加载更多评论页面会跳转

4、跳转页面后抓包获得评论所在真实地址

5、观察真实地址所需要的参数从详情页获取完成构造

6、对构造地址进行请求将count=20改为count=200 可以显示二百条

7、使用re对数据进行提取并保存

8、仅供学习使用

相关文章

赞助商

阅读排行

Python爬虫：微博热搜榜前200条评论

整体思路：

1、从热搜榜获取详情页的链接

2、排除掉广告以及置顶 广告热力值为空 置定为第一个tr

3、点击加载更多评论页面会跳转

4、跳转页面后抓包获得评论所在真实地址

5、观察真实地址所需要的参数 从详情页获取 完成构造

6、对构造地址进行请求将count=20改为count=200 可以显示二百条

7、使用re对数据进行提取并保存

8、仅供学习使用

相关文章

赞助商

阅读排行

　1、从热搜榜获取详情页的链接

2、排除掉广告以及置顶广告热力值为空置定为第一个tr

5、观察真实地址所需要的参数从详情页获取完成构造