很快就到了2023年,按照惯例抓取整理我2022年发布的公众号文章,同步到我的博客了https://sushengbuhuo.github.io/blog
博客上还收录了些其他公众号的历史文章,翻起来方便多了,比如深圳卫健委从2014到2022发布1万多篇文章听说公众号深圳卫健委被网友投诉尺度大,我抓取了所有文章标题和阅读数分析了下:
另外我每个月我会发布这个号的封面图2022 年 11 月公众号深圳卫健委历史文章无水印封面表情包,分享到网盘了,所有封面图的文件名为文章发布日期加标题,方便搜索,在公众号后台回复 封面
获取这个号2019-2022年的所有封面图。
接着抓取公众号文章的数据视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数/赞赏数,数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等,留言数最多的是这篇文章2022 中秋节,晒下新浪的月饼,有71条留言。
如果你想下载公众号文章,微博数据和知乎文章可以用我开发的工具更新版:整理下苏生不惑开发过的那些工具和脚本
截止目前发布原创文章399篇公众号10年之约。
2022年发布文章总数161, 没想到我一年写了这么多,导出的留言excel文件共1092条评论:
用python分析留言次数最多的10个小伙伴:
>>> wechat.留言昵称.value_counts().sort_values(ascending=False).head(10)
babe 98
猴王 44
乾嘉 37
404 36
喵喵 22
风吹麦浪(加好友说明来由) 22
我还是太年轻啊 14
我是小王 11
泽庚 11
木头 10
Name: 留言昵称, dtype: int64
print(wechat.是否原创.value_counts().sort_values(ascending=False).head(5))
顺便再统计下留言中省份最多的10个,广东排第一。
import requests,re,csv,time,random,pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import Pie
import pandas as pd
wechat=pd.read_csv('2022公众号苏生不惑留言数据.csv',encoding='utf-8')
#print(wechat.留言昵称.value_counts().sort_values(ascending=False).head(10))
def data(df):
df2=df.省份.value_counts().sort_values(ascending=False).head(10)
ip = df2.index.tolist()
counts = df2.values.tolist()
bar = (
Bar()
.add_xaxis(ip)
.add_yaxis("", counts)
)
pie = (
Pie()
.add("", [list(z) for z in zip(ip, counts)],radius=["40%", "75%"], )
.set_global_opts(title_opts=opts.TitleOpts(title="饼图",pos_left="center",pos_top="20"))
.set_global_opts(legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"))
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%"), )
)
pie.render('统计数据.html')
data(wechat)
标签:留言,点赞数,昵称,公众,2022,文章,counts,opts
From: https://www.cnblogs.com/susheng/p/17018649.html