原文:
视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数mp.weixin.qq.com/s/c-jpCXxUtZpzxTCSx0Fu_w抓取下载的文章数据excel,数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等,比如深圳卫健委这个号的阅读数都是10万+。
接着用python pandas分析excel里的数据 :
听说公众号深圳卫健委被网友投诉尺度大,我抓取了所有文章标题和阅读数分析了下mp.weixin.qq.com/s?__biz=MzIyMjg2ODExMA==&mid=2247493426&idx=1&sn=0e8b5277f7b9e8f2999fa0fe0c5f83e6&scene=21#wechat_redirectwechat=pd.read_csv('xxx公众号历史文章.csv',encoding='utf-8')
查看文章总数:
len(wechat)
查看阅读数总数:
>>> wechat.阅读数.sum()
8191166
文章量发布作者前5:
>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)
xxx 331
Name: 文章作者, dtype: int64
阅读数大于10万+文章列表:
>>> wechat[wechat.阅读数>100000]
文章日期 文章标题 文章链接 ... 阅读数 在
看数 点赞数
139 2021-08-08 xxx mp.weixin.qq.com/s... ... 100001
825 1742
[1 rows x 12 columns]
阅读数排行前10的文章列表:
>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)
阅读数点赞数在看数平均值:
>>> wechat[['阅读数','点赞数','在看数']].mean()
阅读数 24746.725076
点赞数 622.480363
在看数 260.145015
dtype: float64
头条的阅读数点赞数在看数平均值:
>>> wechat[wechat.文章位置 == 1][['阅读数','点赞数','在看数']].mean()
阅读数 28413.407407
点赞数 667.126984
在看数 276.148148
dtype: float64
头条和次条文章数:
wechat.groupby('文章位置',as_index=False).agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)
>>> wechat.文章位置.value_counts().sort_values(ascending=False).head(5)
1 189
2 142
Name: 文章位置, dtype: int64
wechat.query('文章位置 == 2')
原创文章数:
wechat.groupby('是否原创').agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
是 331
Name: 是否原创, dtype: int64
更多我写的工具:
更新版:整理下苏生不惑开发过的那些工具和脚本mp.weixin.qq.com/s/u9PTjbR5B5-od9fC_lyXLA 标签:False,赞数,数点,点赞数,阅读数,看数,wechat,文章 From: https://www.cnblogs.com/susheng/p/17018662.html