首页 > 其他分享 >由于蚂蚁老师课程视频中博客园网站更新,代码不适用于现有环境,故网上查找更新:网上爬取博客园文章列表

由于蚂蚁老师课程视频中博客园网站更新,代码不适用于现有环境,故网上查找更新:网上爬取博客园文章列表

时间:2023-10-08 14:22:06浏览次数:34  
标签:text 博客园 更新 item href print post 网上 resp

import json
import re
import requests
from bs4 import BeautifulSoup

fOut = open("博客爬取文章列表标题及地址.txt", "w", encoding="utf8")
for idx in range(20):
print("#" * 50, idx + 1)
url = "https://www.cnblogs.com/AggSite/AggSitePostList"
data = {
"CategoryType": "SiteHome",
"ParentCategoryId": 0,
"CategoryId": 808,
"PageIndex": idx + 1,
"TotalPostCount": 4000,
"ItemListActionName": "AggSitePostList"
}
headers = {
"Content-Type": "application/json; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.47"
}
resp = requests.post(url, data=json.dumps(data), headers=headers, timeout=3)
# print(resp.text)
if resp.status_code != 200:
print(resp.status_code)
raise Exception()
soup = BeautifulSoup(resp.text, "html.parser")
post_items = soup.find_all("article", class_="post-item")
for post_item in post_items:
link = post_item.find("a", class_="post-item-title")
href = link.get("href")
text = link.get_text()
span = post_item.find("span", id=re.compile(r"^digg"))
number = span.get_text()
print(href, text, number)

# 写出文件
fOut.write("%s\t%s\n%s\t" % (href, text, number))
fOut.flush()
print("success:%s, %s, %s" % (href, text, number))
fOut.close()

标签:text,博客园,更新,item,href,print,post,网上,resp
From: https://www.cnblogs.com/dspython/p/17748947.html

相关文章

  • XGBoost 2.0:对基于树的方法进行了重大更新
    XGBoost是处理不同类型表格数据的最著名的算法,LightGBM和Catboost也是为了修改他的缺陷而发布的。9月12日XGBoost发布了新的2.0版,本文除了介绍让XGBoost的完整历史以外,还将介绍新机制和更新。这是一篇很长的文章,因为我们首先从梯度增强决策树开始。基于树的方法,如决策树、随机......
  • 谷歌浏览器 永久不更新
    C:\ProgramFiles(x86)\Google 改update名字,改权限   ......
  • #记事# 家庭网络更新
    最开始的阶段还记得刚搬来的时候,我还是个初二的学生,用的电信20M宽带,那个时候是电信配发了带WiFi的光猫,卧室里面可以说是几乎没有信号,客厅的电视都会偶尔卡顿,不过那个时候我也没手机影响不到我。高中阶段每天无所事事,自己网上找工具破解了超级密码,高二左右自己靠服务器收入买了......
  • tp6的相关命令(随时更新)
    前提:执行前要在cmd下在命令行下切换到你的WEB根目录 新建一个名为tp的tp6框架composercreate-projecttopthink/thinktp 测试是否安装成功:phpthinkrun执行后在浏览器打开127.0.0.1:8000,出现下图就算成功  设置为多应用模式composerrequiretopthink/think-m......
  • HTML一键打包工具1.9.92更新发布, 支持串口通信,获取mac地址,自定义header等新功能
    HTML一键打包EXE工具(HTML封装EXE,桌件)是一款神奇的工具,它可以让您把任何HTML项目(网址)变成一个独立的EXE文件,无需安装浏览器和服务器,只要双击就能运行。无论您是想制作KRPano全景VR项目,还是想开发WebGL游戏项目(Egret游戏打包,Cocos游戏打包,RPGMVMaker游戏打包),或者是想创建......
  • Windows10 22H2更新失败怎么办?Windows10 22H2安装失败的解决方法
    如果之前更新系统的缓存未清除的话,也是会导致Win1022H2更新失败的,针对此类情况,我们可以选择手动清除更新缓存来修复问题1、按【Win】输入cmd,并以管理员身份打开命令提示符;2、在命令提示符窗口中输入【netstopwuauserv】,并按【Enter】键,停止Windows更新服务;3、打开文件资源......
  • Serverless平台knative第六章配置最大并发数及更新操作讲解
    并发数配置apiVersion:serving.knative.dev/v1kind:Servicemetadata:name:hellospec:template:metadata:name:hello-world-002spec:containerConcurrency:10#单个pod允许的最大并发数,超过将扩容containers:#-image:gcr......
  • 如何彻底关闭win10自动更新 win10彻底关闭自动更新方法【步骤】
    如何彻底关闭win10自动更新win10彻底关闭自动更新方法【步骤】发布时间:2022-03-3019:10  原文:IT百科 https://product.pconline.com.cn/itbk/software/dnyw/1492/14922063.htmlwin10的自动更新可谓是非常顽固,很多用户在网上试了各种关闭win10自动更新的方法,......
  • python-pip 更新方法
    最近在学习python,发现需要用的插件总是更新不上去,多次查询后记录以下问题1、pip版本要与phtyon版本对应,可通过终端确认python的版本python-V2、python3的pip在查询时应该输入的:python3-mpip-V3、通过终端更新pip方法一:python3-mpipinstall–upgradepip  ===该方......
  • 基于python的食力派网上订餐系统-计算机毕业设计源码+LW文档
    摘 要在各学校的教学过程中,食力派网上订餐系统是一项非常重要的事情。随着计算机多媒体技术的发展和网络的普及。采用当前流行的B/S模式以及3层架构的设计思想通过Python技术来开发此系统的目的是建立一个配合网络环境的食力派网上订餐系统,这样可以有效地解决食力派网上订餐管理......