第七周总结（2024.8.17）

时间：2024-09-02 09:06:13浏览次数：16

标签：__ 第七 17 re 2024.8 parse item html headers

import requests
import re

# 请求URL
url = '<http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html>'
# 请求头部
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 解析页面函数
def parse_html(html):
pattern = re.compile('<tr class="alt">.*?<td>(.*?)</td>.*?<td><div align="left">.*?<a href="(.*?)" target="_blank">(.*?)</a></div></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>', re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'排名': item[0],
'学校名称': item[2],
'省市': item[3],
'总分': item[4]
}

# 保存数据函数
def save_data():
f = open('university_top100.txt', 'w', encoding='utf-8')
response = requests.get(url, headers=headers)
for item in parse_html(response.text):
f.write(str(item) + '\\\\n')
f.close()

if __name__ == '__main__':
save_data()

标签：__,第七,17,re,2024.8,parse,item,html,headers
From： https://www.cnblogs.com/Sunyiran/p/18392103

第八周总结（2024.8.24）
importtimefromseleniumimportwebdriverimportrequests#请求URLurl='<https://weibo.com/>'#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0......
第九周总结（2024.8.31）
packagecom.java.hadoop.hive;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.PreparedStatement;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;importorg.apache.hadoop.hive.metastore.api......
第五周总结（2024.8.3）
本周学习python爬虫所出现的问题：1、设置请求头Headers的问题一般headers设置user-Agent即可，如果有的数据是登陆后才能看到的话，还需要添加cookies参数（先登陆账号后，在浏览器的开发者工具中，拷贝Cookies即可）。这些参数都可以在浏览器的开发者工具中找到。2、编码问题......
第六周总结（2024.8.10）
importrequestsfrombs4importBeautifulSoupimportcsv#请求URLurl='<https://movie.douban.com/top250>'#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)C......
第3章_auto占位符（C++11～C++17）
第3章auto占位符（C++11～C++17）3.1重新定义的auto关键字在C++11中静态成员变量是可以用auto声明并且初始化的，不过前提是auto必须使用const限定符。staticconstautox=5;遗憾的是，const限定符会导致x常量化，显然这不是我们想要的结果。在C++17标准中，对于静态成员变量，auto可以......
第4章 decltype说明符（C++11~C++17)
第4章decltype说明符（C++11~C++17)4.1回顾typeof和typeid（1）在C++11标准发布以前，GCC的扩展提供了一个名为typeof的运算符。通过该运算符可以获取操作数的具体类型。typeof是GCC所提供，并非C++标准。inta=9;typeof(a)b=5;（2）C++标准还提供了一个typeid运算符来获取与目标操......
[ARC173F] Select and Split
MyBlogs[ARC173F]SelectandSplit在Kevin题解的基础上解释了一下。分裂这个过程感觉很不自然，考虑倒过来做合并。经过简单的观察，可以发现一个集合的属性只和在\([1,A]\)内的元素个数和\([A+1,A+B]\)内的元素个数有关，分别设其为\(a_i,b_i\)。合并两个点的方案数是\(a......
学JAVA的第七周
变量和方法成员变量与局部变量的区别有哪些变量：在程序执行的过程中，在某个范围内其值可以发生改变的量。从本质上讲，变量其实是内存中的一小块区域成员变量：方法外部，类内部定义的变量局部变量：类的方法中的变量。成员变量和局部变量的区别作用域成员变量：针对整个类有效。局部......
暑假第七周
1.探索Hadoop与Spark的集成下周，我计划重点研究Hadoop与Spark的集成应用，以充分发挥这两个框架的优势。具体行动包括：集成实践：学习如何配置Spark以使用Hadoop的HDFS作为存储系统。这将包括配置Spark的Hadoop依赖、设置Hadoop集群，并在Spark作业中读取和写入HDFS中的数据。通过实......
新赛道-2024.8 CSP-J组月赛-T4
题目描述王老师最近搬家了，需要购置 a 台家电、b 件家具和 c 个装饰。他来到了商场，商场正好在举行优惠大酬宾，每家店铺都推出了一系列活动。一共有 n=a+b+c 家店铺，活动期间在第 i 家店铺购买家电只需要 ai 元一台，购买家具只需要 bi 元一件，购买装饰只需要 ci......

第七周总结（2024.8.17）

相关文章

赞助商

阅读排行