首页 > 其他分享 >第七周总结(2024.8.17)

第七周总结(2024.8.17)

时间:2024-09-02 09:06:13浏览次数:12  
标签:__ 第七 17 re 2024.8 parse item html headers

import requests
import re

# 请求URL
url = '<http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html>'
# 请求头部
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 解析页面函数
def parse_html(html):
pattern = re.compile('<tr class="alt">.*?<td>(.*?)</td>.*?<td><div align="left">.*?<a href="(.*?)" target="_blank">(.*?)</a></div></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>', re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'排名': item[0],
'学校名称': item[2],
'省市': item[3],
'总分': item[4]
}

# 保存数据函数
def save_data():
f = open('university_top100.txt', 'w', encoding='utf-8')
response = requests.get(url, headers=headers)
for item in parse_html(response.text):
f.write(str(item) + '\\\\n')
f.close()

if __name__ == '__main__':
save_data()

 

标签:__,第七,17,re,2024.8,parse,item,html,headers
From: https://www.cnblogs.com/Sunyiran/p/18392103

相关文章

  • 第八周总结(2024.8.24)
    importtimefromseleniumimportwebdriverimportrequests#请求URLurl='<https://weibo.com/>'#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0......
  • 第九周总结(2024.8.31)
    packagecom.java.hadoop.hive;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.PreparedStatement;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;importorg.apache.hadoop.hive.metastore.api......
  • 第五周总结(2024.8.3)
     本周学习python爬虫所出现的问题:1、设置请求头Headers的问题一般headers设置user-Agent即可,如果有的数据是登陆后才能看到的话,还需要添加cookies参数(先登陆账号后,在浏览器的开发者工具中,拷贝Cookies即可)。这些参数都可以在浏览器的开发者工具中找到。2、编码问题......
  • 第六周总结(2024.8.10)
    importrequestsfrombs4importBeautifulSoupimportcsv#请求URLurl='<https://movie.douban.com/top250>'#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)C......
  • 第3章_auto占位符(C++11~C++17)
    第3章auto占位符(C++11~C++17)3.1重新定义的auto关键字在C++11中静态成员变量是可以用auto声明并且初始化的,不过前提是auto必须使用const限定符。staticconstautox=5;遗憾的是,const限定符会导致x常量化,显然这不是我们想要的结果。在C++17标准中,对于静态成员变量,auto可以......
  • 第4章 decltype说明符(C++11~C++17)
    第4章decltype说明符(C++11~C++17)4.1回顾typeof和typeid(1)在C++11标准发布以前,GCC的扩展提供了一个名为typeof的运算符。通过该运算符可以获取操作数的具体类型。typeof是GCC所提供,并非C++标准。inta=9;typeof(a)b=5;(2)C++标准还提供了一个typeid运算符来获取与目标操......
  • [ARC173F] Select and Split
    MyBlogs[ARC173F]SelectandSplit在Kevin题解的基础上解释了一下。分裂这个过程感觉很不自然,考虑倒过来做合并。经过简单的观察,可以发现一个集合的属性只和在\([1,A]\)内的元素个数和\([A+1,A+B]\)内的元素个数有关,分别设其为\(a_i,b_i\)。合并两个点的方案数是\(a......
  • 学JAVA的第七周
    变量和方法成员变量与局部变量的区别有哪些变量:在程序执行的过程中,在某个范围内其值可以发生改变的量。从本质上讲,变量其实是内存中的一小块区域成员变量:方法外部,类内部定义的变量局部变量:类的方法中的变量。成员变量和局部变量的区别作用域成员变量:针对整个类有效。局部......
  • 暑假第七周
    1.探索Hadoop与Spark的集成下周,我计划重点研究Hadoop与Spark的集成应用,以充分发挥这两个框架的优势。具体行动包括:集成实践:学习如何配置Spark以使用Hadoop的HDFS作为存储系统。这将包括配置Spark的Hadoop依赖、设置Hadoop集群,并在Spark作业中读取和写入HDFS中的数据。通过实......
  • 新赛道-2024.8 CSP-J组月赛-T4
    题目描述王老师最近搬家了,需要购置 a 台家电、b 件家具和 c 个装饰。他来到了商场,商场正好在举行优惠大酬宾,每家店铺都推出了一系列活动。一共有 n=a+b+c 家店铺,活动期间在第 i 家店铺购买家电只需要 ai​ 元一台,购买家具只需要 bi​ 元一件,购买装饰只需要 ci​......