首页 > 其他分享 >Web爬虫-edu_SRC-目标列表爬取

Web爬虫-edu_SRC-目标列表爬取

时间:2024-06-16 18:32:59浏览次数:10  
标签:Web name SRC edu1 BeautifulSoup 爬取 text edu print

免责声明:本文仅做技术交流与学习...

爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py

import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")

标签:Web,name,SRC,edu1,BeautifulSoup,爬取,text,edu,print
From: https://blog.csdn.net/2303_80857229/article/details/139724052

相关文章

  • 【JavaWeb】SpringBoot基础
    SpringBootWeb入门HTTP协议Web服务器-Tomcat前言Spring的官网(https://spring.io)。Spring的官方提供很多开源的项目,我们可以点击上面的projects,看到spring家族旗下的项目。Spring发展到今天已经形成了一种开发生态圈,Spring提供了若干个子项目,每个项目用于完成特定......
  • JavaWeb学习-MVC
    前言基于JavaWeb基础知识进行优化,形成了MVC的开发模式。程序结构优化教程原来案例中的servlet太多了,希望只有一个servlet,把原来多个servlet的合并成一个,根据参数operation判断用哪个方法并用反射调用,都写到了新servlet的service方法中了。引入dispatcherservlet,作为中心控制器,......
  • JavaWeb学习-前端知识小结
    前言参照B站尚硅谷的教程进行学习,对javaweb的前端知识做个简单的小结,主要内容包括html、css、javascript。其中html表示了前端页面的结构和元素,例如表格、文本框、表单等;css表示前端页面的样式,例如段落中文字的颜色、字体大小,表格中文字的颜色,字体大小等;JavaScript是弱类型的脚本......
  • JavaWeb学习-tomcat和servlet
    前言本文介绍javaweb的基本知识,包括CS和BS的架构形式、web容器、servlet等。CS和BSCS:客户端服务器架构模式优点:充分利用客户端机器的资源,减轻服务器的负荷。缺点:需要安装;升级维护成本较高。BS:浏览器服务器架构模式优点:客户端不需要安装;维护成本较低。缺点:所有的计算和存储......
  • 探索Web Components
    title:探索WebComponentsdate:2024/6/16updated:2024/6/16author:cmdragonexcerpt:这篇文章介绍了WebComponents技术,它允许开发者创建可复用、封装良好的自定义HTML元素,并直接在浏览器中运行,无需依赖外部库。通过组合HTML模板、ShadowDOM、自定义元素和HTML......
  • 用idea导入maven在打包之后在web.xml文件找不到src/main/resources文件夹下的资源(已解
    一、产生原因这其实是因为在导入ssm项目时候src/main/resources下的配置文件打包丢失造成的二、解决办法1、在确定maven包都导入情况下,只有资源文件找不到(ps:不能修改绝对路径,否则项目跑不起来) 2、此时的resources文件夹是普通文件夹3、点击项目配置 4、因为之前他只是......
  • Python爬虫案例:从某居网爬取房源信息
    网站链接:sjz.anjuke.com目标数据:位置、面积、价格、房源链接约束条件:房产价格在80-140w首先在浏览器上输入网址,通过鼠标右键-“检查”来确定各网页元素在html源代码中的位置和构成​通过检查导航的价格索引,找出了80-140w的房源信息的网页链接,url依次以13-15结尾并且其它数......
  • webview和H5
    webview:chrome自带的工具 关键选项:Disablecache:不加载缓存,从零载入蓝色线:dom出现(可以开始点击)红色线:图片等资源已加载完成 Queueing:队列等待时间Stalled:在队列中停止请求Waiting:服务器响应时间ContentDownload:下载时间 手机浏览器性能分......
  • BUUCTF-WEB(81-85)
    [CISCN2019总决赛Day2Web1]Easyweb参考:[CISCN2019总决赛Day2Web1]Easyweb-CSDN博客[BUUCTF题解][CISCN2019总决赛Day2Web1]Easyweb-Article_kelp-博客园(cnblogs.com)看robots.txt发现有备份源码然后我们又在看源码的地方发现了疑似注入的地方那我们就把这......
  • 攻防世界web新手题fileinclude&fileclude
    题目1:fileinclude工具:BurpsuiteHackbarV2火狐浏览器的扩展应用解题关键:学会文件包含的命令以及学会读懂php脚本解题过程:首先对该网站进行抓包,发现潜藏的php脚本这段代码的作用是:检查是否display_errors配置项被设置为打开,如果没有则将其打开,这样可以在页面上......