爬取spa网站与ssr网站的区别

时间：2022-10-15 19:55:49浏览次数：89

标签：center get 网站 scrape 爬取 url https import spa

前言

在练习爬虫的时候不清楚spa与ssr网站的区别，都使用bs4直接解析网页的html，结果ssr网站输出结果，spa网站却没有输出结果，特此记录
ssr网站：https://ssr1.scrape.center/page/1

spa网站：https://spa1.scrape.center/page/1

页面解析的代码

from email import header
import requests
from bs4 import BeautifulSoup

# url = "https://spa1.scrape.center/page/"              #can't get
url = "https://ssr1.scrape.center/page/"               #get success
pageIndex = 0

header = {
    "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:105.0) Gecko/20100101 Firefox/105.0"
}

for i in range(10):
    pageIndex = pageIndex+1
    response = requests.get(url=url+str(pageIndex),headers=header)
    soup = BeautifulSoup(response.text,'html.parser')
    lists = soup.find_all('h2',class_='m-b-sm')
    for list in lists:
        print(list.string)

spa网站与ssr网站的区别

参考大佬的文章：
https://www.jianshu.com/p/fcb98533bc18

尝试获取xhr链接中的数据

F12打开控制台，发现刷新页面时spa网站会有xhr数据

import requests
from bs4 import BeautifulSoup

url = "https://spa1.scrape.center/api/movie/?limit=10&offset="
# url = "https://spa1.scrape.center/page/"              #can't get
# url = "https://ssr1.scrape.center/page/"               #get success
pageIndex = 0

header = {
    "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:105.0) Gecko/20100101 Firefox/105.0"
}

response = requests.get(url=url+str(pageIndex),headers=header)
print(respons)

发现可以获得响应中的数据

使用json将字符串转化为字典格式

import requests
from bs4 import BeautifulSoup
import json

url = "https://spa1.scrape.center/api/movie/?limit=10&offset="
# url = "https://spa1.scrape.center/page/"              #can't get
# url = "https://ssr1.scrape.center/page/"               #get success
pageIndex = 0

header = {
    "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:105.0) Gecko/20100101 Firefox/105.0"
}

response = requests.get(url=url+str(pageIndex),headers=header)
# print(response.text)

# 转化为字典格式
data = json.loads(response.text)

print(type(data))

over:可以成功像访问字典一样访问数据了！

import requests
from bs4 import BeautifulSoup
import json

url = "https://spa1.scrape.center/api/movie/?limit=10&offset="
# url = "https://spa1.scrape.center/page/"              #can't get
# url = "https://ssr1.scrape.center/page/"               #get success
pageIndex = 0

header = {
    "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:105.0) Gecko/20100101 Firefox/105.0"
}

response = requests.get(url=url+str(pageIndex),headers=header)
# print(response.text)

data = json.loads(response.text)

print(data['results'][1]['name'])

标签：center,get,网站,scrape,爬取,url,https,import,spa
From： https://www.cnblogs.com/java-six/p/16794910.html

【云原生】Spark on k8s 讲解与实战操作
目录一、概述二、开始Sparkonk8s运行原理三、Spark运行模式1）cluster模式2）client模式四、开始Sparkonk8s编排1）下载Spark包2）构建镜像3）配置spark用户权限4）提交Sp......
练习爬虫的几个网站
https://scrape.center/https://www.zhihu.com/question/36132174/answer/70798699......
使用python爬虫爬取数据集保存到csv或者excel中
准备下载库在编写代码时需要使用的python库要提前下载pipinstallbeautifulsoup4pipinstallopenpyxlpipinstallrequests相关库的文档openpyxl-读/写Excel......
你安全吗？华为云网站安全解决方案为企业提供全栈安全防护！
你安全吗？最近这部非常火的电视剧在网上引起了广泛关注，该电视剧讲述了隐私安全泄露给我们生活带来的危害。虽然里面主要讲述的是个人，但其实对于企业来说也是同样的道理，而且由......
刚看完spaceX记录片《回到太空》
刚看完这部《回到太空》，跟前几周看的那部《不要抬头看》刚好形成对比，一部是记录片，真实人的情感，一部是名演员，但是所描述的也很宏观。之前看过埃隆马斯克的自传，虽然还没......
支持精确、主动防护，华为云网站安全解决方案高效可信赖！
随着互联网技术的发展和企业数字化转型升级的加快，各种信息安全层出不穷，数据信息安全也引起了业内外的广泛重视。根据相关数据显示，当下信息安全攻中超过75%都发生在Web应用层......
leetCode [844. Backspace String Compare]
[844.BackspaceStringCompare](https://leetcode.cn/problems/backspace-string-compare/)栈此题一看就有一股浓浓的栈味儿，毕竟匹配问题可是栈的强项使用字符......
Unable to allocate new pages in table space "PMS_TAB"
Error:[IBM][CLIDriver][DB2/NT]SQL0289NUnabletoallocatenewpagesintablespace"PMS_TAB".SQLSTATE=57011,Connector'C_DB2_SBOSUB',Method-Insert-(......
你的企业网站是否也在为他人作嫁衣？
你的企业网站是否也在为他人作嫁衣？前一阵子，朋友邀请去试玩他游戏公司的一款游戏，可是在点开链接的时候，网页却自动跳转到另外一个同类型游戏的界面，试了几次都是如此，这时我便......
SAP Spartacus SSR 中的 shimming 实现的一个例子
Angular开发人员使用HttpClient与后台服务器交互。SAPSpartacusStorefront支持服务器端渲染即SSR，那么工作在SSR模式下的Spartacus，又是通过什么方式调用的OCCAP......

爬取spa网站与ssr网站的区别

前言

spa网站与ssr网站的区别

尝试获取xhr链接中的数据

使用json将字符串转化为字典格式

over:可以成功像访问字典一样访问数据了！

相关文章

赞助商

阅读排行