首页 > 其他分享 >爬虫

爬虫

时间:2023-12-28 17:58:36浏览次数:19  
标签:10 text 爬虫 soup html print univ

#爬虫爬取Google20次

import requests


url = 'https://www.google.com'
for i in range(20):
response = requests.get(url)
print(f"第{i+1}次访问")
print(f'Response status: {response.status_code}')
print(f'Text content length: {len(response.text)}')
print(f'Content length: {len(response.content)}')
print(response.text)

#bs4库练习使用

from bs4 import BeautifulSoup
import re


text = """
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
<h1>我的第一个标题</h1>
<p id="first">我的第一个段落。</p>
</body>
<table border="1">
<tr>
<td>row 1, cell 1</td>
<td>row 1, cell 2</td>
</tr>
<tr>
<td>row 2, cell 1</td>
<td>row 2, cell 2</td>
</tr>
</table>
</html>
"""
# 创建BeautifulSoup对象
soup = BeautifulSoup(text, features="html.parser")

# 打印head标签和学号后两位
print(soup.head.prettify())
print("学号: 45\n")

# 获取body标签对象
print(soup.body.prettify())

# 获取id为first的对象
first_p = soup.find(id="first")
print(first_p)

# 获取打印中文字符
pattern = re.compile(u'[\u4e00-\u9fff]+')
chinese_chars = pattern.findall(text)
print(chinese_chars)

#爬取中国大学2017年排名

import requests
from bs4 import BeautifulSoup
import csv

all_univ = []


def get_html_text(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = 'utf-8'
return r.text
except:
return ""


def fill_univ_list(soup):
data = soup.find_all('tr')
for tr in data:
ltd = tr.find_all('td')
if len(ltd) < 5:
continue
single_univ = [ltd[0].string.strip(), ltd[1].find('a', 'name-cn').string.strip(), ltd[2].text.strip(),
ltd[4].string.strip()]
all_univ.append(single_univ)


def print_univ_list(num):
file_name = "大学排行.csv"
print("{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}".format("排名", "学校名称", "省市", "总分", chr(12288)))
with open(file_name, 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(["排名", "学校名称", "省市", "总分"])
for i in range(num):
u = all_univ[i]
writer.writerow(u)
print("{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}".format(u[0], u[1], u[2], u[3], chr(12288)))


def main(num):
url = "https://www.shanghairanking.cn/rankings/bcur/201711.html"
html = get_html_text(url)
soup = BeautifulSoup(html, features="html.parser")
fill_univ_list(soup)
print_univ_list(num)


main(20)

标签:10,text,爬虫,soup,html,print,univ
From: https://www.cnblogs.com/xizhao-xizhao/p/17933228.html

相关文章

  • 【python爬虫课程设计】大数据分析———Apple AppStore Android 应用数据分析
    一、选题背景    随着智能手机的普及,移动应用市场持续繁荣,其中苹果AppStore和谷歌GooglePlay是全球最大的两大应用商店。这两大平台汇聚了数十亿的活跃用户,为开发者提供了展示和分发应用的平台。对于开发者而言,了解应用在AppStore和GooglePlay上的表现和用户行为至关......
  • 【python爬虫课程设计】类型数据爬取+数据可视化
    【python爬虫课程设计】类型数据爬取+数据可视化选题的背景稀土掘金作为国内最大的开发者社区,汇集了大量优质的技术文章和资源。通过爬取稀土掘金数据,可以深入了解当前技术领域的热点、趋势以及开发者的需求,为相关企业和机构提供有价值的参考信息。预期目标是分析热门技术主题、......
  • 如何使用Python爬虫爬取电视剧数据
    要使用爬虫爬取电视剧数据,可以按照以下步骤进行:导入所需的库:使用Python的requests库进行网络请求,使用BeautifulSoup库进行HTML解析。importrequestsfrombs4importBeautifulSouphttp://www.jshk.com.cn/mb/reg.asp?kefu=xiaoding;//爬虫IP获取;发送网络请求并获取HTML页面:使用re......
  • 【python爬虫课程设计】实习僧——数据分析与可视化
    实习僧数据分析与可视化选题背景随着中国经济的不断发展,实习市场也变得日益重要。学生们在求学期间通过实习获取工作经验,而企业则通过实习生计划发现并培养潜在的人才。实习僧作为一家专注于实习和校园招聘的在线平台,收集了大量的实习相关数据。通过对实习僧的数据进行爬取和......
  • 【python爬虫课程设计】拉勾网—数据分析师岗位内容爬取+数据分析可视化
    一、选题背景随着互联网的发展,数据分析岗位在各行各业中的需求越来越大。拉勾网作为国内知名的招聘网站,其上的数据分析岗位信息具有很高的参考价值。通过对拉勾网上的数据分析岗位进行数据分析,可以了解当前数据分析岗位的市场情况,为求职者提供有价值的参考信息,同时也可以为企......
  • Python 爬虫与网络安全有什么关系
    Python爬虫和网络安全之间存在密切的关系。爬虫是一种用于自动化从网络上获取信息的程序,而网络安全是保护计算机网络和系统免受未经授权的访问、攻击和数据泄露的实践。本文将探讨Python爬虫与网络安全之间的关系以及如何在爬虫开发中注意网络安全。爬虫的作用和风险爬虫通常用于从......
  • # yyds干货盘点 # 盘点一个基金数据的Python网络爬虫案例
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python网络爬虫问题,一起来看看吧。问题描述:大佬们这个13位数字怎么构造呀 找不到规律 试了在第一页的url基础上加数字也是不行1、网站链接:http://quote.eastmoney.com/center/gridlist.html......
  • 【python爬虫课程设计】大数据分析———不同车辆类型不同零件的城市道路油耗、高速公
    一、选题背景随着社会经济的发展和人们生活水平的提高,汽车已经成为现代化生活中不可或缺的交通工具之一。同时,环保意识的提高也给汽车产业带来了新的挑战,例如减少汽车的油耗和减少尾气排放。在这样的背景下,通过分析不同车辆类型的城市道路油耗、高速公路油耗和二氧化碳排放量数......
  • 【Python爬虫课程设计】--二手房数据爬取+数据分析
    一、选题课程背景在当前的房地产市场中,二手房交易一直是一个备受关注的话题。通过对二手房市场的数据进行分析可以帮助我们了解房地产市场的发展趋势、价格变动、供需关系等重要信息。这种数据分析能够为政府制定相关政策、投资者做出决策、购房者选择合适房产等提供有价值的参考......
  • Python网络爬虫课程设计------亚马逊产品数据分析
    一、选题背景    随着电子商务在全球范围内的普及和扩展,亚马逊作为全球最大的电商平台之一,吸引了数百万的卖家和消费者。这使得对亚马逊平台上的产品进行数据分析变得至关重要。在亚马逊上,产品种类繁多,竞争激烈。为了在众多竞争对手中脱颖而出,需要对市场趋势、消费者需求......