首页 > 其他分享 >第一次爬虫

第一次爬虫

时间:2023-12-10 21:13:53浏览次数:22  
标签:url text 爬虫 第一次 soup print import csv

(2)请用requests库的get()函数访问如下一个网站20次,打印返回状态,text()内容,计算text()属性和content属性所返回网页内容的长度。

python代码:

import requests
url="https://www.so.com/"
def gethtml(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding="utf-8"
        print("text内容:",r.text)
    except:
        return "Error!"
for i in range(20):
    print(gethtml(url))

运行结果:

(3)这是一个简单的html页面,请保持为字符串,完成后面的计算要求。

python代码:

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup('''<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoff.com)</title>
</head>
<body>
<h1>我的第一个标题</h1>
<p id="first">我的第一个段落。</p>
</body>
<table border="1">
<tr>
<td>row 1, cell 1</td>
<td>row 1, cell 2</td>
</tr>
<tr>
<td>row 2, cell 1</td>
<td>row 2, cell 2</td>
</tr>
</table>
</html>''')
print("head标签:\n", soup.head, "\n学号后两位:47")
print("body标签:\n", soup.body)
print("id为first的标签对象:\n", soup.find_all(id="first"))
st = soup.text
pp = re.findall(u'[\u1100-\uFFFDh]+?', st)
print("html页面中的中文字符")
print(pp)

运行结果:

 (4) 爬中国大学排名网站内容

pyth代码:

import csv
import os
import requests
from bs4 import BeautifulSoup

allUniv = []


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return ""


def fillUnivList(soup):
    data = soup.find_all('tr')
    for tr in data:
        ltd = tr.find_all('td')
        if len(ltd) == 0:
            continue
        singleUniv = []
        for td in ltd:
            singleUniv.append(td.string)
        allUniv.append(singleUniv)


def writercsv(save_road, num, title):
    if os.path.isfile(save_road):
        with open(save_road, 'a', newline='') as f:
            csv_write = csv.writer(f, dialect='excel')
            for i in range(num):
                u = allUniv[i]
                csv_write.writerow(u)
    else:
        with open(save_road, 'w', newline='') as f:
            csv_write = csv.writer(f, dialect='excel')
            csv_write.writerow(title)
            for i in range(num):
                u = allUniv[i]
                csv_write.writerow(u)


title = ["排名", "学校名称", "省市", "总分", "生源质量", "培养结果", "科研规模",
         "科研质量", "顶尖成果", "顶尖人才", "科技服务", "产学研究合作", "成果转化", "学生国际化"]
save_road = "E:\\排名.csv"


def main():
    url = 'https://www.shanghairanking.cn/rankings/bcur/201811'
    html = getHTMLText(url)
    soup = BeautifulSoup(html, "html.parser")
    fillUnivList(soup)
    writercsv(save_road, 30, title)


main()

运行结果:

 

标签:url,text,爬虫,第一次,soup,print,import,csv
From: https://www.cnblogs.com/LXxx007/p/17893216.html

相关文章

  • 爬虫
    importrequestsfrombs4importBeautifulSoupimportbs4defgetedhtml(url,code='utf-8'):kv={'user-agent':'Mozilla/5.0'}try:   r=requests.get(url,headers=kv,timeout=30)   r.raise_for_status()   r.encoding......
  • 【Python爬虫案例】抖音下载视频+X-Bogus参数JS逆向分析
    接口分析获取接口地址选择自己感兴趣的抖音博主,本次以“经典老歌【车载U盘】”为例每次请求的页面会有很多接口,需要对接口进行筛选:第一步筛选XHR筛选第二步筛选URL中带有post通过筛选play_add值找到视频的地址分析请求头通过对比两次请求发现只有X-Bogus数值会有变化,m......
  • 高并发爬虫用Python语言适合吗?
    不管你用什么语言没在进行高并发前,有几点是需要考虑清楚的,;例如:数据集大小,算法、是否有时间和性能方面的制约,是否存在共享状态,如何调试(这里指的是日志、跟踪策略)等一些问题。带着这些问题,我们一起探讨下python高并发爬虫的具体案例。在Python中实现高并发爬虫,我们可以使用异步编程库......
  • 如何正确应用爬虫技术
    随着互联网的快速发展,爬虫技术越来越受到人们的关注和使用。利用爬虫技术可以方便地获取互联网上的各种信息,如商品价格、股票行情、新闻资讯等。然而,由于爬虫技术的特殊性质,如果不正确应用,可能会引发一些法律和道德上的问题。因此,正确应用爬虫技术至关重要,以下是一些应用爬虫技术时......
  • Request 爬虫的 SSL 连接问题深度解析
    SSL连接简介SSL(SecureSocketsLayer)是一种用于确保网络通信安全性的加密协议,广泛应用于互联网上的数据传输。在数据爬取过程中,爬虫需要与使用HTTPS协议的网站进行通信,这就牵涉到了SSL连接。本文将深入研究Request爬虫中的SSL连接问题,并提供解决方案以应对各种情况。问题......
  • # yyds干货盘点 # 分享一个Python网络爬虫数据采集利器
    前言你是否曾为获取重要数据而感到困扰?是否因为数据封锁而无法获取所需信息?是否因为数据格式混乱而头疼?现在,所有这些问题都可以迎刃而解。让我为大家介绍一款强大的数据收集平台——亮数据BrightData。作为世界领先的数据收集平台,亮数据以其高效、可靠和灵活的方式检索提取关键的......
  • Python开发爬虫的五大优势
    爬虫是一种广泛应用于数据获取和信息收集的技术。Python作为一种功能强大且易于学习的编程语言,具备许多优势,使其成为开发爬虫的首选语言之一。本文将介绍Python开发爬虫的五大优势,并为您提供相关实例。1.简单易用:Python语法简洁明了,易于学习和理解。相较于其他编程语言,如Java或C++,P......
  • 4、爬虫脚本采集中科商务网区域工商信息
    1、需求:采集中科商务网区域工商信息2、需求数据字段:'名称':[title],'摘要':[content],'联系人':[lx_b],'联系电话':[tel],'电子邮件':[email],'公司地址':[address],'法定代表人':[fr],'经营状态':[state],'注册资本':[zczb]......
  • 用 Python 开发网络爬虫提高数据采集效率
    随着互联网的快速发展,数据采集成为了各行各业中不可或缺的一环。而Python作为一种功能强大且易于学习的编程语言,被广泛应用于网络爬虫开发。本文将介绍使用Python开发网络爬虫的优点,并探讨如何利用Python提高数据采集效率。1.强大的库和工具支持:Python拥有许多强大的库和工具,如Beau......
  • 代理IP、Socks5代理与爬虫在跨界电商与游戏领域的网络安全应用
    的数据挖掘,企业可以及时调整战略,把握市场机会,实现更好的出海业务。2.游戏领域的爬虫应用在游戏领域,爬虫技术可以用于收集游戏数据、用户行为等信息,为游戏运营提供有力支持。同时,通过分析玩家反馈、游戏流行趋势,游戏开发者可以及时优化产品,提高用户满意度。网络安全:保障跨界电商与......