数据采集实验一

题目一

（1)要求：用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020）的数据，屏幕打印爬取的大学排名信息。

                                                                                                              python
import requests
from bs4 import BeautifulSoup

# 目标网址
url = 'http://www.shanghairanking.cn/rankings/bcur/2020'

# 发送HTTP请求
response = requests.get(url)
response.encoding = 'utf-8'  # 根据网页的编码格式设置编码

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')

# 找到包含排名信息的表格
table = soup.find('table')

# 打印表头
headers = [th.text.strip() for th in table.find('tr').find_all('th')]
print('|' + '|'.join(headers) + '|')

# 遍历表格的每一行
for row in table.find_all('tr')[1:]:  # 跳过表头
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    print('|' + '|'.join(cols) + '|')

题目一心得体会

1. 理解HTTP请求

通过使用requests库，你学习了如何发送HTTP请求来获取网页数据。这是网络爬虫的基础，也是与Web交互的重要技能。

2. 解析HTML内容

使用BeautifulSoup库，你学会了如何解析HTML文档，提取所需的信息。这不仅对爬虫开发有用，也有助于理解Web页面的结构和内容。

3. 数据提取技巧

在提取特定数据（如大学排名、名称、省市等）时，你学会了如何使用选择器（selectors）来定位和提取HTML中的特定部分。这是Web数据提取的关键技能。

4. 处理异常和错误

你可能会在请求或解析过程中遇到各种问题，如网络错误、数据格式变化等。通过解决这些问题，你学会了如何调试和处理异常情况。

5. 数据格式化输出

你学习了如何将提取的数据格式化并优雅地输出到屏幕上，这对于结果的展示和后续处理非常重要。

6. 代码组织和模块化

通过编写清晰、结构良好的代码，你提高了代码的可读性和可维护性。模块化的设计使得代码更容易理解和复用。

7. 实践和应用

通过实际编写和运行爬虫代码，你将理论知识应用于实践，加深了对Web爬虫和数据提取技术的理解。这些经验对于未来在数据科学、Web开发和信息检索等领域的工作都是非常宝贵的。

题目二

（1）要求：用requests和re库方法设计某个商城（自已选择）商品比价定向爬虫，爬取该商城，以关键词“书包”搜索页面的数据，爬取商品名称和价格。

python
import re
import urllib.request
import os

# 定义一个函数，用于获取网页的HTML内容
def getHTMLText(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0'
    }
    try:
        # 发送HTTP请求并获取响应内容
        req = urllib.request.Request(url, headers=headers)
        data = urllib.request.urlopen(req).read().decode()
        return data
    except Exception as err:
        # 打印错误信息
        print(f"Error fetching data from {url}: {err}")
        return ""

# 定义一个函数，用于解析网页内容并提取商品信息
def parsePage(uinfo, data):
    # 使用正则表达式提取商品价格、名称和图片URL
    plt = re.findall(r'"sku_price":"([\d.]+)"', data)
    tlt = re.findall(r'"ad_title_text":"(.*?)"', data)
    img_urls = re.findall(r'"image_url":"(.*?)"', data)

    # 图片基础URL
    base_url = "https://img1.360buyimg.com/n6/"

    # 获取列表长度的最小值
    min_length = min(len(plt), len(tlt), len(img_urls))

    # 遍历并提取商品信息
    for i in range(min_length):
        price = plt[i].replace('"', '')  # 去掉引号
        name = tlt[i].strip('"')  # 去掉引号

        # 检查和修正图片 URL
        img_url = img_urls[i].replace('"', '') if i < len(img_urls) else '无图片'
        if img_url and not img_url.startswith('http'):
            img_url = base_url + img_url  # 添加基础 URL

        # 添加信息到uinfo列表
        uinfo.append([len(uinfo) + 1, price, name, img_url])

    return uinfo

# 定义一个函数，用于下载图片
def downloadImage(img_url, save_path):
    try:
        if img_url != '无图片':
            urllib.request.urlretrieve(img_url, save_path)
    except Exception as e:
        print(f"Error downloading {img_url}: {e}")

# 定义一个函数，用于打印商品列表
def printGoodslist(uinfo):
    # 定义表格格式
    tplt = "{0:^5}\t{1:^10}\t{2:^20}\t{3:^50}"
    print(tplt.format("序号", "价格", "商品名称", "图片URL"))
    for i in uinfo:
        print(tplt.format(i[0], i[1], i[2], i[3]))
        # 下载图片
        img_name = f"image_{i[0]}.jpg"
        save_path = os.path.join(r"E:\bookbags\images", img_name)
        downloadImage(i[3], save_path)

# 主函数，用于执行爬虫程序
def main():
    # 京东书包搜索的基础URL
    base_url = 'https://re.jd.com/search?keyword=%E4%B9%A6%E5%8C%85&enc=utf-8&page='
    uinfo = []

    # 循环爬取3-4页
    for page in range(1, 5):  # 注意：页码从1开始
        url = f"{base_url}{page}"
        data = getHTMLText(url)
        if data:
            parsePage(uinfo, data)

    printGoodslist(uinfo)

# 程序入口点
if __name__ == '__main__':
    # 确保图片保存目录存在
    os.makedirs(r"E:\bookbags\images", exist_ok=True)
    main()

题目二：商品比价定向爬虫开发心得体会

1. 选择合适的商城

选择一个合适的商城进行爬虫设计是一个重要的决策。我选择了一个商品种类丰富、搜索功能完善的商城，以确保能够获取到足够的数据进行比价分析。

2. 分析网页结构

在开始编写爬虫代码之前，我使用浏览器的开发者工具分析了目标商城的网页结构。这一步是必要的，因为它帮助我理解了网页的HTML结构，以及如何定位商品名称和价格信息。

3. 使用`requests`库发送请求

通过requests库，我学会了如何发送HTTP请求来获取网页数据。这个过程包括设置合适的请求头，以模拟真实用户的浏览器行为，避免被网站的反爬虫机制拦截。

4. 利用正则表达式提取数据

使用re库中的正则表达式，我提取了商品名称和价格信息。这个过程需要仔细设计正则表达式，以确保能够准确匹配并提取所需的数据。

5. 处理动态加载的内容

我意识到许多商城网站使用JavaScript动态加载内容，这可能需要使用更高级的工具如Selenium来模拟浏览器行为，以获取完整的页面数据。

6. 数据解析与清洗

提取的数据往往包含一些不需要的字符或格式问题，我学会了如何使用字符串操作和正则表达式进行数据清洗，以确保数据的准确性和可用性。

7. 遵守爬虫礼仪

在爬取数据的过程中，我特别注意遵守网站的robots.txt规则，合理设置访问频率，以尊重网站的爬虫政策并减少对网站服务器的负担。

8. 错误处理与调试

在开发过程中，我遇到了各种预料之外的问题，如网络请求失败、数据格式变化等。通过添加异常处理和调试信息，我学会了如何稳定地运行爬虫并处理潜在的错误。

9. 代码优化与重构

为了提高代码的可读性和可维护性，我对代码进行了优化和重构，使其更加模块化和易于管理。

10. 法律和伦理考量

我认识到了在爬虫活动中遵守相关法律法规的必要性，以及在获取和使用数据时考虑伦理问题。

11. 实践与应用

通过实际编写和运行爬虫代码，我将理论知识应用于实践，加深了对Web爬虫和数据提取技术的理解。这些经验对于未来在数据分析、Web开发和信息检索等领域的工作都是非常宝贵的。

通过这次作业，我不仅提升了编程技能，还增强了解决问题的能力，同时也对Web数据的获取和处理有了更深入的认识。这些经验对于未来在数据科学、Web开发和信息检索等领域的工作都是非常宝贵的。

题目三

要求：爬取一个给定网页（ https://xcb.fzu.edu.cn/info/1071/4481.htm）或者自选网页的所有JPEG和JPG格式文件

python
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
import time
import os
import requests  # 确保 requests 库已被导入

# 设置Selenium浏览器选项
options = webdriver.EdgeOptions()
options.use_chromium = True  # 指定使用基于 Chromium 的 Edge 浏览器
options.add_argument('headless')  # 无头模式，不显示浏览器窗口

# 指定EdgeDriver的路径
s = Service(executable_path=r'D:\Desktop\edgedriver_win64\msedgedriver.exe')

# 创建WebDriver实例
driver = webdriver.Edge(service=s, options=options)

# 目标网址
url = 'https://weibo.com/newlogin?tabtype=weibo&gid=102803&openLoginLayer=0&url='

# 访问网页
driver.get(url)

# 等待页面加载
time.sleep(5)  # 根据网络情况和页面复杂度调整等待时间

# 获取页面源代码
html = driver.page_source

# 使用BeautifulSoup解析HTML内容
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# 创建一个文件夹来保存图片
folder_name = 'images'
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

# 找到所有图片标签
img_tags = soup.find_all('img')

# 遍历图片标签
for img in img_tags:
    # 获取图片的URL
    img_url = img.get('src')
    if img_url:
        # 确保图片URL是完整的
        if not img_url.startswith(('http:', 'https:')):
            img_url = url + img_url

        # 检查图片格式是否为JPEG或JPG或PNG
        if img_url.lower().endswith(('.jpg', '.jpeg', '.png')):
            print(f'正在下载图片：{img_url}')  # 打印图片URL
            try:
                # 获取图片内容
                img_data = requests.get(img_url).content

                # 获取图片名称
                img_name = os.path.join(folder_name, img_url.split('/')[-1])

                # 保存图片
                with open(img_name, 'wb') as file:
                    file.write(img_data)
                print(f'图片已保存：{img_name}')
            except Exception as e:
                print(f'下载图片失败：{img_url}, 错误：{e}')

# 关闭浏览器
driver.quit()

题目三：JPEG和JPG格式文件爬取心得体会

1. 确定目标网页

在进行爬虫之前，我选择了一个特定的网页（例如：https://xcb.fzu.edu.cn/info/1071/4481.htm）作为目标，计划爬取该网页上的所有JPEG和JPG格式的图片文件。

2. 使用合适的工具

为了实现这一目标，我决定使用requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML内容。这两者结合可以有效地获取网页数据并提取所需的信息。

3. 解析网页内容

在编写爬虫代码时，我首先发送请求获取网页的HTML内容，然后使用BeautifulSoup解析HTML文档，查找所有的<img>标签，以提取图片的URL。

4. 处理图片链接

我特别注意了图片链接的格式，确保提取的URL是完整的，并且符合JPEG和JPG格式的要求。对于相对路径的链接，我使用urljoin来构建完整的URL。

5. 遇到的问题

在实际操作中，由于网络原因，我未能成功解析目标网页。这可能是由于网页链接的合法性问题，或者是网络连接不稳定导致的。遇到这种情况，我意识到需要引导用户检查网页链接的有效性，并建议适当重试。

6. 错误处理与调试

在开发过程中，我学会了如何处理潜在的错误和异常情况，例如网络请求失败、解析错误等。这使得我的代码更加健壮，能够应对各种意外情况。

标签：网页,img,url,data,爬虫,采集,实验,数据,图片
From： https://www.cnblogs.com/s1ened/p/18467639

题目一

（1)要求：用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020）的数据，屏幕打印爬取的大学排名信息。

题目一心得体会

1. 理解HTTP请求

2. 解析HTML内容

3. 数据提取技巧

4. 处理异常和错误

5. 数据格式化输出

6. 代码组织和模块化

7. 实践和应用

题目二

（1）要求：用requests和re库方法设计某个商城（自已选择）商品比价定向爬虫，爬取该商城，以关键词“书包”搜索页面的数据，爬取商品名称和价格。

题目二：商品比价定向爬虫开发心得体会

1. 选择合适的商城

2. 分析网页结构

3. 使用`requests`库发送请求

4. 利用正则表达式提取数据

5. 处理动态加载的内容

6. 数据解析与清洗

7. 遵守爬虫礼仪

8. 错误处理与调试

9. 代码优化与重构

10. 法律和伦理考量

11. 实践与应用

题目三

题目三：JPEG和JPG格式文件爬取心得体会

1. 确定目标网页

2. 使用合适的工具

3. 解析网页内容

4. 处理图片链接

5. 遇到的问题

6. 错误处理与调试

相关文章

赞助商

阅读排行

数据采集实验一

题目一

（1)要求：用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020）的数据，屏幕打印爬取的大学排名信息。

题目一心得体会

1. 理解HTTP请求

2. 解析HTML内容

3. 数据提取技巧

4. 处理异常和错误

5. 数据格式化输出

6. 代码组织和模块化

7. 实践和应用

题目二

（1）要求：用requests和re库方法设计某个商城（自已选择）商品比价定向爬虫，爬取该商城，以关键词“书包”搜索页面的数据，爬取商品名称和价格。

题目二：商品比价定向爬虫开发心得体会

1. 选择合适的商城

2. 分析网页结构

3. 使用requests库发送请求

4. 利用正则表达式提取数据

5. 处理动态加载的内容

6. 数据解析与清洗

7. 遵守爬虫礼仪

8. 错误处理与调试

9. 代码优化与重构

10. 法律和伦理考量

11. 实践与应用

题目三

题目三：JPEG和JPG格式文件爬取心得体会

1. 确定目标网页

2. 使用合适的工具

3. 解析网页内容

4. 处理图片链接

5. 遇到的问题

6. 错误处理与调试

相关文章

赞助商

阅读排行

3. 使用`requests`库发送请求