大数据导论课程笔记

时间：2023-03-05 23:55:50浏览次数：47

标签：fp url request 导论 html 笔记 BeautifulSoup 课程爬虫

网络爬虫

点击查看代码

# -*- codeing = utf-8 -*-
# 导入相关的包
# BeautifulSoup是网页解析的开源库
# request的作用是发送网络请求
from bs4 import BeautifulSoup
from urllib import request
# 将爬取的内容输出到文件
fp = open("D:\Desktop\DouBanTop250.txt", "w")
# 观察url，找到翻页规律
for page in range(0, 250, 25):
    url = "https://book.douban.com/top250?start={}".format(page)
    # 原来的代码出现了418错误，可能遇到了反爬虫机制，因此要设置复杂访问信息，即添加请求头信息
    head = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
        'AppleWebKit/537.36 (KHTML, like Gecko) '
        'Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.57'
    }
    # 指定一个url，打开这个url地址，读取其中的html内容
    req = request.Request(url, headers=head)
    res = request.urlopen(req)
    html = res.read().decode("utf-8")
    # 使用BeautifulSoup工具来解析内容，并过滤关键字，输出需要的内容
    soup = BeautifulSoup(html, "html.parser")
    headlines = soup.findAll('div', class_='pl2')
    for headline in headlines:
        # <div>标签下第一个<a>标签内“title”的值
        print(headline.a["title"], file=fp)
fp.close()

标签：fp,url,request,导论,html,笔记,BeautifulSoup,课程,爬虫
From： https://www.cnblogs.com/cmml/p/17175957.html

node学习笔记（四）--- 知识点归集
1、利用node原生封装一个求文件hash的方法const{createHash}=require('crypto');const{createReadStream}=require('fs');constgetFileMd5=(filePath)=......
C语言数据类型笔记
Unsigned如果一个字面量常数想要表达自己是unsigned，可以在后面加u或U255U用l或L表示long(long)*unsigned的初衷并非扩展数能表达的范围，而是为了做纯二进制运算，主要是......
Qt学习笔记 - 第一章 - 快速开始、信号与槽
Qt学习笔记全系列传送门：【本章】Qt学习笔记-第一章-快速开始、信号与槽Qt学习笔记-第二章-添加图片、布局、界面切换目录1、Qt工程创建2、工程文件......
Python学习笔记（七）字符串操作
一、数据类型转换%s字符串%d数值整数%f浮点数formatf表达式挖坑填坑法则1name='张三'2age=183height=180.545print('我的名字是%s'%name)6p......
数字电子技术基础系统方法笔记第一章
1.1数字和模拟信号及系统模拟量具有连续的数值，数字量具有离散的数值。自然加中大多数可以测量的对象都是模拟量。example：模拟量：温度，湿度，压力，速度。数字量：计算机储存......
Kotlin 学习笔记（一）
最近开始学习Kotlin语言了，打算搞个笔记系列，这是首篇~基本类型varage:Int=123//标准语法，声明一个可变变量agevalname:String="Tom"//标准语法，声明......
第一天笔记
目录Hive建表建表1：全部使用默认建表方式建表2：指定location（这种方式也比较常用）建表3：指定存储格式建表4：createtablexxxxasselect_statement(SQL语句)(这种方式比较常用......
《鞅与一类关于停时的概率与期望问题》学习笔记
发现自己学的脑子都没了，重新系统的学（抄）一遍 $1\\$鞅与鞅的停时定理$1.1\$鞅定义$1.1.1.\$随机过程对于每一个参数$t\inT,\omega\in\Omega$，\(X(......
「学习笔记」概率和期望
「学习笔记」概率和期望点击查看目录目录「学习笔记」概率和期望例题P1850[NOIP2016提高组]换教室P2473[SCOI2008]奖励关P4284[SHOI2014]概率充电器P3232[HNOI......
2023/3/5 C#学习笔记
实现不同版本的重载方法的定义和使用通过使用可选参数和具名参数实现编译器根据参数自动选择重载方法版本*可选参数：定义方法时为参数提供默认值，没有提供默认值的参数是必需......

大数据导论课程笔记

网络爬虫

相关文章

赞助商

阅读排行