用python爬取网络文章----滴天髓

时间：2023-01-02 21:01:26浏览次数：41

标签：python doc 滴天髓 ---- url text print requests

用python爬取网络文章真的很简单。主要分以下几个步骤

1、安装并导入相关模块.

这里我们要用到两个模块，分别是reqesets和lxml

安装命令pip install requests和pip install lxml

1 import requests
2 from lxml import etree

2、发送请求并收集反馈

把网址赋值给一个变量url（注意，这里的网址是字符串形式）

1 url = 'https://m.wang1314.com/doc/webapp/topic/20874499.html'
2 r = requests.get(url).text

然后发送请求，并把返回值赋值给变量r

如果无反应，就尝试加上请求头，以字典的方式传参数

headers = {“user-agent”:“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36”}

r = requests.get(url，headers = headers).text

3、获取数据并解析

6 docs = etree.HTML(r).xpath('//div/p/b/span')
7 for doc in docs:
8     print(doc.text)
9 print('下载完成！')

4、保存

如果需要保存，就再保存即可

不保存，直接复制粘贴也可以

1 name = input('请输入要保存的文件名：')
2 with open('{}.doc'.format(name), 'w', encoding='utf-8')as f:   # 这里指定了字符编码，有些事不需要指定的。
3     for doc in docs:
4         if doc.text:            # 因为有的doc是空文档，即None类型。而write不能写入空类型，必须是字符串类型。
5             print(doc.text)     # 这个至少预览一下下载内容，不要这个也可以。
6             f.write(doc.text)
7 print('下载完成！')

标签：python,doc,滴天髓,----,url,text,print,requests
From： https://www.cnblogs.com/chengshu1258/p/17020494.html

我的个人网站：红色石头的机器学习之路
我的网站：红色石头的机器学习之路我的知乎：红色石头我的微博：RedstoneWill的微博我的GitHub：RedstoneWill的GitHub我......
Dockerfile
是什么Dockerfile是用来构建Docker镜像的文本文件，是由一条条构建镜像所需的指令和参数构成的脚本。官网--https://docs.docker.com/engine/reference/builder/构建三步......
python+Django学习资源汇总-更新中
Python教程Python3.7.4文档Python基础教程Python教程Python入门 python+django搭建web项目PythonDjango(WEB电......
js hw12
标签页效果-鼠标滑过高亮的菜单选择效果<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content="IE=edge"><......
Springboot 整合 Dubbo/ZooKeeper 详解 SOA 案例
一、为啥整合Dubbo实现SOADubbo不单单只是高性能的RPC调用框架，更是SOA服务治理的一种方案。核心：1.远程通信，向本地调用一样调用远程方法。2.集群容错3.服务自动发......
Vensim7.3.5 WIN10 64位安装步骤
Vensim7.3.5WIN1064位安装步骤：1.使用“百度网盘客户端”下载Vensim7.3.5软件安装包到电脑磁盘英文路径文件夹下，并解压缩，安装前先断开电脑网络，然后找到VensimPLEx32Setup_......
js hw15 spa
spa<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"co......
leetcode-617. 合并二叉树
617.合并二叉树-力扣（Leetcode）递归合并二叉树easy/***Definitionforabinarytreenode.*typeTreeNodestruct{*Valint*Left*TreeNode*......
开源引导工具Ventoy 1.0.86 发布
开源装机工具Ventoy1.0.86正式发布，可使用ISO或者IMG等磁盘镜像格式创建可启动媒体。Ventoy支持在一个U盘上放置多个磁盘镜像，从而可以在一个设备上运行不同版......
MyBatis动态SQL
官方文档：https://mybatis.org/mybatis-3/zh/dynamic-sql.html1、介绍什么是动态SQL：动态SQL指的是根据不同的查询条件,生成不同的Sql语句官网描述：MyBatis的强大......

用python爬取网络文章----滴天髓

相关文章

赞助商

阅读排行