首页 > 编程语言 >用python爬取网络文章----滴天髓

用python爬取网络文章----滴天髓

时间:2023-01-02 21:01:26浏览次数:35  
标签:python doc 滴天髓 ---- url text print requests

用python爬取网络文章真的很简单。主要分以下几个步骤

1、安装并导入相关模块.

这里我们要用到两个模块,分别是reqesets和lxml

安装命令pip install requests和pip install lxml

1 import requests
2 from lxml import etree

 

2、发送请求并收集反馈

把网址赋值给一个变量url(注意,这里的网址是字符串形式)

1 url = 'https://m.wang1314.com/doc/webapp/topic/20874499.html'
2 r = requests.get(url).text

然后发送请求,并把返回值赋值给变量r

如果无反应,就尝试加上请求头,以字典的方式传参数

headers = {“user-agent”:“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36”}

r = requests.get(url,headers = headers).text

3、获取数据并解析

6 docs = etree.HTML(r).xpath('//div/p/b/span')
7 for doc in docs:
8     print(doc.text)
9 print('下载完成!')

4、保存

如果需要保存,就再保存即可

不保存,直接复制粘贴也可以

1 name = input('请输入要保存的文件名:')
2 with open('{}.doc'.format(name), 'w', encoding='utf-8')as f:   # 这里指定了字符编码,有些事不需要指定的。
3     for doc in docs:
4         if doc.text:            # 因为有的doc是空文档,即None类型。而write不能写入空类型,必须是字符串类型。
5             print(doc.text)     # 这个至少预览一下下载内容,不要这个也可以。
6             f.write(doc.text)
7 print('下载完成!')

 

标签:python,doc,滴天髓,----,url,text,print,requests
From: https://www.cnblogs.com/chengshu1258/p/17020494.html

相关文章

  • 我的个人网站:红色石头的机器学习之路
    我的网站:​​红色石头的机器学习之路​​​我的知乎:​​​红色石头​​​我的微博:​​​RedstoneWill的微博​​​我的GitHub:​​​RedstoneWill的GitHub​​​我......
  • Dockerfile
    是什么Dockerfile是用来构建Docker镜像的文本文件,是由一条条构建镜像所需的指令和参数构成的脚本。官网--https://docs.docker.com/engine/reference/builder/构建三步......
  • python+Django学习资源汇总-更新中
    ​​Python教程​​​​Python3.7.4文档​​​​Python基础教程​​​​Python教程​​​​Python入门​​ ​​python+django搭建web项目​​​​PythonDjango(WEB电......
  • js hw12
    标签页效果-鼠标滑过高亮的菜单选择效果<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content="IE=edge"><......
  • Springboot 整合 Dubbo/ZooKeeper 详解 SOA 案例
    一、为啥整合Dubbo实现SOADubbo不单单只是高性能的RPC调用框架,更是SOA服务治理的一种方案。核心:1.远程通信,向本地调用一样调用远程方法。2.集群容错3.服务自动发......
  • Vensim7.3.5 WIN10 64位安装步骤
    Vensim7.3.5WIN1064位安装步骤:1.使用“百度网盘客户端”下载Vensim7.3.5软件安装包到电脑磁盘英文路径文件夹下,并解压缩,安装前先断开电脑网络,然后找到VensimPLEx32Setup_......
  • js hw15 spa
    spa<!--locationnavigatorhistoryscreenwindow--><!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"co......
  • leetcode-617. 合并二叉树
    617.合并二叉树-力扣(Leetcode)递归合并二叉树easy/***Definitionforabinarytreenode.*typeTreeNodestruct{*Valint*Left*TreeNode*......
  • 开源引导工具Ventoy 1.0.86 发布
    开源装机工具Ventoy1.0.86正式发布,可使用ISO或者IMG等磁盘镜像格式创建可启动媒体。Ventoy支持在一个U盘上放置多个磁盘镜像,从而可以在一个设备上运行不同版......
  • MyBatis动态SQL
    官方文档:https://mybatis.org/mybatis-3/zh/dynamic-sql.html1、介绍什么是动态SQL:动态SQL指的是根据不同的查询条件,生成不同的Sql语句官网描述:MyBatis的强大......