用python爬取网络文章真的很简单。主要分以下几个步骤
1、安装并导入相关模块.
这里我们要用到两个模块,分别是reqesets和lxml
安装命令pip install requests和pip install lxml
1 import requests 2 from lxml import etree
2、发送请求并收集反馈
把网址赋值给一个变量url(注意,这里的网址是字符串形式)
1 url = 'https://m.wang1314.com/doc/webapp/topic/20874499.html' 2 r = requests.get(url).text
然后发送请求,并把返回值赋值给变量r
如果无反应,就尝试加上请求头,以字典的方式传参数
headers = {“user-agent”:“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36”}
r = requests.get(url,headers = headers).text
3、获取数据并解析
6 docs = etree.HTML(r).xpath('//div/p/b/span') 7 for doc in docs: 8 print(doc.text) 9 print('下载完成!')
4、保存
如果需要保存,就再保存即可
不保存,直接复制粘贴也可以
1 name = input('请输入要保存的文件名:') 2 with open('{}.doc'.format(name), 'w', encoding='utf-8')as f: # 这里指定了字符编码,有些事不需要指定的。 3 for doc in docs: 4 if doc.text: # 因为有的doc是空文档,即None类型。而write不能写入空类型,必须是字符串类型。 5 print(doc.text) # 这个至少预览一下下载内容,不要这个也可以。 6 f.write(doc.text) 7 print('下载完成!')
标签:python,doc,滴天髓,----,url,text,print,requests From: https://www.cnblogs.com/chengshu1258/p/17020494.html