随手记录,第一次用爬虫
首先说一下环境部分
我的环境:
python3.7
Anconda虚拟环境
所应用库:pandas,json,requests,time(time库因为要爬取数据类型而用的,非必须库)
环境不同不会影响太大(似乎基本没啥影响)
爬虫开始
这里只说一些基础中的基础,适合python没怎么用过的小白食用。
费话不多少,开始...
首先,爬虫就是伪装成浏览器去看数据,并把看到的数据记录下来,然后把记录的数据下载下来。这就叫爬数据,下面直接讲操作:
import pandas as pd
import requests
import json
import time
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total'
key = requests.get(url, headers=headers)
1、headers
这个headers就是我们伪装成的浏览器,那你们应该问了,这后面一大长串字符咋来的,举个例子如果你要爬这个网页中的数据:
https://wp.m.163.com/163/page/news/virus_report/index.html?nw=1&anw=1
这是网易新闻网页
如果你要伪装成谷歌浏览器,那么复制网址到谷歌浏览器,摁F12,会有以下界面:
①选中Network
②再选中XHR
③摁F5刷新
④会出来name之下有一系列list,那个是数据存储地址,通过查看发现在第二个里面有我们想要的数据
拉到headers最下面
这个东西复制改动一下(记得加引号*2)
那么那个伪装头就做好了(我们伪装的浏览器就弄好了)
2、url
在同一页
可以看到url 把‘?t=317...’删了复制到url代码就可以了(‘记得引号’)
key = requests.get(url, headers=headers)
如果把key输出等于200(上面图中绿色小点后面的数字)那么就说明爬虫武器做好了,可以进网站去爬数据了。
3、爬取数据
通过网页可以发现数据是字典类型,那么我们用
data_json = json.loads(r.text)
data = data_json['data']
后面字典数据具体怎么筛选就是python基本操作了,其他大神肯定写了很多,我就不多说了。
标签:浏览器,url,data,爬虫,第一次,headers,json,心得 From: https://www.cnblogs.com/KoiBana/p/18420314