第一次使用爬虫心得

时间：2024-09-19 12:03:43浏览次数：7

标签：浏览器 url data 爬虫第一次 headers json 心得

随手记录，第一次用爬虫

首先说一下环境部分

我的环境：

python3.7
Anconda虚拟环境
所应用库：pandas，json，requests，time（time库因为要爬取数据类型而用的，非必须库）

环境不同不会影响太大（似乎基本没啥影响）

爬虫开始

这里只说一些基础中的基础，适合python没怎么用过的小白食用。
费话不多少，开始...

首先，爬虫就是伪装成浏览器去看数据，并把看到的数据记录下来，然后把记录的数据下载下来。这就叫爬数据，下面直接讲操作：

import pandas as pd
import requests
import json
import time

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}

url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total'
key = requests.get(url, headers=headers)

1、headers
这个headers就是我们伪装成的浏览器，那你们应该问了，这后面一大长串字符咋来的，举个例子如果你要爬这个网页中的数据：

https://wp.m.163.com/163/page/news/virus_report/index.html?nw=1&anw=1

这是网易新闻网页
如果你要伪装成谷歌浏览器，那么复制网址到谷歌浏览器，摁F12，会有以下界面：
在这里插入图片描述
①选中Network
②再选中XHR
③摁F5刷新
④会出来name之下有一系列list，那个是数据存储地址，通过查看发现在第二个里面有我们想要的数据

拉到headers最下面

这个东西复制改动一下（记得加引号*2）
那么那个伪装头就做好了（我们伪装的浏览器就弄好了）
2、url
在同一页
在这里插入图片描述
可以看到url 把‘？t=317...’删了复制到url代码就可以了（‘记得引号’）

key = requests.get(url, headers=headers)

如果把key输出等于200（上面图中绿色小点后面的数字）那么就说明爬虫武器做好了，可以进网站去爬数据了。
3、爬取数据
通过网页可以发现数据是字典类型，那么我们用

data_json = json.loads(r.text)
data = data_json['data']

后面字典数据具体怎么筛选就是python基本操作了，其他大神肯定写了很多，我就不多说了。

标签：浏览器,url,data,爬虫,第一次,headers,json,心得
From： https://www.cnblogs.com/KoiBana/p/18420314

python爬虫连载22
XPath运算符XPath运算符XPath运算符表达式可以返回节点集、字符串、逻辑值、数字。运算符描述实例含义|计算两个节点集//student/name|//student/age选取student元素的所有 name和age元素+加法/classroom/student[age=19+1]选取classroom元素的所有student元素，且......
Nacos学习心得
最近面试发现现在面试不仅要求会用常用的微服务组件，还需要能说出原理和各种什么功能。遂产生了开始学习《Nacos架构&原理》的念头，以下为学习笔记。0.Nacos的一些背景介绍Nacos的前身是阿里的三个产品CongigServer，VIPServer，Diamond。阿里在18年开源Nacos的......
基于大数据的家电之冰箱销售分析系统设计与实现_9ep8e 爬虫可视化大屏
目录技术栈和环境说明具体实现截图Python技术介绍django框架介绍flask框架介绍预期达到的目标系统设计详细视频演示技术路线解决的思路性能/安全/负载方面可行性分析论证python-flask核心代码部分展示python-django核心代码部分展示操作可行性感恩大学老师和同学源码获取......
三丰云免费云服务器试用心得‌
试用三丰云的免费云服务器后，我对其整体表现感到非常满意。服务器性能出色，无论是处理日常任务还是应对高峰期的流量，都能保持流畅稳定的运行，访问速度快，用户体验良好。同时，三丰云提供的免费服务器配置良心，对于初学者来说非常方便，尤其是CentOS里可以选择自带宝塔面板，极大地方便了网站......
【python爬虫案例】利用python爬取豆瓣电影TOP250评分排行数据！
一、爬取对象-豆瓣电影TOP250今天给大家分享一期豆瓣读书TOP排行榜250的python爬虫案例爬取的目标网址是：https://movie.douban.com/top250咱们以目标为驱动，以兴趣为导向，先来看下爬虫程序运行后得到的excel文档数据那代码是如何实现豆瓣电影TOP250数据爬取的了？下面逐一讲解一......
山东大学可视化2024第一次实验
问题：画出美国1900与2000人口分布介绍：只是一个非常粗糙的可视化模板，注意后续改一下颜色什么的~步骤：1.安装vscode2.下载安装图片中插件3.新建一个文件夹并添加到工作区4.创建一个html文件5.将数据粘贴到文件夹中6.将以下代码粘贴到html文件中<!DOCTYPEhtml><h......
爬虫cookie的使用
cookie是一种由网站创建并存储在用户计算机上的小型文本文件。访问该网站时由浏览器返回给服务器。cookie主要作用是帮助网站记住用户信息，包括但不限于：会话管理，网站使用cookie识别用户的会话，以便用户在浏览网站时不需要重复登录。个性化体验，通过存储用户的偏好设置，网站可以在用......
计算机毕业设计Python深度学习水文预测水文可视化水文爬虫洪水自然灾害预测水文数
多数据源水文数据获取技术与应用分析摘要随着信息技术的不断发展，水文数据获取和分析成为了现代水文学研究的重要内容。多数据源水文数据获取技术与应用分析系统为我们提供了一种新的水文数据处理和分析方式。该系统利用爬虫技术获取长江水文网的数据，采用 Python ......
计算机毕业设计Flink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数
《Flink+Hadoop广告推荐系统》开题报告一、项目背景与意义随着互联网技术的飞速发展和数据量的爆炸性增长，广告推荐系统已成为互联网企业提升用户体验和增加收益的重要手段。传统的广告推荐系统往往面临计算效率低、实时性差、推荐精度不足等问题，难以满足当前复杂多变的业务需......
c++入门（七万字心得体会！！）分上下两篇（初阶+进阶）
目录c++入门c++关键字命名空间命名空间定义命名空间使用c++输入输出缺省参数缺省参数概念缺省参数分类函数重载函数重载概念c++支持函数重载原理--名字修饰（name）引用引用概念引用特性常引用使用场景传值，传引用效率对比引用和指针的区别内联函数概念特性a......

第一次使用爬虫心得

首先说一下环境部分

爬虫开始

相关文章

赞助商

阅读排行