首页 > 编程语言 >python单线程爬虫安装与调试

python单线程爬虫安装与调试

时间:2022-11-18 10:12:11浏览次数:41  
标签:python 爬虫 单线程 requests 源代码 安装 Requests

信息时代的到来,带给我们海量信息的同时也给我们带来很多有用的价值。如何在这些海量信息池里面找到自己需要的有价值的信息就离不开爬虫技术了,那么在python下如果去部署安装单线程爬虫,下面的文章可以供大家参考。

Requests介绍与安装

Windows环境下:pip install requests  

Linux环境下:sudo pip install requests  

第三方库安装技巧

少使用easy_install因为只能安装不能卸载  

多用pip方式安装  

将下载的后缀为whl的文件改为zip, 解压文件,获得requests文件,拷贝到C盘的python/lib文件夹中。  

第一个网络爬虫

Requests获取网页源代码  

直接获取源代码    

修改http头获取源代码  

爬取华科云商首页的源代码

import requests
html = requests.get('http://jshk.com.cn/mb/bohao/')
print html.text

单线程爬虫的基本原理:使用requests获取网页源代码,再使用正则表达式匹配出感兴趣的内容。

向网页提取数据Get与Post

Get是从服务器上获取数据

Post是向服务器传送数据

Get通过构造url中的参数来实现功能

分析目标网站

网站地址:https://www.crowdfunder.com/browse/deals

分析工具:Chrome-审核元素-Network

Requests表单提交功能

核心方法:Requests.post

核心步骤:构造表单-提交表单-获取返回信息

标签:python,爬虫,单线程,requests,源代码,安装,Requests
From: https://blog.51cto.com/u_13488918/5867719

相关文章