一、介绍西瓜皮
Scrapy(西瓜皮)是一个为了爬取网站数据、提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或者存储历史数据等一系列的程序中。
二、注意事项
目前Scrapy不支持Python3,因此需要安装Python2.7来使用Scrapy,Python2.7和3是可以共存的。
三、安装Python2.7
下载网址:https://www.python.org/downloads/release/python-2715/
这里选择windows 32位(32位可以兼容32位与64位系统,反之不行)
下载完成后,点击安装
怎样查看是否安装成功:
方式有很多,这里可以打开IDLE,输入help()
安装完成后到所有程序中找到python2.7下的IDLE,右键发送到桌面快捷方式(为了方便,不是必须)
找到python2.7的安装目录下的脚本文件:
点击右键编辑,选择2.7版本对应的IDLE,选择上面的run module F5
完成设置环境变量
四、安装pywin32(32位版本)
地址为:https://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/
是个exe文件,点击安装即可
五、安装pip
地址:https://pip.pypa.io/en/stable/installing/
pip实际上是Python的一个安装软件的模块
下载get-pip.py然后还是打开运行同上。
六、安装lxml
虽然可以用pip安装lxml,但如果是windows,建议不要,使用lxml专门为windows提供的安装包
网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
找到下面的lxml
选择对应版本下载并安装
七、使用pip安装pyOpenSSL
在两个Python版本并存的情况下,使用pip安装时,命令为:py -2 -m install pyOpenSSL
如果提示你pip需要升级则执行:
注意:
这里pip安装需要微软的VS2008C语言编译器,没有安装或者版本太高也是不行,也可以安装微软为Python准备的:
VCForPython27.msi
地址:
http://www.microsoft.com/en-us/download/details.aspx?id=44266
八、安装Scrapy
双版本并存下,使用:py -2 -m install Scrapy
验证是否安装成功