首页 > 编程语言 >Python爬虫常用库的安装及环境配置(widows系统)

Python爬虫常用库的安装及环境配置(widows系统)

时间:2024-08-10 16:28:27浏览次数:15  
标签:pip3 Python 爬虫 学习 使用 import widows 安装

Python常用库的安装

  • urllib、re 这两个库是Python的内置库,直接使用方法import导入即可。

  • requests 这个库是请求的库。我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下,我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证。

    \>>> import requests
    \>>> requests.get('http://www.baidu.com')
    <Response \[200\]>
    
  • selenium 实际上是用来浏览器的一个库,做爬虫时可能会碰到使用JS渲染的网页,使用requests来请求时,可能无法正常获取内容,我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3 install selenium安装。进行验证。

    \>>> import selenium
    \>>> from selenium import webdriver
    \>>> driver = webdriver.Chrome()
    
    DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910
    \>>> driver.get('http://www.baidu.com')
    

    上述命令可以直接打开chrome浏览器,并且打开百度。但是,在这之前我们必须安装一个chromedriver,并且安装googlchrome浏览器,可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况,那么问题出在,chrome和chromdriver的版本不兼容,可以在官网下载chrome更高的版本,或者chromedriver更低的版本,但是只要都是最高版本就没问题。

  • phantomjs 是一个无界面浏览器,在后台运行。可在官网自行下载。并且需要将phantomjs.exe 的所在目录设为环境变量。测试代码。

    \>>> from selenium import webdriver
    \>>> driver = webdriver.PhantomJS()
    \>>> driver.get('http://www.baidu.com')
    \>>> driver.page\_source
    '<!DOCTYPE html><!--STATUS OK--><html><head>\\n 
    
  • lxml 使用pip3 install lxml安装。

  • beautifulsoup 是一个网络解析库,依赖于lxml库。使用pip3安装。必须安装pip3 install beautifulsoup4,因为beautifulsoup已经停止维护了。安装验证。

    \>>> from bs4 import BeautifulSoup
    \>>> soup = BeautifulSoup('<html></html>','lxml')
    \>>>
    
  • pyquery 也是网页解析库,较bs4更加方便,语法和Jquery无异。也是使用pip3 安装。

    \>>> from pyquery import PyQuery as pq   #将其重命名
    >>> doc = pq('<html></html>')
    \>>> doc = pq('<html>hello world</html>')
    \>>> result = doc('html').text()
    \>>> result
    'hello world'
    
  • pymysql 是一个操作mysql数据库的库。使用pip3 安装。

    \>>> import pymysql
    \>>> conn = pymysql.connect(host='localhost',user='root',password = '123456',port=3306,db='mysql')
    \>>> cursor = conn.cursor()
    \>>> cursor.execute('select \* from db')
    0
    
  • pymongo 操作数据库MongoDB的库。需要开启MongoDB服务,在计算机管理当中的服务寻找。也是使用pip3安装。

    \>>> import pymongo
    \>>> client = pymongo.MongoClient('localhost')
    \>>> db = client\['newtestdb'\]
    \>>> db\['table'\].insert({'name':'tom'})
    ObjectId('5b868ee4c4d17a0b2466f748')
    \>>> db\['table'\].find\_one({'name':'tom'})
    {'\_id': ObjectId('5b868ee4c4d17a0b2466f748'), 'name': 'tom'}
    \>>> #完成了单条数据的查询
    
  • redis 一个非关系型数据库,运行效率高。使用pip3 install redis安装。

    \>>> import redis
    \>>> r = redis.Redis ('localhost',6379)
    \>>> r.set('name','tom')
    True
    \>>> r.get('name')
    b'tom'
    >>> #是一个byte型数据类型
    
  • flask 做代理时可能会用到。使用pip3 安装。详细内容可以在flask官网查看flask文档。

  • django 是一个web服务器框架,提供了一个完整的后台管理,引擎、接口等,可以使用它做一个完整的网站。可在django的官网查看文档。使用pip3 install django安装。

  • jupyter 可以理解为一个记事本,运行哎网页端,可以进行写代码,调试,运行。在官网可以下载jupyter,也可以用pip3 安装,相关库非常多,安装比较久。安装后可以在命令行直接运行jupyter notebook,因为此文件在scrips目录下。

    C:\\Users\\dell>jupyter notebook
    \[I 20:32:37.552 NotebookApp\] The port 8888 is already in use, trying another port.
    \[I 20:32:37.703 NotebookApp\] Serving notebooks from local directory: C:\\Users\\dell
    

    可以在选项 new 中建立新python3文件,并且可以编写代码。

    默认的文件名为unite,此处将其改为testDemo,使用快捷键ctrl+回车 运行,按键B跳转至新的编辑行。


最后这里免费分享给大家一份Python全台学习资料,包含视频、源码。课件,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,也可以和我一起来学习交流呀。
编程资料、学习路线图、源代码、软件安装包【点击这里】领取!

Python所有方向的学习路线图,清楚各个方向要学什么东西
100多节Python课程视频,涵盖必备基础、爬虫和数据分析
100多个Python实战案例,学习不再是只会理论
华为出品独家Python漫画教程,手机也能学习
历年互联网企业Python面试真题,复习时非常方便
请添加图片描述

请添加图片描述

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

请添加图片描述

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

标签:pip3,Python,爬虫,学习,使用,import,widows,安装
From: https://blog.csdn.net/2401_86078658/article/details/141092355

相关文章

  • Python 潮流周刊#64:Python 的函数调用还很慢么?(摘要)
    本周刊由Python猫出品,精心筛选国内外的250+信息源,为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景:帮助所有读者精进Python技术,并增长职业和副业的收入。分享了11篇文章,13个开源项目,1则音视频,全文2000字。以下是本期摘要:......
  • 黑马程序员Python课程学习笔记5
    数据容器Python中的数据容器:一种可以容纳多份数据的数据类型,容纳的每一份数据称之为1个元素。每一个元素,可以是任意类型的数据,如字符串、数字、布尔等。数据容器根据特点的不同,如:是否支持重复元素是否可以修改是否有序,等分为5类,分别是:列表(list)、元组(tuple)、字符串(str......
  • 黑马程序员Python课程学习笔记6
    函数的多返回值按照返回值的顺序,写对应顺序的多个变量接收即可变量之间用逗号隔开支持不同类型的数据returneg.deftest_return():    return1,2x,y=test_return()函数的多种参数使用形式位置参数位置参数:调用函数时根据函数定义的参数位置来传递参数注意:传......
  • Python time模块与datetime模块的区别
    时间方面的编程在开发过程中是很常见的,而Python提供了datetime和time这两个关于时间的模块。接下来,我们将讨论这两个模块中的函数有什么区别。time模块:如果你想要获取当前的本地时间,那么首先你需要运行time.time()来获取当下的时间戳。importtime#获取目前的时间戳ti......
  • python程序代码这样加密保护,你觉得可以吗?
    python程序代码很容易反编译,下面我体验了pyhton代码保护的好方法,方案支持windows与Linux系统,下面以linux系统为例进行加密演示。下载最新Linux平台开发工具包 http://chinadlp.com/?list-DriveDownload.html拷贝到有桌面的Ubuntu系统中解压:tar-xzfSentinel-LDK.tar.gz ......
  • Python网络爬虫抓取动态网页并将数据存入数据库MySQL
    简述以下的代码是使用python实现的网络爬虫,抓取动态网页http://hb.qq.com/baoliao/。此网页中的最新、精华下面的内容是由JavaScript动态生成的。审查网页元素与网页源码是不同。以上是网页源码以上是审查网页元素所以此处不能简单的使用正则表达式来获取内容。......
  • Python 爬虫项目实战(七):制作视频下载软件
    前言网络爬虫(WebCrawler),也称为网页蜘蛛(WebSpider)或网页机器人(WebBot),是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓取等。爬虫的基本原理种子URL:爬虫从一个或多个种子URL开始,这些URL是起点。发送请求:爬虫向这些种......
  • Python 爬虫项目实战(六):爬取大众点评商家数据
    前言网络爬虫(WebCrawler),也称为网页蜘蛛(WebSpider)或网页机器人(WebBot),是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓取等。爬虫的基本原理种子URL:爬虫从一个或多个种子URL开始,这些URL是起点。发送请求:爬虫向这些种......
  • 【解决】Python运行中卡住不动-深度解析
    【解决】Python运行中卡住不动-深度解析在Python编程的广阔世界里,遇到程序运行中突然卡住不动的情况并不罕见。这种情况可能源于多种原因,从简单的代码逻辑错误到复杂的系统资源问题。本文将深入探讨Python程序卡住不动的现象,分析其可能的原因,并提供实用的解决思路和......
  • Python官网下载速度超慢:深度解析
    Python官网下载速度超慢:深度解析解决思路1.检查网络连接首先,确保你的网络连接是稳定的,并且没有其他设备或程序占用大量带宽。2.选择合适的下载节点Python官网可能提供了多个镜像站点或下载链接,尝试选择距离你地理位置较近的镜像站点进行下......